Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT)

doi:10.5281/zenodo.4643066

Published April 2, 2021 | Version 2021-04-02

Dataset Open

Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT)

Fobbe, Sean

Überblick

Das Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT) ist eine digitale Zusammenstellung von allen Drucksachen des Deutschen Bundestages der 1. bis 18. Wahlperiode, die auf dessen Open Data Portal veröffentlicht wurden.

Drucksachen sind schriftliche Dokumente, welche die Beratungen des Bundestages vor- und nachbereiten und als Verhandlungsgegenstand auf die Tagesordnung des Bundestages gesetzt werden können (§ 75 Geschäftsordnung des Bundestages). Die inhaltliche Bandbreite ist hierbei sehr weit und umfasst beispielsweise Gesetzentwürfe, Beschlussvorlagen, kleine Anfragen, Antworten der Bundesregierung, Berichte von Untersuchungsausschüssen und Wahlvorschläge.

Bitte beachten Sie das beiliegende Codebook! Es enthält wichtige Informationen zur korrekten Nutzung des Datensatzes. Es hilft auch bei der Entscheidung, welche Variante für Sie am besten geeignet ist. In der Regel empfehle ich für quantitative Forschung die CSV-Dateien und für traditionelle Forschung die TXT-Sammlung.

Der CDRS-BT ist der Zwillings-Korpus des Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT). Beide Korpora bauen auf der gleichen Datenstruktur auf, wurden nach den gleichen Prinzipien mit größtenteils identischem Code konstruiert und sind vollständig miteinander kompatibel. Durch die Verbindung beider Korpora können Sie Plenarprotokolle und Drucksachen — und damit alle Vorgänge des Bundestages — in einheitlichen Analysen untersuchen. Beachten Sie aber bitte, dass der CDRS-BT zusätzliche Variablen enthält, weil die Datengrundlage reichhaltiger ist.

Aktualisierung

Dieser Datensatz wird mindestens einmal pro Wahlperiode aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Mastodon unter @seanfobbe@fediscience.org

Features

Die Stärken dieses Datensatzes sind der gewaltige Umfang, fortlaufende Aktualisierung, Urheberrechtsfreiheit und die sowohl für traditionelle Forschung als auch für quantitative Studien geeigneten Formate (CSV, TXT, XML).

Im ZIP-Archiv ANALYSE stelle ich zudem 34 hochwertige Diagramme und Tabellen für alle Zwecke zur Verfügung. Jedes Diagramm liegt in einem für den Druck (PDF) und das Web (PNG) optimierten Format vor. Tabellen sind im CSV-Format bereitgestellt und sind damit sowohl für Menschen als auch für Maschinen gut lesbar.

Eckdaten

Stichtag: 2. April 2021

Inhaltlicher Umfang: 131 835 Drucksachen / ~805 Millionen Tokens (Version 2021-04-02)

Zeitlicher Umfang: 1949 bis 2017 (Version 2021-04-02)

Wahlperioden: 1. bis 18. Wahlperiode (Version 2021-04-02)

Formate: CSV, TXT und XML

Source Code und Compilation Report

Der gesamte Erstellungs-Prozess ist vollautomatisiert und detailliert dokumentiert. Mit jeder Kompilierung des vollständigen Datensatzes wird auch ein umfangreicher Compilation Report in einem attraktiv designten PDF-Format erstellt (ähnlich dem Codebook).

Der Compilation Report enthält den vollständigen Source Code, dokumentiert relevante Rechenergebnisse, gibt sekundengenaue Zeitstempel an und ist mit einem klickbaren Inhaltsverzeichnis versehen. Er ist zusammen mit dem Source Code hinterlegt. Wenn Sie sich für Details des Erstellungs-Prozesses interessieren, lesen Sie diesen bitte zuerst.

Der vollständige Source Code — sowohl für die Erstellung des Datensatzes, als auch für das Codebook — ist öffentlich einsehbar und dauerhaft erreichbar im wissenschaftlichen Archiv des CERN unter diesem Link hinterlegt: https://doi.org/10.5281/zenodo.4643068

Kryptographische Signaturen

Die Integrität und Echtheit der einzelnen Archive des Datensatzes sind durch eine Zwei- Phasen-Signatur sichergestellt.

In Phase I werden während der Kompilierung für jedes ZIP-Archiv Hash-Werte in zwei verschiedenen Verfahren (SHA2-256 und SHA3-512) berechnet und in einer CSV-Datei dokumentiert.

In Phase II wird diese CSV-Datei mit meinem persönlichen geheimen GPG-Schlüssel signiert. Dieses Verfahren stellt sicher, dass die Kompilierung von jedermann durchgeführt werden kann, insbesondere im Rahmen von Replikationen, die persönliche Gewähr für Ergebnisse aber dennoch vorhanden bleibt.

Die während der Kompilierung des Datensatzes erstellte CSV-Datei mit den Hash-Prüfsummen ist mit meiner persönlichen GPG-Signatur versehen. Der mit dieser Version korrespondierende Public Key ist sowohl mit dem Datensatz als auch mit dem Source Code hinterlegt. Er hat folgende Kenndaten:

Name: Sean Fobbe (fobbe-data@posteo.de)

Fingerabdruck: FE6F B888 F0E5 656C 1D25 3B9A 50C4 1384 F44A 4E42

Kein Urheberrecht: Public Domain

An den Drucksachen besteht gem. § 5 UrhG kein Urheberrecht, da sie amtliche Werke sind. § 5 UrhG ist auf amtliche Datenbanken analog anzuwenden (BGH, Beschluss vom 28.09.2006 - I ZR 261/03, "Sächsischer Ausschreibungsdienst"). Alle eigenen Beiträge (z.B. durch Zusammenstellung und Anpassung der Metadaten) und damit den gesamten Datensatz stelle ich gemäß einer CC0 1.0 Universal Public Domain License vollständig urheberrechtsfrei.

Disclaimer

Dieser Datensatz ist eine private wissenschaftliche Initiative und steht in keiner Verbindung zum Deutschen Bundestag oder anderen amtlichen Stellen der Bundesrepublik Deutschland.

Alternativen

Kroeber, Corinna; Remschel, Tobias, 2020, "Every single word - A new dataset including all parliamentary materials published in Germany", https://doi.org/10.7910/DVN/7EJ1KI, Harvard Dataverse, V2

Weitere Open Access Veröffentlichungen (Fobbe)

Website — www.seanfobbe.de

Open Data — zenodo.org/communities/sean-fobbe-data/

Source Code — zenodo.org/communities/sean-fobbe-code/

Volltexte regulärer Publikationen — zenodo.org/communities/sean-fobbe-publications/

Kontakt

Fehler gefunden? Anregungen? Melden Sie diese entweder im Issue Tracker auf GitHub oder schreiben Sie mir eine E-Mail an fobbe-data@posteo.de

Files

CDRS-BT_2021-04-02_Codebook.pdf

Files (4.5 GB)

Name	Size	Download all
CDRS-BT_2021-04-02_Codebook.pdf md5:32b1882cf224382d3eddea4806ae8c4d	480.2 kB	Preview Download
CDRS-BT_2021-04-02_DE_ANALYSE.zip md5:2e3d91ca49acbe49c5d9696ba85ef6e8	1.2 MB	Preview Download
CDRS-BT_2021-04-02_DE_CSV_Datensatz.zip md5:0c96d476700c93d90ecbe8be4ee471df	1.4 GB	Preview Download
CDRS-BT_2021-04-02_DE_CSV_Metadaten.zip md5:d81e9327c73c7b767931a72cc176756d	10.9 MB	Preview Download
CDRS-BT_2021-04-02_DE_TXT_Datensatz.zip md5:596e32ed82904bd8d50142a6f4e40007	1.5 GB	Preview Download
CDRS-BT_2021-04-02_DE_XML_Datensatz.zip md5:8b9de0788fc6fde284d5c98c956635c2	1.5 GB	Preview Download
CDRS-BT_2021-04-02_DE_XML_DocumentTypeDefinition.dtd md5:226466cfab10646e17ed36fa3f1d3564	2.1 kB	Download
CDRS-BT_2021-04-02_KryptographischeSignaturen.zip md5:35ee00a836fcaaf20cc9845aaf65e99a	5.8 kB	Preview Download

Additional details

Is compiled by: Software: 10.5281/zenodo.4643068 (DOI)
Is derived from: https://www.bundestag.de/services/opendata (URL)

	All versions	This version
Views	1,667	1,651
Downloads	617	613
Data volume	171.3 GB	169.9 GB

Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT)

Creators

Description

Files

CDRS-BT_2021-04-02_Codebook.pdf

Files (4.5 GB)

Additional details

Related works