Schlüsselwörter

figure a

Im Bereich Computational Methods besteht eine zentrale Frage darin, wie automatisiert sozial- und geisteswissenschaftlich relevante Daten gewonnen werden können. Automatisierte Datenerhebungen sind vor allem dort sinnvoll, wo sehr viele Daten anfallen, die man ungern manuell aufbereiten will. Das trifft beispielsweise für die Kommunikation auf Online-Plattformen wie Facebook zu. Die Daten sind dabei in der Regel schon vorhanden und werden nicht erst von Wissenschaftler:innen erstellt. Sie fallen im Zusammenhang mit menschlichem Verhalten ohnehin an, deshalb spricht man auch von prozessgenerierten Daten (Johnson und Turner 2003). Dennoch kann man nicht davon ausgehen, dass hier ein unverfälschter Zugang zu einer ohnehin vorhandenen sozialen Wirklichkeit besteht, vielmehr wird Wirklichkeit erst auf den Plattformen erzeugt – zum Beispiel spielen die Funktionen der Plattformen eine wichtige Rolle dafür, welche Daten entstehen und zugänglich sind (siehe zum Beispiel Jünger 2021).

Über verschiedene Datenzugänge werden unterschiedliche Repräsentationen von Wirklichkeit sichtbar. Dieser Punkt lässt sich gut am Beispiel von Online-Kommunikation verdeutlichen. Aus technischer Sicht ist Online-Kommunikation dadurch gekennzeichnet, dass zwei Maschinen miteinander interagieren. Auf der Seite der Nutzer:innen wird diese Maschine als Client bezeichnet, der Client schickt eine Anfrage an einen Server. Der Server bearbeitet die Anfrage und schickt eine Antwort zurück. Beim Surfen im Web findet dieses Wechselspiel ausgehend von einem Browser wie Firefox, Chrome oder Safari statt. Automatisierte Datenerhebung ist nun dadurch gekennzeichnet, dass Skripte oder Programme eingesetzt werden, um Daten beim Server anzufragen. Statt also die Adresse https://www.google.de in den Browser einzugeben, wird diese Adresse in einem Erhebungstool erzeugt und das Ergebnis wird weiterverarbeitet (Abb. 2.1).

Abb. 2.1
figure 1

Verfahren automatisierter Datenerhebung im Web. (Quelle: eigene Darstellung)

Normalerweise antworten Webserver mit HTML-Dateien, die dann im Browser grafisch dargestellt werden. Diese HTML-Dateien enthalten die Daten und Verweise auf weitere Dateien, die zur Darstellung benötigt werden, etwa zu Bilddateien. Formatvorlagen in der Form von CSS-Dateien steuern darüber hinaus die Gestaltung, etwa die Schriftfarbe, und JavaScript-Dateien fügen interaktive Elemente hinzu, zum Beispiel zum Auf- und Zuklappen von Menüs. Wenn bei der automatisierten Datenerhebung mit diesen HTML-Dateien gearbeitet wird, spricht man von Webscraping (siehe Abschn. 7.1). Die Dateien werden hierbei nicht angezeigt, sondern es werden einzelne Daten wie Texte oder Tabellen aus dem HTML-Quelltext von Webseiten extrahiert.

Viele Webseiten, unter anderem Social-Media-Plattformen, stellen zusätzlich sogenannte Application Programming Interfaces (APIs) zur Verfügung. Eine solche API unterscheidet sich von Webseiten dadurch, dass sie für den automatisierten Zugriff unabhängig von einem Browser entwickelt wird. Während Anbieter die Struktur einer Webseite bei Bedarf unangekündigt ändern – vor allem, wenn neue Funktionen eingeführt werden –, garantieren die Betreiber von APIs in der Regel, dass diese über lange Zeiträume stabil bleiben. Nur deshalb lohnt sich für Drittanbieter die Investition in eigene Apps, die auf Fremddaten aufbauen. Würde sich etwa die Struktur der Google-Maps-API immer wieder ändern, gäbe es keine Garantie, dass eine darauf aufbauende Geocaching-App danach noch funktioniert. Ein weiterer Unterschied besteht darin, dass die zurückgegebenen Daten nicht im HTML-Format, sondern in stärker vorstrukturierten und damit leichter verarbeitbaren Formaten wie JSON verschickt werden (siehe Kap. 3).

Sowohl der Zugang über Webscraping als auch die Nutzung von APIs sind davon abhängig, welche Daten ein Betreiber zugänglich macht. Im Endeffekt vermitteln beide Wege den kontrollierten Zugriff auf die Datenbanken des Anbieters, es handelt sich dabei jedoch um verschiedene Repräsentationen der Daten. In seltenen Fällen werden die Datenbanken selbst zur Verfügung gestellt. Ein Beispiel wäre die Wikipedia-Datenbank. Auch hier erfolgt der Zugriff aber nicht unvermittelt, zum einen muss die Datenbank erst heruntergeladen werden und zum anderen ist für die Arbeit mit Datenbanken ein passendes Datenbankmanagementsystem (DBMS) nötig (siehe Kap. 3). Insofern gibt es keine unvermittelten Daten und es muss stets reflektiert werden, wofür die erhobenen Daten stehen. In den folgenden Kapiteln werden Grundlagen zu den drei verschiedenen Datenzugängen und entsprechenden Datenformaten vermittelt sowie einige typische Datenquellen benannt.

1 Webseiten

Ein wesentliches Element des Web sind Uniform Resource Locators (URLs), mit denen die verschiedenen Ressourcen im Web adressiert werden. Eine solche URL besteht in der Regel aus fünf Komponenten (Abb. 2.2, ☛ Repositorium):

  • Das Protokoll gibt an, in welcher Sprache die beiden Computer miteinander interagieren. Im Web wird dafür typischerweise HTTP (Hypertext Transfer Protokoll) oder für verschlüsselte Kommunikation HTTPS verwendet.

  • Die Domain identifiziert den Server und besteht selbst wieder aus mehreren durch Punkt getrennten Teilen. Im Beispiel ist die Top-Level-Domain „com“, die Domain selbst ist „youtube“ und das Präfix „www“ wird als Subdomain bezeichnet.

  • Der Pfad gibt die Operation oder die Ressource auf dem Server an. Vereinfachend kann man davon ausgehen, dass hinter einer Domain ein Computer steht und der Pfad die Datei oder das Programm angibt, auf welche zugegriffen werden soll.

  • Nach einem Fragezeichen folgen die Parameter der Anfrage (engl. query string), um dem Server genauere Angaben zum Auffinden der Ressource mitzugeben. Ein Parameter besteht immer aus einem Namen, auf den nach einem Gleichheitszeichen ein Wert folgt. Mehrere Parameter werden durch das &-Zeichen getrennt.

  • Das Hashfragment am Ende der URL wird niemals an den Server gesendet, sondern lediglich im Browser ausgewertet. Damit werden einzelne Teile der Webseite angesprochen, zum Beispiel der Kommentarbereich, sodass die Anzeige direkt zu diesem Abschnitt springen kann.

Darüber hinaus können in Internetadressen noch weitere Angaben vorkommen, die für die Bearbeitung der Anfrage relevant sind, beispielsweise ein sogenannter Port oder Zugangsdaten.

Abb. 2.2
figure 2

Die Bestandteile einer URL. (Quelle: eigene Darstellung)

Zu beachten ist, dass einige Zeichen in URLs speziell kodiert werden müssen – das betrifft die für den Aufbau der URL reservierten Zeichen wie das Fragezeichen, aber auch Umlaute. Diese Zeichen werden durch Prozentkodierung angegeben, sodass aus dem Umlaut ä beispielsweise %C3%A4 wird. Für das Leerzeichen gibt es zwei Varianten, zum einen kann universell die Prozentkodierung %20 verwendet werden, zum anderen ist innerhalb der Parameter das Pluszeichen + anzutreffen.

Welche Rolle spielen URLs nun für Daten auf Webseiten? Im einfachsten Fall ist eine Ressource durch eine URL abrufbar und die entsprechende Webseite enthält Daten wie zum Beispiel eine eingebettete Tabelle mit Mitgliederzahlen politischer Parteien. Auch die gesamte Webseite kann Gegenstand der Analyse sein, wenn Blogs oder Nachrichtenseiten untersucht werden sollen. Zudem sind die URLs selbst für wissenschaftliche Analysen von Interesse, denn dadurch können die Verbindungen zu anderen Seiten verfolgt werden, um so Netzwerke zwischen Webseiten und Akteuren nachzuvollziehen.

Im Web findet sich eine Vielzahl an Webseiten, auf denen Daten beispielsweise in Tabellen- oder Listenform bereitgestellt werden:

  • Primärdaten finden sich insbesondere in Registern politisch-administrativer Angebote. Eine Anlaufstelle für Listen von Unternehmen oder Vereinen ist in Deutschland das gemeinsame Registerportal der Länder (Ministerium der Justiz Nordrhein-Westfalen 2020). Auch das statistische Bundesamt stellt Daten zur Verfügung (Destatis 2022).

  • Berufsverbände und andere Interessenvertretungen listen häufig Daten über ihre Mitglieder auf. So lassen sich Medienangebote unter anderem über die Informationsgesellschaft zur Feststellung der Verbreitung von Werbeträgern (IVW 2022) oder über den Bundesverband Digitalpublisher und Zeitungsverleger (BDZV 2022) identifizieren.

  • Themenportale und Plattformen bieten häufig Überblicksseiten über ihre Datenbestände an. Das reicht von Medienangeboten wie Fernsehserien oder Podcasts über Fußballergebnisse bis zu Cocktailrezepten und App-Stores.

  • Aufbereitete Daten zu allen möglichen Themen finden sich auch in den Artikeln von Online-Enzyklopädien und Nachschlagewerken wie Wikipedia (Wikimedia Deutschland 2022) oder Fandom (Fandom 2022).

Beim Zugang zu diesen Daten stößt man auf ganz unterschiedliche Rahmenbedingungen. Im einfachsten Fall sind alle Daten auf einer einzelnen über eine URL identifizierbare Seite enthalten, zum Beispiel in einer Wikipedia-Tabelle (siehe Abschn. 7.1). Häufig werden lange Listen aber auch über mehrere Seiten verteilt, wobei jede Seite eine eigene URL erhält. Beobachten Sie beim Surfen im Web die URLs: Typischerweise wird die Seite über einen Parameter wie page=5 angegeben und Protokoll, Domain sowie Pfad bleiben gleich.

Die Paginierung, das heißt die Aufteilung auf mehrere Seiten, wird auf stark interaktiven Seiten jedoch nicht immer in der Adressleiste sichtbar, sondern die einzelnen Seiten werden beim Scrollen nach und nach über JavaScript und sogenannte XMLHttpRequests nachgeladen, was die automatisierte Erhebung erschwert. Eine weitere Hürde sind Datenbanken, in denen über Suchformulare recherchiert wird. Hier reicht die Angabe einer URL nicht aus, sondern die Suchbegriffe müssen auf anderem Weg an den Server übermittelt werden. Das HTTP-Protokoll sieht verschiedene Methoden der Interaktion mit einem Webserver vor: GET-Anfragen rufen eine URL auf, POST-Anfragen senden weitere Nutzdaten an diese Adresse und DELETE-Anfragen sind zum Löschen von Daten vorgesehen. Suchfunktionen bauen häufig auf POST-Anfragen auf. Da die Daten nicht über Links identifizierbar sind, können solche Inhalte auch nicht einfach über Suchmaschinen wie Google gefunden werden, wofür sich der Begriff Deep Web eingebürgert hat.

Welche Anfragen genau beim Surfen an einen Server geschickt werden, lässt sich gut mit der Entwicklerkonsole des Browsers nachvollziehen, die in den meisten Browsern mit der Taste F12 aktiviert wird (siehe das Beispiel zum Extrahieren von URLs in Abschn. 4.1). Der praktische Umgang mit den verschiedenen Formen von Webscraping wird in Abschn. 7.1 vermittelt. An dieser Stelle sind zunächst drei Hinweise auf ethisch-rechtliche Voraussetzungen wichtig. Erstens enthalten die Nutzungsbedingungen (engl. terms of services) von Webseiten und insbesondere von Social-Media-Plattformen Regelungen, mit denen sich die Betreiber eine automatisierte Datenerhebung häufig verbitten. Allerdings gehören insbesondere Suchmaschinen wie Google, die solche Erhebungen systematisch durchführen, selbstverständlich zum Web dazu, diese erfassen über automatisiertes Crawling die Inhalte von anderen Webseiten. Einen Einblick, welche Regelungen eine Webseite dafür vorsieht, können Sie sich über die robots.txt verschaffen. Diese Datei ist in der Regel auf jedem Server verfügbar und kann abgerufen werden, indem der Name an den Domainnamen angehängt wird, probieren Sie es zum Beispiel bei Facebook aus: https://www.facebook.com/robots.txt. Zweitens finden sich in der Datenschutzgrundverordnung und im Urheberrecht spezielle Regelungen für wissenschaftliche Zwecke, die zum Beispiel Textmining unter bestimmten Umständen explizit erlauben. Drittens sind ethische Abwägungen notwendig, insbesondere, wenn personenbezogene Daten betroffen sind. Das bedeutet: Die Möglichkeiten und Grenzen automatisierter Erhebungen müssen für jedes Projekt im Einzelfall reflektiert werden. Orientierung geben Ethikkodizes und Handreichungen (zum Beispiel RatSWD 2019) und der rege Diskurs in der Forschungsliteratur (unter anderem Bruns 2019; Fiesler et al. 2020; Kotsios et al. 2019; Thelwall und Stuart 2006).

2 Application Programming Interfaces

Das Extrahieren von Daten auf Webseiten baut zwar auf Standards im Web auf, erfordert jedoch mitunter eine detaillierte Auseinandersetzung mit der Struktur der Webseiten. Zudem ist Webscraping besonders von einigen Social-Media-Plattformen wie Facebook, Twitter oder YouTube laut deren Nutzungsbedingungen nicht erwünscht. Webseitenbetreiber bauen mitunter Hürden ein, um das Webscraping zu erschweren. Ein bereits vorstrukturierter Datenzugang ist aber bei vielen Plattformen mittels Application Programming Interfaces (APIs) möglich, über die Webseitenbetreiber kontrollieren, wer wie viele und welche Daten erheben kann.

Ganz allgemein legen Programmierschnittstellen fest, wie zwei Programme miteinander interagieren können (Jacobson et al. 2012, S. 5). Diese Schnittstellen sind meistens nicht vorrangig für wissenschaftliche Datenanalysen eingerichtet worden, sondern für die Entwicklung von Drittanwendungen. Im Web wird auf diese Weise beispielsweise die Funktion umgesetzt, dass man sich auf anderen Seiten „Mit Google einloggen“ kann. Die API-Anbieter legen dazu Endpunkte und Parameter fest, auf die andere Programme, sogenannte API-Konsumenten, zugreifen. Ein Endpunkt ist einfach eine URL wie https://api.twitter.com/2/users/. Diese URL wird um weitere Pfad- und Queryparameter ergänzt, mit denen etwa die öffentlichen Profilinformationen einzelner Nutzer:innen abgefragt werden. Pfadparameter wie show.json werden direkt an den Pfad angehängt, wohingegen Queryparameter wie ?screen_name=wissen_lockt als Liste von Name-Wert-Paaren nach einem Fragezeichen angegeben werden. Im Gegensatz zu einer normalen Webseite geben APIs in der Regel nicht HTML, sondern deutlich leichter verarbeitbare JSON-Formate zurück (Abb. 2.3 und Kap. 3).

Abb. 2.3
figure 3

Inhalt einer Webseite (HTML) und Antwort einer API (JSON) im Vergleich. (Quelle: eigene Darstellung)

Eine API ist mehr als eine Software, sie ist ein Vertrag zwischen dem API-Anbieter und dem API-Konsumenten. Der Anbieter sichert damit zu, dass der Zugriff über einen längeren Zeitraum bestehen bleibt und der Konsument sorgt letztendlich dafür, dass sich die Dienste des Anbieters in der Welt verbreiten. So wie sich Hersteller von USB-Sticks darauf verlassen, dass die USB-Buchse immer die gleichen Abmessungen haben, verlassen sich Anwendungsentwickler darauf, dass sich die Endpunkte und die Datenformate nicht ändern. Wichtig ist deshalb die genaue Dokumentation (engl. reference) der API, in der Endpunkte, Parameter und Rückgabeformate beschrieben werden. Die Betreiber stellen die Dokumentation mehr oder weniger übersichtlich zusammen, darüber hinaus kommen auch maschinenlesbare Standards wie OpenAPIFootnote 1 zum Einsatz.

Viele für wissenschaftliche Analysen verwendete APIs bauen auf REST-Prinzipien (Fielding 2000) auf, das heißt, einzelne Ressourcen sind wie Webseiten über URLs ansprechbar. Einige APIs sind so weit standardisiert, dass die Endpunkte immer auf die gleiche Art und Weise aufgebaut sind oder dass auch die Dokumentation der API über die API selbst abgerufen werden kann. Beispielsweise folgen die zum Abgleich heterogener Datenbestände eingesetzten Reconciliation Service APIsFootnote 2 einer übergeordneten Spezifikation und können so in Tools wie OpenRefineFootnote 3 verwendet werden. OpenRefine ermöglicht es, über die Einbindung mehrerer APIs etwa eine Liste von Personen oder Unternehmen gleichzeitig mit einem Register politisch sanktionierter Akteure und mit Einträgen bei der Deutschen Nationalbibliothek abzugleichen.Footnote 4 Auch die im Semantic Web eingesetzten APIs folgen Standards wie HydraFootnote 5 oder stellen nach einem festgelegten Schema sogenannte SPARQL-Endpunkte bereit (siehe Kap. 3). Trotz dieser Standardisierungen bleibt eine Auseinandersetzung mit den speziellen Endpunkten einer API nicht aus.

Wie auch auf Webseiten setzen viele Anbieter eine Registrierung oder sogar eine Vorabprüfung des geplanten Projekts voraus. Insbesondere bei Social-Media-Plattformen wie Facebook oder YouTube ist der Zugang stark kontrolliert. Dagegen setzen sich Organisationen wie die Open Knowledge Foundation dafür ein, vor allem Daten öffentlich-rechtlicher Einrichtungen offen zugänglich zu machen, zum Beispiel über das Portal OffeneRegister.de. Diese Bestrebungen werden unter dem Schlagwort Open Data auch politisch aufgegriffen, im Jahr 2017 wurde vom Bundestag dazu das sogenannte Open-Data-Gesetz beschlossen (EGovG §12).

Ein Verzeichnis von APIs und weitere Erläuterungen dazu, was eine API ist, finden Sie auf ProgrammableWeb.Footnote 6 Darüber hinaus lohnt es sich stets zu prüfen, ob eine Webseite oder Plattform eine API anbietet, auch wenn dies nicht auf den ersten Blick erkennbar ist. Die Übergänge zwischen Webseiten und APIs sind fließend, weil Webanwendungen in vielen Fällen auf Ebene des dahinter liegenden Content Management Systems auf APIs aufbauen. So reicht es mitunter aus, einen Parameter in der URL einer Webseite zu ändern, um das Format von HTML auf JSON umzustellen (siehe die Übungsaufgabe am Ende des Kapitels).

APIs können für vielfältige geistes- und sozialwissenschaftliche Zwecke eingesetzt werden. Erstens stellen Social-Media-Dienste APIs bereit, mit denen die auf der Plattform erzeugten Inhalte (Posts, Kommentare, …) erhoben werden können. Daneben finden sich zweitens Dienste, die andere Daten sammeln und aggregieren, in Zitationsdatenbanken werden etwa die Literaturverweise von wissenschaftlichen Aufsätzen gesammelt. Drittens stellen Cloud-Computing-Anbieter wie Amazon, IBM, Google oder Microsoft über APIs Analysemöglichkeiten zum Beispiel zur automatisierten Bilderkennung bereit. Einen Überblick über einige APIs finden Sie in Tab. 2.1. Wie Sie selbst mit APIs arbeiten können, wird in Abschn. 7.2 erläutert.

Tab. 2.1 Beispiele für Anbieter von Application Programming Interfaces (APIs)

3 Datenbanken und Datensätze

Sowohl beim Besuchen von Webseiten als auch beim Einsatz von webbasierten APIs wird der Zugang zu Datenbanken über Schnittstellen vermittelt, die auf dem HTTP-Protokoll aufbauen. Jede Anfrage gibt dabei einen kleinen Ausschnitt der Datenbank zurück. Für wissenschaftliche Studien finden sich im Web auch vollständige Datenbanken. Die Vollständigkeit hat aber ihren Preis: Die Dateien können sehr groß werden und sind nach der internen Logik des Anbieters strukturiert. Ein eindrucksvolles Beispiel ist die Global Database of Events Language and Tone.Footnote 7 In diesem Projekt werden im Viertelstundentakt weltweit Nachrichtenseiten mit automatischer Textanalyse ausgewertet, aggregiert und die Ergebnisse werden zum Download zur Verfügung gestellt. Für ein Jahr umfasst die Datenbank über zwei Terrabyte. Die Arbeit mit solch umfangreichen Datensätzen setzt spezifische Kenntnisse zum Umgang mit Datenbanken und auf mehrere Computer verteilte Systeme (Cloud Computing, siehe Abschn. 6.4) voraus. Doch nicht immer muss es sich um solche Datenmengen handeln, auch viele kleinere Datenbanken sind für sozial- und geisteswissenschaftliche Analysen hilfreich. Linguistische Korpora mit Chats oder WhatsApp-Nachrichten oder auch Listen mit den Einwohnerzahlen aller Länder der Welt sind vergleichsweise klein.

Zum Auffinden von Datensätzen eignen sich Suchmaschinen wie die Google Dataset Search oder Portale wie Kaggle (Tab. 2.2). Teilweise stellen Organisationen und Online-Plattformen ihre Datenbanken ganz oder in Teilen zur Verfügung, etwa die Wikipedia oder auch die International Movie Database. Auch Facebook macht ausgewählte Teile seiner Datenbanken für Wissenschaftler:innen verfügbar, zum Beispiel die meistgeteilten Links (URL dataset). Der Zugang ist in diesem Fall stark restringiert und erfolgt über die Organisationen Social Science OneFootnote 8 oder Crowdtangle.Footnote 9 Eine besonders herausfordernde Datensorte stellen organisationsinterne Verhaltensdaten dar, sie umfassen beispielsweise Logdateien der Webseitennutzung, das Kaufverhalten in Online-Shops, die Bibliotheksnutzung oder die Daten von Fitness-Trackern. Der Zugang ist auf Mitarbeitende in den entsprechenden Organisationen bzw. Kooperationspartner beschränkt und nur mit starken datenschutzrechtlichen Schutzmaßnahmen möglich.

Tab. 2.2 Beispiele für online verfügbare Datenbanken

Zudem werden die Forschungsdaten wissenschaftlicher Studien zunehmend in öffentlichen Repositorien abgelegt, um eine Nachnutzung und Nachprüfung zu ermöglichen (Sekundärdatenanalyse). Eine zentrale Anlaufstelle für sozialwissenschaftliche Daten ist in Deutschland die GESIS. Mit dem Rückenwind der Open-Access-Bewegung fordern auch internationale Zeitschriften von ihren Autor:innen immer häufiger, dass die Daten verfügbar gemacht werden. Eine globale Plattform dafür betreibt die Open Science Foundation,Footnote 10 aber auch einzelne Universitäten bieten eigene Repositorien an. Zudem wird in Deutschland momentan mit viel Aufwand eine nationale Forschungsdateninfrastrukur aufgebaut,Footnote 11 über die Forschungsdaten nachhaltig nutzbar gemacht werden sollen. Die Anforderungen an solche wissenschaftlichen Datenbestände werden mit den FAIR-Prinzipien beschrieben – Findability, Accessibility, Interoperability und Reusability (Wilkinson et al. 2016).

Kuratierte Datensätze zu spezifischen Themen gehen teilweise auf wissenschaftliche Forschungsprojekte zurück oder werden von wissenschaftsnahen Organisationen für die Grundlagenforschung erstellt. Hierzu zählen beispielsweise von CLARIN bereit gestellte Sprachdaten, die von D-Place zusammengetragenen Strukturdaten zu menschlichen Gesellschaftsformen oder die vom UCDP erfassten Daten zu politischen Konflikten. Im Social-Media-Bereich sammelt beispielsweise Weiboscope Datensätze, mit denen sich die chinesische Zensur untersuchen lässt (Weiboscope 2022; zum Beispiel zu COVID-19, siehe Fu und Zhu 2020). Im Rahmen geisteswissenschaftlicher Grundlagenforschung werden insbesondere historische Daten in Langzeitprojekten erschlossen, die häufig an den Akademien der Wissenschaften angesiedelt sind. Diese Projekte verweisen auf eine lange Tradition, so hat die Aufarbeitung von königlichen und päpstlichen Urkunden des Mittelalters im Projekt Regesta Imperii bereits im Jahr 1829 begonnen (Akademie der Wissenschaften und der Literatur Mainz 2022). Regelmäßig werden in geisteswissenschaftlichen Projekten gedruckte Editionen veröffentlicht und die erschlossenen Daten werden zunehmend online in Datenbanken zur Verfügung gestellt.

Diese Datenbanken sind im Wesentlichen an zwei unterschiedlichen Zielstellungen ausgerichtet. Erstens erlauben einige Datenbestände inhaltliche Analysen, etwa um das Twitter-Verhalten von Donald Trump oder die Debatten im deutschen Bundestag auszuwerten. Zweitens stellen einige Projekte Daten als Trainingsmaterial für Machine-Learning-Verfahren bereit. Hier geht es darum, automatisierte Inhaltsanalysen zu entwickeln. Dazu gehören auch Korpora mit Videos für die Entwicklung automatischer Emotionserkennung oder Korpora mit Rezensionen für die Erkennung positiver und negativer Bewertungen. Ergänzend zu den inhaltlichen Daten sind diese Korpora manuell annotiert, das bedeutet zu jedem Video ist eine zusätzliche Angabe der Emotion oder zu jeder Rezension eine von Menschen vorgenommene Bewertung vorhanden. In jedem Fall sollten Sie sich genau mit der Qualität der Daten beschäftigen und darauf achten, dass deren Entstehung und Auswahl nachvollziehbar sind. So wie Sie keine Texte zitieren sollten, in denen die Aussagen nicht belegt oder begründet sind, sind auch undokumentierte Daten für wissenschaftliche Analysen ungeeignet.

Zum Erstellen annotierter Daten greifen einige Wissenschaftler:innen und Unternehmen auf Crowdsourcing zurück. Besonders bekannt, aber auch umstritten, ist zur Rekrutierung von Kodierer:innen für einfache Aufgaben die Plattform Amazon Mechanical Turk.Footnote 12 Annotierte Datensätze werden mitunter auf Veranstaltungen zum gemeinsamen Lernen (Hackathon oder Datathon genannt) oder bei Wettbewerben in Kooperation mit Unternehmen ausgegeben oder erstellt. Auf Plattformen wie Kaggle werden laufend Wettbewerbe zur Analyse von Datensätzen ausgeschrieben. Für die Analyse privater Kommunikation, etwa WhatsApp-Konversationen, sind Wissenschaftler:innen auf Datenspenden angewiesen (siehe zum Beispiel Beißwenger et al. 2020; Araujo et al. 2021).

Zusammenfassend unterscheiden sich die verschiedenen Datenzugänge also erstens danach, ob sie heterogene Datenbestände sammeln und durchsuchbar machen oder ob sie sich auf einzelne Themenbereiche beschränken. Zweitens werden Daten speziell für wissenschaftliche Zwecke erzeugt oder treten als Nebenprodukt von Handlungen auf. Die Verbreitung von informationstechnischen Systemen bringt es mit sich, dass umfangreiche Daten über menschliches Verhalten anfallen, mit denen alte, aber auch ganz neue Fragestellungen bearbeitet werden können. Drittens sind einige Datensätze nicht in erster Linie für inhaltliche Fragestellungen ausgelegt, sondern als Trainingsmaterial für die Methodenentwicklung. Viertens werden Datensätze nicht nur von wissenschaftlichen Einrichtungen mit entsprechenden Qualitätssicherungsverfahren, sondern auch von kommerziellen Anbietern bereit gestellt. Da letztere an marktwirtschaftlichen Prinzipien orientiert sind, kann es zu Interessenskonflikten kommen – die Datenqualität sollte vor der Verwendung besonders gründlich eingeschätzt werden. In Tab. 2.2 finden Sie einige Beispiele für die verschiedenen Arten von Datenquellen – verschaffen Sie sich selbst einen Eindruck davon, wie diese Daten einzuschätzen sind und begeben Sie sich gegebenenfalls auf die Suche nach weiteren Datensätzen!

Übungsfragen

  1. 1.

    Was unterscheidet Webscraping von der Datenerhebung über APIs?

  2. 2.

    Aus welchen Bestandteilen besteht eine URL?

  3. 3.

    Besuchen Sie eine Webseite und prüfen Sie, ob eine API bereit gestellt wird!

  4. 4.

    Schauen Sie sich die Dokumentation des Endpunkts „users“ der Twitter-API an. Suchen Sie dort die Bestandteile der verwendeten URL heraus: Wie lauten Domain, Pfad und Parameter?

  5. 5.

    Was versteht man unter Open Data?

  6. 6.

    Suchen Sie einen im Internet zum Download angebotenen Datensatz und schätzen Sie die Qualität der Daten ein. Was spricht gegen die wissenschaftliche Verwendung der gefundenen Daten, was spricht dafür?

  7. 7.

    Worin unterscheiden sich die Datenbanken von wissenschaftlichen Repositorien und die Datenbanken von Social-Media-Plattformen?

Weiterführende Literatur

  • Fielding, R. T. (2000). Architectural styles and the design of network-based software architectures. Dissertation, University of California.

  • Jünger, J. (2018). Mapping the field of automated data collection on the web. Data types, collection approaches and their research logic. In C. M. Stützer, M. Welker & M. Egger (Hrsg.), Computational social science in the age of big data. Concepts, methodologies, tools, and applications (S. 104–130). Köln: Halem.

  • Russell, M. A. (2014). Mining the social web. Data mining Facebook, Twitter, Linkedin, Google+, GitHub, and more. (2. Aufl.). Sebastopol: O’Reilly.