Published March 10, 2023 | Version v1
Conference paper Open

Vom Heben verborgener Schätze – Literarische Blogs als Ressource

  • 1. Deutsches Literaturarchiv Marbach, Deutschland
  • 2. Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung, Deutschland
  • 3. Universität Stuttgart, Institut für Literaturwissenschaft, Deutschland
  • 1. Universität Potsdam, Deutschland
  • 2. Digital Humanities im deutschsprachigen Raum e.V., Deutschland
  • 3. University of Luxembourg
  • 4. Universität Trier, Deutschland

Description

Im vorliegenden Beitrag werden nicht nur die Herausforderungen bei der Aufbereitung literarischer Blogs, sondern auch entsprechende Lösungsmöglichkeiten präsentiert. Dazu wurden über 200 vom Deutschen Literaturarchiv archivierte Blogs aufbereitet und die darin enthaltenen 140.000 Blogposts und 30 Millionen Token extrahiert. Diese Ressource wird 2023 über die SDC4Lit-Plattform bereitgestellt. Neben den Rohdaten im WARC-Format besteht die zur Verfügung gestellte Ressource aus einem bereinigten Textkorpus in Form der inhaltlich relevanten Blogposts sowie den zugehörigen Metadaten jedes Posts. Die Implementierung der Aufbereitung wird in Form von dokumentierten Jupyter-Notebooks bereitgestellt, sodass auch weitere, über das hier präsentierte Korpus hinausgehende Blogs aufbereitet werden können. Ein Beitrag zur 9. Tagung des Verbands "Digital Humanities im deutschsprachigen Raum" - DHd 2023 Open Humanities Open Culture.

Files

SCHENK_Nicolas_Vom_Heben_verborgener_Sch_tze___Literarische_.pdf

Additional details

Related works

Is part of
Book: 10.5281/zenodo.7688632 (DOI)