Korpusdaten

Das Korpus TwiBloCoP (Twitter+Blog Corpus — Parenting) enthält Tweets und Blogposts von insgesamt 44 Blogger*innen, die von ihrem Familienleben oder über familienbezogene Themen berichten. Alle Dokumente wurden manuell anonymisiert.

  • Zeitraum: Oktober 2016 – Februar 2017
  • User*innen: 44
  • Dokumente:
    • 468 Blogposts (ca. 360.000 Token)
    • 81.440 Tweets (ca. 1,2 Mio Token)

Hintergrund

Soziale Medien rücken als Orte der individuellen Textproduktion zunehmend in den Fokus linguistischer Fragestellungen. Dabei bieten sich korpuslinguistische Zugänge an, denn häufig liegen die Daten bereits mit ihrem Entstehen digital vor und können so manuell oder toolbasiert gesammelt, aufbereitet und ausgewertet werden.

Das von uns erstellte Social-Media-Textkorpus ermöglicht die Untersuchung sprachlicher Besonderheiten der Textproduktion in sozialen Medien sowie die vergleichende Analyse der Verwendung einzelner Ausdrücke auf Sprecher*innenebene. Es kann somit untersucht werden, inwiefern die Auswahl sprachlicher Mittel entweder von der persönlichen Präferenz oder aber den Affordanzen des jeweiligen Mediums beeinflusst wird.

Vorverarbeitung

Das Korpus wurde automatisch tokenisiert und komplett manuell anonymisiert. Es steht in folgenden Formaten zur Verfügung:

  • anonymisierter Rohtext
  • XML mit tokenisiertem Text

Annotiert sind aktuell ausgewählte

  • Modalpartikeln
  • Intensivierer

Listen der Partikeln/Intensivierer sowie eigens recherchierte und erstellte Annotationsrichtlinien können bereitgestellt werden.

Verfügbarkeit / Kontakt

Das Korpus steht für wissenschaftliche Forschungen frei zur Verfügung. Bei wissenschaftlichem Interesse an den Korpusdaten melden Sie sich bitte bei Tatjana Scheffler.

Referenzen

Bei Verwendung des Korpus bitte zitieren:

  • Tatjana Scheffler, Lesley-Ann Kern and Hannah Seemann. Individuelle linguistische Variabilität in sozialen Medien. In: M. Kupietz/T. Schmidt (eds.), Neue Entwicklungen in der Korpuslandschaft der Germanistik: Beiträge zur IDS-Methodenmesse 2022. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP) 11). Tübingen: Narr. 2023.
  • Tatjana Scheffler, Hannah Seemann, Lesley-Ann Kern. The medium is not the message: Individual level register variation in blogs vs. tweets. Register Studies 4(2). 2022. https://doi.org/10.1075/rs.22009.sch

Weitere Veröffentlichungen zum Korpus: