Korpusdaten
Das Korpus TwiBloCoP (Twitter+Blog Corpus — Parenting) enthält Tweets und Blogposts von insgesamt 44 Blogger*innen, die von ihrem Familienleben oder über familienbezogene Themen berichten. Alle Dokumente wurden manuell anonymisiert.
- Zeitraum: Oktober 2016 – Februar 2017
- User*innen: 44
- Dokumente:
- 468 Blogposts (ca. 360.000 Token)
- 81.440 Tweets (ca. 1,2 Mio Token)
Hintergrund
Soziale Medien rücken als Orte der individuellen Textproduktion zunehmend in den Fokus linguistischer Fragestellungen. Dabei bieten sich korpuslinguistische Zugänge an, denn häufig liegen die Daten bereits mit ihrem Entstehen digital vor und können so manuell oder toolbasiert gesammelt, aufbereitet und ausgewertet werden.
Das von uns erstellte Social-Media-Textkorpus ermöglicht die Untersuchung sprachlicher Besonderheiten der Textproduktion in sozialen Medien sowie die vergleichende Analyse der Verwendung einzelner Ausdrücke auf Sprecher*innenebene. Es kann somit untersucht werden, inwiefern die Auswahl sprachlicher Mittel entweder von der persönlichen Präferenz oder aber den Affordanzen des jeweiligen Mediums beeinflusst wird.
Vorverarbeitung
Das Korpus wurde automatisch tokenisiert und komplett manuell anonymisiert. Es steht in folgenden Formaten zur Verfügung:
- anonymisierter Rohtext
- XML mit tokenisiertem Text
Annotiert sind aktuell ausgewählte
- Modalpartikeln
- Intensivierer
Listen der Partikeln/Intensivierer sowie eigens recherchierte und erstellte Annotationsrichtlinien können bereitgestellt werden.
Verfügbarkeit / Kontakt
Das Korpus steht für wissenschaftliche Forschungen frei zur Verfügung. Bei wissenschaftlichem Interesse an den Korpusdaten melden Sie sich bitte bei Tatjana Scheffler.
Referenzen
Bei Verwendung des Korpus bitte zitieren:
- Tatjana Scheffler, Lesley-Ann Kern and Hannah Seemann. Individuelle linguistische Variabilität in sozialen Medien. In: M. Kupietz/T. Schmidt (eds.), Neue Entwicklungen in der Korpuslandschaft der Germanistik: Beiträge zur IDS-Methodenmesse 2022. (= Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache (CLIP) 11). Tübingen: Narr. 2023.
- Tatjana Scheffler, Hannah Seemann, Lesley-Ann Kern. The medium is not the message: Individual level register variation in blogs vs. tweets. Register Studies 4(2). 2022. https://doi.org/10.1075/rs.22009.sch
Weitere Veröffentlichungen zum Korpus:
- Hannah Seemann and Tatjana Scheffler. Differentiating Social Media Texts via Clustering. In: Proceedings of the CHR Conference 2022, pp. 177–188. 2022. https://ceur-ws.org/Vol-3290/short_paper5903.pdf
- Scheffler, T., & Seemann, H. (2021). Individual linguistic variability in social media (Verlagsversion). Digital Humanities Day, Bochum. https://doi.org/10.13154/294-7871