Internetlinguistik. Konstanze Marx

Internetlinguistik

Dialog angezeigt. Besonders benutzerfreundlich ist, dass die Dialoge inhaltlich verstichwortet sind, so dass eine Suche durchgeführt werden kann. Das KorpusKorpus kann für die Forschung und Lehre genutzt werden. Es ist lediglich ein Passwort notwendig, dass via E-Mail bei Wolfgang Imo (Universität Hamburg) erfragt werden kann.

Gerade im Entstehen befindet sich die MoCoDa2. Diese Datenbank ist – wie der Name schon nahelegt – eine Erweiterung der MoCoDa. Ende 2019 verfügte die Datenbank über 367 Chats, 31.811 Nachrichten, 247.587 Tokens und damit 1.021.704 Zeichen. Zu Erweiterung der Datenbasis werden fortlaufend Datenspenden gesammelt. Ein Video zur Anleitung ist unter der folgenden Adresse verfügbar: https://db.mocoda2.de/#/c/home.

Vorstellen möchten wir auch das Projekt What’s up Switzerland. Im Rahmen dieses Projekts wurde 2014 eine große WhatsApp-Datenbasis erstellt (ca. 617 Chats, ca. 750.000 Nachrichten, ca. 5,5Mio. Tokens und 350.000 Emojis). Es gibt auch ein Satellitenprojekt What’s up Deutschland. Aus dem Projekt gingen nicht nur zahlreiche Publikationen hervor. Die Forscher*innen sind derzeit zudem dabei, die Datenbasis für die sprachwissenschaftliche Forschung aufzubereiten, die voraussichtlich ab März 2020 verfügbar sein wird.

Eine Sammlung mit etwa 1.500 SMS von Schülern und Schülerinnen und Studierenden der Universitäten Osnabrück und Hannover kann als pdf-Datei von der Seite mediensprache.net heruntergeladen werden. Dialogische Sequenzen finden sich hier nicht, aber Angaben zum Geschlecht und dem Alter der Autor*innen.

Ein aus neun Teilkorpora bestehendes Wikipedia-Korpus ist über das Portal und Recherchesystem COSMASII des Leibniz-Instituts für Deutsche Sprache Mannheim unter den Bedingungen der CC-BY-SA-Lizenz nutzbar. Es umfasst Artikelseiten aus den Jahren 2013, 2015 und 2017 im Umfang von 3.160.142.331 Textwörtern, Diskussionsseiten der Jahre 2013, 2015 und 2017 im Umfang von 733.809.373 Textwörtern und Nutzerdiskussionen aus den Jahren 2015 und 2017 im Umfang von 612.561.557 Textwörtern.

Weblogs und Kommentare sind in das BBAW-Korpus zum Projekt „Digitales Wörterbuch der deutschen Sprache“ (DWDS) integriert (Barbaresi/Würzner 2014). Mit Hilfe des Fußballlinguistik-Korpus von Simon Meier (TU Dresden) können 290 Taktikanalysen der Taktikblogs niemalsallein.de und halbfeldflanke.de untersucht werden. Darüber hinaus bietet das Korpus derzeit ein umfangreiches mehrsprachiges vollannotiertes Repertoire an Liveticker-Daten, Spielberichten und Taktikanalysen aus den Jahren 2006 bis 2017 (31,5 Mio. Tokens). Das Korpus kann nach einer unkomplizierten Registrierung kostenlos genutzt werden (Meier 2017).

Unter https://www.youtube.com/user/CLARINGermany kann man sich über die CLARIN-D-Infrastruktur für die sprachbasierte Forschung in den Geistes- und Sozialwissenschaften informieren. Empfohlen seien auch die CLARIN-D-YouTube-Tutorials. In kurzen Videos werden hier Schritt-für-Schritt-Anleitungen zur Nutzung von Korpora, digitalen Werkzeugen und Webservices gegeben.

Mini-Glossar Korpuslinguistik

annotieren: zusätzlich zu den sprachlichen Daten innerhalb einer Datenbank werden sprachwissenschaftlich relevante Daten gespeichert, z. B. Wortarten (‚taggingtagging‘) oder die syntaktische Struktur bei komplexen Äußerungen (‚parsing‘). Das ist ein mühsamer manueller Vorgang, der deshalb häufig von automatischen Verfahren übernommen wird. Diese sind wiederum sehr fehleranfällig, so dass eine manuelle Nachbearbeitung notwendig ist.

lemmatisieren: die einem Lexem zugehörige unflektierte Grundform wird notiert, z. B. für das Lexem ging das Lemma gehen oder für Räume das Lemma Raum.

KonkordanzKonkordanz: Liste von Kotexten für ein Schlüssel-Lexem

Bruchpilot in: „Die Bilanz von Bruchpilot Wowereit“ (n-tv.de, 2013-03-19); „Streicht dem Bruchpiloten Wowereit die Pension“ (berliner-kurier.de, 2012-07-21); „Bruchpilot Wowereit tauft den A380“ (bz.de, 2012-05-22); „Die Nähe zur Partei wurde der Zeitung jedoch spätestens mit dem Grounding der Swissair und ihrer [sic!] freisinnigen Bruchpiloten zum Verhängnis“ (zeit.de, 2010-04-08)

KollokationKollokationen: Ausdruck aus mehreren Wörtern mit (statistisch) starkem Zusammenhalt

auf Nummer sicher gehen in: „Die Flughafenplaner wollen auf Nummer sicher gehen: Die endgültige Entscheidung für den Termin werde der Aufsichtsrat nun voraussichtlich erst im August fällen, erklärte Berlins Regierender Bürgermeister Klaus Wowereit als Chef des Kontrollgremiums.“ (spiegel.de, 2012-06-22)

Part-of-speech-Tagging (POS-tagging): regelbasiertes Etikettieren von Token im KorpusKorpus mit entsprechenden Wortarten

In/PRÄP Berlin/N sprach/VFIN man/PRONINDEF über/PRÄP den/ART Rücktritt/N von/PRÄP Klaus/EIGENN Wowereit/EIGENN1.

TokenToken: Kleinste Einheit in einem Korpus. Über die Anzahl der Tokens wird die Korpusgröße bestimmt.

Von₁ Anfang₂ an₃ war₄ der₅ massive₆ politische₇ Einfluss₈ von₉ Wowereit₁₀ und₁₁ Platzeck₁₂ das₁₃ Todesurteil₁₄ für₁₅ das₁₆ Bauprojekt₁₇ an₁₈ Berlins₁₉ Stadtrand₂₀.

TypeType: Identische Tokens in einem KorpusKorpus. Über die Anzahl der Types wird die Vokabelgröße bestimmt.

Von₁ Anfang₂ an₃ war₄ der₅ massive₆ politische₇ Einfluss₈ von Wowereit₉ und₁₀ Platzeck₁₁ das₁₂ Todesurteil₁₃ für₁₄ das Bauprojekt₁₅ an Berlins₁₆ Stadtrand₁₇.

Ausgewählte Korpora im Überblick

DiDi-Korpus: https://commul.eurac.edu/annis/didi

deWac: http://wacky.sslmit.unibo.it/doku.php?id=corpora

Chat-Korpus: www.chatkorpus.tu-dortmund.de

MoCoDa: https://mocoda.spracheinteraktion.de

MoCoDa2: https://db.mocoda2.de/#/c/home

SMS: www.mediensprache.net/archiv/corpora/sms_os_h.pdf

Wikipedia: https://cosmas2.ids-mannheim.de/cosmas2-web/

Blogs und Webkorpus: www.dwds.de/d/k-spezial#blogs Liveticker und Blogs: https://fussballlinguistik.linguistik.tu-berlin.de

Aufgabe 1-3

Welche Schwierigkeiten können sich bei der Arbeit mit bereits bestehenden Korpora ergeben?

Mit bestehenden, annotierten Korpora zu arbeiten, birgt durchaus Nachteile, insbesondere wenn man die Linguistik als Wissenschaft auffasst, die „regelmäßige Beziehungen

Скачать книгу