Deutsche Sprachgeschichte. Stefan Hartmann

Deutsche Sprachgeschichte

das der Mittelhochdeutschen Grammatik (Klein et al. 2009; weitere Bände folgen) zugrundeliegt (MiGraKo). Das MiGraKo wird ergänzt durch Zusatztexte, die unter dem etwas irreführenden Namen „Referenzkorpus Mittelhochdeutsch im engeren Sinn“ zusammengefasst sind (eReM). Wer mit einem ausgewogenen Korpus arbeiten möchte, sollte also MiGraKo nutzen, das 102 Texte mit etwa 1 Million Wortformen umfasst (vgl. Klein & Dipper 2016: 3); wer auf größere Datenmengen angewiesen ist und Abstriche bei der Ausgewogenheit machen kann, kann zusätzlich die Ergänzungstexte heranziehen.

Link: https://korpling.german.hu-berlin.de/annis3/ddd (REA)

https://www.linguistics.rub.de/annis/annis3/REM/ (REM)

Bonner Frühneuhochdeutschkorpus. Das Bonner Frühneuhochdeutschkorpus (kurz FnhdC) ist ein vergleichsweise kleines, aber dafür handannotiertes Korpus – die Probleme und Ungenauigkeiten, die mit maschineller Annotation einhergehen, finden sich hier also nicht. Es umfasst vier Zeitschnitte, die jeweils die zweite Hälfte des 14. bis 17. Jahrhunderts abdecken. Das FnhdC kann online über die Schnittstelle ANNIS durchsucht werden. Achtung: Nur ein Teil der Wörter ist lemmatisiert, also mit der Information zur Grundform des jeweiligen Wortes versehen (s.u. im Abschnitt „Anatomie eines Korpus“), daher sollte man sich nicht auf die Lemma-Annotation verlassen.

Link: https://korpora.zim.uni-due.de/Fnhd/

DWDS-Kernkorpus. Über das digitale Wörterbuch der deutschen Sprache (DWDS) sind u.a. die DWDS-Kernkorpora des 20. und des 21. Jahrhunderts sowie ein Korpus mit Texten der Wochenzeitung DIE ZEIT verfügbar. Weiterhin gibt es als Spezialkorpora z.B. ein DDR-Korpus und ein Filmuntertitelkorpus. Tipp: Die Referenz- und Zeitungskorpora lassen sich auch gemeinsam durchsuchen, indem man in der Korpusauswahl die Option „Referenz- und Zeitungskorpora (aggregiert)“ auswählt.

Link: www.dwds.de

GerManC. Das GerManC-Korpus ist so konzipiert, dass es an das Bonner Frühneuhochdeutschkorpus anknüpft, wobei der letzte Zeitschnitt des FnhdC bewusst mit dem ersten Zeitschnitt des GerManC überlappt: Wenn man beide Korpora heranzieht und in diesem Zeitschnitt deutliche Unterschiede zwischen beiden Korpora findet, kann man dann nämlich davon ausgehen, dass die beobachteten Differenzen nicht (nur) auf Sprachwandel zurückzuführen sind, sondern beispielsweise text- oder textsortenspezifisch oder gar idiosynkratisch sind. Das GerManC-Korpus umfasst etwa 600.000 Tokens aus drei Zeitschnitten von 1650 bis 1800. Das Korpus lässt sich über das Oxford Text Archive (http://ota.ox.ac.uk/desc/2544) in verschiedenen Formaten (Rohtexte und annotierte Texte) herunterladen und mit Tools wie z.B. AntConc explorieren, zudem ist es auch über Cosmas II (s.u. „Deutsches Referenzkorpus“) verfügbar.

Link: http://www.llc.manchester.ac.uk/research/projects/germanc/germancplus/

Deutsches Textarchiv. Das deutsche Textarchiv ist eine noch in Arbeit befindliche Sammlung deutschsprachiger Texte aus dem Zeitraum von 1600 bis 1900. Bei der Textauswahl wurde darauf geachtet, Texte auszuwählen, die überregional wirksam waren, um die „Entwicklung einer überregionalen Umgangssprache im hochdeutschen Sprachraum seit dem Ende der frühneuhochdeutschen Sprachperiode“ zu dokumentieren (vgl. http://deutschestextarchiv.de/doku/textauswahl). Die derzeit 2276 Texte sind vier verschiedenen Textsorten zugeordnet. Allerdings sind die Textsorten „Belletristik“ und „Gebrauchsliteratur“ derzeit noch deutlich überrepräsentiert; auch weisen die einzelnen Texte deutliche Unterschiede in ihrer Länge auf. Jedoch gibt es die Rohdaten auch zum Download, sodass sich prinzipiell aus der Textsammlung ein ausgewogenes Korpus zusammenstellen lässt.

Link: http://deutschestextarchiv.de

Deutsches Referenzkorpus (DeReKo). Das über Cosmas II zugängliche DeReKo ist in unterschiedliche sogenannte „Archive“ untergliedert, wobei aus sprachgeschichtlicher Perspektive insbesondere das HIST-Archiv interessant ist. Dieses umfasst Texte von der Mitte des 17. bis zum 20. Jahrhundert, wobei es einige Überschneidungen mit dem Hauptarchiv W gibt. Jedes Archiv besteht aus mehreren Korpora, aus denen sich bei Bedarf auch eigene, benutzerdefinierte Korpora zusammenstellen lassen.

Link: https://cosmas2.ids-mannheim.de/

Vom Korpus zur Konkordanz

Empirische Forschung beginnt immer mit einer spezifischen Fragestellung. Dabei sind der wissenschaftlichen Neugier prinzipiell keine Grenzen gesetzt: Jede Fragestellung ist grundsätzlich denkbar. Jedoch muss eine wissenschaftliche Fragestellung bestimmte Voraussetzungen erfüllen. Erstens sollte sie konkret genug sein, um anhand der vorliegenden Daten überprüft werden zu können. Zweitens sollte sie sich in eine falsifizierbare Hypothese umformulieren lassen. Eine Fragestellung wie „Essen Wissenschaftler viele Pralinen?“ ist beispielsweise sehr unspezifisch und lässt sich nur dann in eine falsifizierbare Hypothese umformulieren, wenn man sie konkreter fasst, indem man beispielsweise eine Vergleichsgruppe hinzuzieht. Die Hypothese könnte dann lauten: „Wissenschaftler essen im Durchschnitt mehr Pralinen als Romanautoren.“

Die Fragestellung bzw. die Hypothese entscheidet dann über die Wahl der Methode. Ob Wissenschaftler Pralinen essen, lässt sich mit korpuslinguistischen Methoden eher nicht klären. Die Hypothese, dass Süßwaren in wissenschaftlichen Texten häufiger erwähnt werden als in belletristischen, ließe sich hingegen durchaus mit Hilfe von Korpora überprüfen. Hierfür brauchen wir zunächst ein Korpus, das belletristische und wissenschaftliche Texte enthält. Ein solches Korpus ist das DWDS-Kernkorpus des 20. Jahrhunderts, das unter www.dwds.de verfügbar ist.

Wie jedes Korpus ist das DWDS-Kernkorpus zunächst eine Materialsammlung. Man kann es mit einer großen Bibliothek vergleichen: Ehe man sie benutzen kann, muss man sich zunächst mit ihrem Aufbau und ihrer Organisation vertraut machen sowie mit Möglichkeiten, unter den zahllosen Büchern diejenigen zu finden, nach denen man sucht. Beispielsweise wird man wenig Erfolg haben, wenn man das medizinische Nachschlagewerk „Psychrembel“ in der Bereichsbibliothek Theologie sucht. Und auch in einer medizinischen Fachbibliothek findet man es deutlich leichter, wenn man zuvor den Bibliothekskatalog zu Rate gezogen hat, als wenn man auf gut Glück drauflosstöbert.

Auf die Korpuslinguistik übertragen bedeutet dies erstens: Ich muss ein Korpus wählen, das für meine Fragestellung geeignet ist. Diesen Schritt haben wir schon getan, denn wir haben gesehen, dass das DWDS-Kernkorpus, wie es unsere Fragestellung erfordert, nach Textsorten untergliedert ist und dass sich unter diesen Textsorten auch die beiden Typen von Texten, die uns interessieren, befinden, nämlich belletristische und wissenschaftliche Texte. Dies führt uns unmittelbar zum zweiten Aspekt: Um entscheiden zu können, ob ein Korpus für unsere Fragestellung geeignet ist, müssen wir uns mit seinem Aufbau und seiner Organisation vertraut machen. Zu jedem guten Korpus gibt es eine Dokumentation, der wir beispielsweise entnehmen können, nach welchen Prinzipien das Korpus zusammengestellt wurde, welche Textsorten vertreten sind, wie groß die Subkorpora für jede Textsorte oder jeden Zeitschnitt sind, und vieles mehr.

Drittens schließlich muss man wissen, wie man ein Korpus durchsucht. Ebenso wie es im Falle der Bibliothek unerlässlich ist, sich in die Nutzung des (heutzutage meist digitalen) Bibliothekskatalogs einzuarbeiten, ist es in der Korpuslinguistik vonnöten, das jeweilige Abfragesystem kennenzulernen. Es gibt eine ganze Reihe von Abfragesystemen, deren Abfragesyntax sich teilweise unterscheidet. Ein Abfragesystem ist beispielsweise das Corpus Search, Management and Analysis System des Instituts für Deutsche Sprache, kurz COSMAS, das derzeit in

Скачать книгу