Deep Learning illustriert. Jon Krohn
Wenn Sie lange genug mit der »Gender analogies«-Ansicht von word2viz herumgespielt haben, können Sie mit anderen Perspektiven des Wortvektorraums experimentieren. Mit »Adjectives analogies« aus dem Dropdown-Menü »What do you want to see?« könnten Sie zum Beispiel die Wörter small und smallest hinzufügen. Anschließend könnten Sie die Beschriftungen der x-Achse auf nice und nicer ändern und dann wieder auf small und big. Wenn Sie zu »Numbers saywrite analogies« umschalten, könnten Sie damit herumspielen, die x-Achse auf 3 und 7 zu ändern.
Mit der Ansicht »Empty« können Sie Ihren völlig eigenen word2viz-Plot herstellen. Die (Wortvektor-)Welt steht Ihnen offen, aber vielleicht erkunden Sie zuerst einmal die Land-Hauptstadt-Beziehungen, die wir beim Betrachten von Abbildung 2–6 erwähnt haben. Setzen Sie dazu die x-Achse auf den Bereich von west bis east und die y-Achse auf den Bereich von city bis country. Wortpaare, die ganz ordentlich in diesen Plot passen, sind london–england, paris–france, berlin– germany und beijing–china.
word2viz ist zwar einerseits eine amüsante Methode, um ein allgemeines Verständnis für Wortvektoren zu entwickeln, andererseits eignet sich das Programm aber auch hervorragend dafür, um Einblicke in die speziellen Stärken oder Schwächen eines bestimmten Wortvektorraums zu gewinnen. Laden Sie zum Beispiel einmal die Ansicht »Verb tenses« im Dropdown-Menü »What do you want to see?«, und fügen Sie dann die Wörter lead und led hinzu. Es wird offenbar, dass die Koordinaten, denen Wörter in diesem Vektorraum zugewiesen wurden, die gängigen Geschlechtsstereotypen widerspiegeln, die in den natürlichsprachigen Daten vorhanden waren, mit denen der Vektorraum trainiert wurde. Wenn Sie zur »Jobs«-Ansicht umschalten, wird diese Tendenz noch offensichtlicher. Man kann wahrscheinlich mit einer gewissen Sicherheit behaupten, dass jeder große natürlichsprachige Datensatz bestimmte Verzerrungen enthalten wird, ob nun absichtlich oder nicht. Die Entwicklung von Techniken zum Reduzieren von Verzerrungen in Wortvektoren ist ein aktives Forschungsfeld.17 Wenn Sie sich bewusst sind, dass diese Verzerrungen in Ihren Daten existieren können, ist es am sichersten, wenn Sie Ihre NLP-Anwendung in einer Vielzahl von Situationen testen, die eine mannigfaltige Nutzerbasis widerspiegeln. Und natürlich müssen Sie überprüfen, dass die Ergebnisse angemessen sind.
2.2.5Lokalistische versus verteilte Repräsentationen
Nachdem wir nun ein intuitives Verständnis für Wortvektoren gewonnen haben, können wir sie mit den 1-aus-n-Darstellungen (Abbildung 2–4) vergleichen, die bereits länger in der NLP-Welt etabliert sind. In einer kurzgefassten Unterscheidung können wir sagen, dass Wortvektoren die Bedeutung von Wörtern in einer verteilten Repräsentation über den n-dimensionalen Raum speichern. Das heißt, bei Wortvektoren wird die Wortbedeutung nach und nach verteilt – geschmiert –, während wir uns von Ort zu Ort durch den Vektorraum bewegen. 1-aus-n-Darstellungen dagegen sind lokalistisch. Sie speichern die Informationen zu einem bestimmten Wort diskret in einer einzelnen Zeile einer üblicherweise extrem dünn besetzten Matrix.
Um den Unterschied zwischen dem lokalistischen 1-aus-n-Ansatz und dem verteilten vektorbasierten Ansatz der Wortrepräsentation gründlicher zu veranschaulichen, vergleicht Tabelle 2–1 sie mithilfe einer Reihe von Attributen.
Erstens mangelt es 1-aus-n-Darstellungen an Nuancen, sie sind lediglich binäre Marker. Vektorbasierte Repräsentationen hingegen sind außerordentlich nuanciert: In ihnen sind Informationen über Wörter über einen durchgehenden, quantitativen Raum geschmiert. In diesem hochdimensionalen Raum gibt es im Prinzip unendlich viele Möglichkeiten, um die Beziehungen zwischen Wörtern zu erfassen.
Zweitens erfordert die Verwendung von 1-aus-n-Repräsentationen in der Praxis oft arbeitsintensive, manuell kuratierte Taxonomien. Diese Taxonomien umfassen Wörterbücher und andere spezialisierte Referenzsprachdatenbanken.18 Solche externen Referenzen sind für vektorbasierte Repräsentationen unnötig, die vollständig automatisch mit der natürlichen Sprache allein funktionieren.
Drittens kommen 1-aus-n-Repräsentationen nicht gut mit neuen Wörtern zurecht. Ein neu eingeführtes Wort erfordert eine neue Zeile in der Matrix und dann eine Neuanalyse relativ zu den vorhandenen Zeilen im Textkorpus, gefolgt von Codeänderungen – möglicherweise über Referenzen zu externen Informationsquellen. Bei vektorbasierten Repräsentationen können neue Wörter eingebunden werden, indem der Vektorraum mit der natürlichen Sprache trainiert wird, die Beispiele der neuen Wörter in ihrem natürlichen Kontext enthält. Ein neues Wort bekommt seinen eigenen n-dimensionalen Vektor. Zu Anfang gibt es vielleicht nur wenige Trainingsdatenpunkte, die das neue Wort beinhalten, sodass dessen Vektor innerhalb des n-dimensionalen Raums noch nicht korrekt positioniert ist, aber die Positionierung aller vorhandenen Wörter bleibt intakt und das Modell funktioniert weiter. Wenn mit der Zeit die Instanzen des neuen Wortes in der natürlichen Sprache zunehmen, verbessert sich auch die Genauigkeit seiner Vektorraumkoordinaten19.
1-aus-n | Vektorbasiert |
Nicht subtil | Sehr nuanciert |
Manuelle Taxonomien | Automatisch |
Kommen schlecht mit neuen Wörtern zurecht. | Nehmen neue Wörter nahtlos auf. |
Subjektiv | Basieren auf natürlichsprachigen Daten. |
Wortähnlichkeiten werden nicht berücksichtigt. | Wortähnlichkeit = Nähe im Raum |
Tab. 2–1 Gegenüberstellung von Attributen lokalistischer 1-aus-n-Repräsentationen und verteilter vektorbasierter Repräsentationen
Viertens – und dies folgt aus den vorherigen zwei Punkten: Der Einsatz von 1-aus-n-Repräsentationen ist oft mit subjektiven Interpretationen der Bedeutung von Sprache verbunden. Das liegt daran, weil sie oft kodierte Regeln oder Referenzdatenbanken erfordern, die von (relativ kleinen Gruppen von) Entwicklern entworfen werden. Die Bedeutung der Sprache in vektorbasierten Repräsentationen ist derweil datengetrieben.20
Fünftens ignorieren 1-aus-n-Repräsentationen von sich aus Wortähnlichkeiten: Ähnliche Wörter, wie couch und sofa, werden nicht anders repräsentiert als Wörter, die gar nichts miteinander zu tun haben. Vektorbasierte Repräsentationen kommen im Gegensatz dazu mit Wortähnlichkeiten zurecht: Wie in Bezug auf Abbildung 2–6 erwähnt, liegen zwei Wörter im Vektorraum umso näher beieinander, je ähnlicher sie einander sind.
2.3Elemente der natürlichen menschlichen Sprache
Wir haben bisher nur ein Element der natürlichen menschlichen Sprache betrachtet: das Wort. Wörter bestehen jedoch aus einzelnen Sprachelementen. Und dann sind Wörter wiederum die Komponenten abstrakterer, komplexerer Sprachelemente. Wir beginnen mit den Sprachelementen, die die Wörter bilden, und bauen auf diesen auf, wie das Schema in Abbildung 2–9 zeigt. Für jedes Element diskutieren wir, wie es üblicherweise aus der traditionellen Machine-Learning-Perspektive kodiert wird, sowie wie dies aus Sicht des Deep Learning erfolgt. Beachten Sie, wenn wir diese Elemente durcharbeiten, dass die