Deep Learning illustriert. Jon Krohn

Deep Learning illustriert - Jon Krohn


Скачать книгу
ML-Darstellungen lokal und starr sind (Tabelle 2–2).

      Abb. 2–9Die Beziehungen zwischen den Elementen natürlicher menschlicher Sprache. Die links stehenden Elemente sind Bausteine der weiter rechts stehenden Elemente. Je weiter wir uns in der Grafik nach rechts bewegen, umso abstrakter werden die Elemente und umso komplexer wird es, sie in einer NLP-Anwendung zu modellieren.

      Die Phonologie befasst sich mit der Art und Weise, wie Sprache klingt, wenn sie gesprochen wird. Jede Sprache besitzt einen spezifischen Satz an Phonemen (Klängen), aus denen die Wörter gebildet werden. Der traditionelle ML-Ansatz sieht vor, Segmente aus auditiven Eingaben als spezifische Phoneme aus dem Vorrat der Sprache an verfügbaren Phonemen zu kodieren. Bei Deep Learning trainieren wir ein Modell, Phoneme aus Features vorherzusagen, die automatisch aus auditiven Eingaben erlernt wurden, und diese Phoneme dann in einem Vektorraum darzustellen. In diesem Buch arbeiten wir nur mit natürlicher Sprache im Textformat. Allerdings lassen sich die behandelten Techniken direkt auf Sprachdaten anwenden, falls Sie das einmal ausprobieren wollen.

      Die Morphologie befasst sich mit der Form der Wörter. Neben Phonemen besitzt jede Sprache auch ihren spezifischen Satz an Morphemen. Dabei handelt es sich um die kleinsten Elemente der Sprache, die eine Bedeutung enthalten. So lassen sich etwa die drei Morpheme out, go und ing zu dem Wort outgoing kombinieren. Das traditionelle ML-Vorgehen besteht darin, die Morpheme im Text aus einer Liste aller Morpheme einer bestimmten Sprache zu identifizieren. Bei Deep Learning trainieren wir ein Modell, das Auftreten bestimmter Morpheme vorherzusagen. Hierarchisch tiefer gelegene Schichten künstlicher Neuronen können dann mehrere Vektoren (z.B. die drei, die out, go und ing repräsentieren) miteinander zu einem einzigen Vektor kombinieren, der ein Wort darstellt.

       Tab. 2–2 Traditionelle Machine-Learning- und Deep-Learning-Repräsentationen nach den Elementen der natürlichen Sprache

      Phoneme (wenn man Audio betrachtet) und Morpheme (wenn man Text betrachtet) werden kombiniert, um Wörter zu bilden. Immer wenn wir in diesem Buch mit Daten aus natürlicher Sprache arbeiten, tun wir das auf der Wortebene. Dafür gibt es vier Gründe. Erstens ist es einfach zu definieren, was ein Wort ist, und wir alle sind damit vertraut. Zweitens ist es einfach, natürliche Sprache über einen Prozess namens Tokenisierung21 in Wörter zu zerlegen. Wir werden uns in Kapitel 11 näher mit diesem Vorgang beschäftigen. Drittens sind Wörter die am meisten untersuchte Ebene der natürlichen Sprache, vor allem in Bezug auf das Deep Learning, sodass wir die neuesten Techniken auf sie anwenden können. Viertens, und das ist vielleicht der wichtigste Grund, funktionieren Wortvektoren für die NLP-Modelle, die wir bauen, einfach wirklich gut: Sie erweisen sich als funktional, effizient und akkurat. Im vorigen Abschnitt sprachen wir über die Nachteile der lokalistischen 1-aus-n-Repräsentationen, die im traditionellen ML vorherrschen, im Vergleich zu den Wortvektoren der Deep-Learning-Modelle.

      Wörter werden kombiniert und generieren eine Syntax. Syntax und Morphologie bilden gemeinsam die Gesamtheit der Grammatik einer Sprache. Syntax ist die Anordnung von Wörtern zu Phrasen und von Phrasen zu Sätzen, um auf eine Art und Weise Bedeutung zu transportieren, die bei allen Anwendern einer bestimmten Sprache konsistent ist. Im traditionellen ML-Ansatz werden Phrasen zu diskreten, formellen linguistischen Kategorien zusammengefasst.22 Bei Deep Learning setzen wir (Überraschung!) Vektoren ein. Jedes Wort und jede Phrase in einem Textabschnitt kann durch einen Vektor in einem n-dimensionalen Raum repräsentiert werden, wobei Schichten aus künstlichen Neuronen die Wörter zu Phrasen kombinieren.

      Semantik ist das abstrakteste der Elemente der natürlichen Sprache in Abbildung 2–9 und Tabelle 2–2. Sie befasst sich mit der Bedeutung von Sätzen. Diese Bedeutung wird aus all den zugrunde liegenden Sprachelementen wie Wörtern und Phrasen sowie aus dem übergreifenden Kontext, in dem ein Stück Text auftaucht, geschlossen oder abgeleitet. Der Rückschluss auf eine Bedeutung ist komplex, weil zum Beispiel die Frage, ob eine Passage wörtlich genommen werden oder als lustige oder sarkastische Bemerkung gelten soll, von feinen kontextuellen Unterschieden und wandelbaren kulturellen Normen abhängt. Das traditionelle ML, das nicht in der Lage ist, die Unschärfe von Sprache (z.B. die Ähnlichkeit verwandter Wörter oder Phrasen) abzubilden, kann die semantische Bedeutung nur begrenzt erfassen. Bei Deep Learning kommen uns wieder die Vektoren zu Hilfe. Vektoren können nicht nur jedes Wort und jede Phrase eines Textes darstellen, sondern auch jeden logischen Ausdruck. Wie bei den Sprachelementen, die wir bereits behandelt haben, können Schichten aus künstlichen Neuronen Vektoren aus einzelnen Elementen neu kombinieren – in diesem Fall, um über die nichtlineare Kombination aus Phrasenvektoren semantische Vektoren zu berechnen.

       2.4Google Duplex

      Eines der aufsehenerregendsten Beispiele für Deep-Learning-basiertes NLP der letzten Jahre ist die Technik von Google Duplex, die auf der I/O Developers Conference des Unternehmens im Mai 2018 vorgestellt wurde. Der CEO des Suchgiganten, Sundar Pichai, hielt die Zuschauer in seinem Bann, als er demonstrierte, wie der Google Assistant einen Anruf bei einem chinesischen Restaurant tätigte, um eine Reservierung vorzunehmen. Das Publikum reagierte mit hörbarem Erstaunen auf den natürlichen Fluss der Konversation von Duplex. Es hatte die Kadenz der menschlichen Unterhaltung gemeistert, die es mit den ähs und hms spickte, die auch wir in Gespräche einfließen lassen, wenn wir beim Sprechen nachdenken. Darüber hinaus war der Anruf von durchschnittlicher Audioqualität und die Person am anderen Ende hatte einen starken Akzent: Duplex stockte nie und schaffte es, einen Tisch zu reservieren.

      Ungeachtet der Tatsache, dass dies eine Demonstration war – die nicht einmal live ablief –, beeindruckte uns das Spektrum der Deep-Learning-Anwendungen, die zusammenkommen mussten, um diese Technik zu ermöglichen. Nehmen Sie nur einmal den Informationsfluss zwischen den beiden Teilnehmern des Anrufs (Duplex und die Person im Restaurant): Duplex benötigt einen hochentwickelten Spracherkennungsalgorithmus, der Audio in Echtzeit verarbeiten und mit einer Vielzahl an Akzenten und Anrufqualitäten am anderen Ende der Leitung zurechtkommen sowie das Hintergrundrauschen bewältigen kann.23

      Sobald die Rede des Menschen gewissenhaft transkribiert wurde, muss ein NLP-Modell den Satz verarbeiten und entscheiden, was dieser bedeutet. Die Intention ist, dass die Person am Telefon nicht merkt, dass sie mit einem Computer redet, und daher ihre Sprache nicht entsprechend modulieren muss. Im Gegenzug heißt das aber auch, dass Menschen mit komplexen, mehrteiligen Sätzen antworten, die ein Computer nur schwer auseinandernehmen kann:

       »Wir haben morgen nichts, aber wir haben was am nächsten Tag und Donnerstag, jederzeit vor acht. Warten Sie, nein … Donnerstag um sieben geht nicht. Aber wie wäre es nach acht?

      Dieser Satz ist schlecht strukturiert – Sie würden so niemals eine E-Mail schreiben –, aber in einem normalen Gespräch kommen diese spontanen Verbesserungen und Ersetzungen ständig vor, und Duplex muss in der Lage sein, dem zu folgen.

      Wenn das Audiosignal transkribiert ist und die Bedeutung des Satzes verarbeitet wurde, muss das NLP-Modell von Duplex mit einer Antwort aufwarten. Diese Antwort muss um weitere Informationen bitten, falls der Mensch unklar war oder die Antworten unbefriedigend waren; ansonsten sollte es die Reservierung bestätigen. Das NLP-System generiert eine Antwort in Textform, sodass eine Text-to-Speech-(TTS-)Engine erforderlich ist, um den Ton zu synthetisieren.

image
Скачать книгу