Deep Learning illustriert. Jon Krohn

Deep Learning illustriert - Jon Krohn


Скачать книгу
und WaveNet25 einsetzt, sowie eine eher klassische »verkettende« Text-to-Speech-Engine26. Dies ist die Stelle, an der das System das »unheimliche Tal«27 durchquert: Die Stimme, die der Restaurantbetreiber hört, ist überhaupt keine menschliche Stimme. WaveNet ist in der Lage, sampleweise völlig synthetische Wellenformen zu generieren. Dazu verwendet es ein tiefes neuronales Netzwerk, das mit echten Wellenformen von menschlichen Sprechern trainiert wurde. Unter diesem System bildet Tacotron Sätze aus Wörtern auf entsprechende Sätze aus Audio-Features ab, die die Feinheiten der menschlichen Sprache erfassen, wie etwa Tonhöhe, Geschwindigkeit, Intonation und sogar Aussprache. Diese Features werden dann in WaveNet eingegeben, das die tatsächlichen Wellenformen synthetisiert, die der Restaurantbetreiber hört. Das ganze System schafft es, eine natürlich klingende Stimme mit der korrekten Kadenz, Emotion und Betonung zu produzieren. In mehr oder weniger routinehaften Augenblicken des Gesprächs kommt die verkettende TTS-Engine (bestehend aus Aufnahmen ihrer eigenen »Stimme«), die weniger Rechenleistung verlangt, zum Einsatz. Das gesamte Modell wechselt bei Bedarf dynamisch zwischen den verschiedenen Modellen.

      Um einmal Jerry Maguire falsch zu zitieren, Sie hatten all das bei »Hallo«. Das Spracherkennungssystem, die NLP-Modelle und die TTS-Engine arbeiten ab dem Augenblick zusammen, in dem der Anruf angenommen wird. Die Dinge werden von dort an nur noch komplexer für Duplex. Die gesamte Interaktion wird von einem tiefen neuronalen Netz geleitet, das darauf spezialisiert ist, mit Informationen umzugehen, die in einem Satz auftreten.28 Dieser »Chef« verfolgt das Gespräch und leitet die verschiedenen Ein- und Ausgaben in die passenden Modelle.

      Aus diesem Überblick sollte klar werden, dass Google Duplex ein raffiniertes und hochentwickeltes System aus Deep-Learning-Modellen ist, die zusammenarbeiten, um eine nahtlose Interaktion am Telefon herzustellen. Im Moment ist Duplex aber trotzdem noch auf sehr spezifische Bereiche beschränkt: das Anberaumen von Terminen und Reservierungen. Das System kann kein allgemeines Gespräch führen. Das heißt, auch wenn Duplex für die künstliche Intelligenz ein deutlicher Schritt nach vorn ist, bleibt immer noch eine Menge zu tun.

       2.5Zusammenfassung

      In diesem Kapitel haben Sie erfahren, wie Deep Learning für die Verarbeitung von natürlicher Sprache eingesetzt wird. Dazu haben wir die Fähigkeit von Deep-Learning-Modellen weiter beschrieben, automatisch die entscheidenden Features oder Merkmale aus Daten zu extrahieren, was uns der Notwendigkeit enthebt, arbeitsintensive 1-aus-n-Repräsentationen der Sprache herzustellen. Stattdessen setzen NLP-Anwendungen, die Deep Learning verwenden, auf Vektorraumeinbettungen, die die Bedeutung von Wörtern nuanciert erfassen, wodurch sich sowohl die Leistung als auch die Genauigkeit der Modelle verbessern.

      In Kapitel 11 werden Sie eine NLP-Anwendung konstruieren. Dazu verwenden Sie vom Input der natürlichsprachigen Daten bis hin zur Ableitung der Ausgabe aus diesen Daten künstliche neuronale Netze. In solchen »Ende-zu-Ende«-Deep-Learning-Modellen erzeugen die ersten Schichten Wortvektoren, die nahtlos in tiefere, spezialisierte Schichten aus künstlichen Neuronen fließen, darunter auch in Schichten mit einer Art »Speicher« oder »Gedächtnis«. Diese Modellarchitekturen verdeutlichen, wie mächtig und zugleich wie einfach die Arbeit mit Wortvektoren beim Deep Learing ist.

       3Maschinenkunst

      In diesem Kapitel stellen wir einige der Konzepte vor, die es Deep-Learning-Modellen scheinbar erlauben, Kunst zu erschaffen – ein Gedanke, den einige von uns vermutlich paradox finden. Der Philosoph Alva Noë von der University of Berkeley in Kalifornien meinte jedenfalls: »Kunst kann uns helfen, ein besseres Bild von unserer menschlichen Natur zu formen.«1 Falls das stimmt, wie können Maschinen dann Kunst erschaffen? Oder anders formuliert: Sind die Kreationen, die von diesen Maschinen stammen, als Kunst anzusehen? Eine andere Interpretation – die uns übrigens am besten gefällt – lautet, dass diese Kreationen tatsächlich Kunst sind und dass die Programmierer Künstler sind, die ihre Deep-Learning-Modelle wie Pinsel handhaben. Wir sind nicht die einzigen, die diese Werke als wahre Kunst betrachten: Von GAN-Algorithmen (Generative Adversarial Networks, zu Deutsch etwa: erzeugende gegnerische Netzwerke) geschaffene Gemälde sind teils für mehr als 400.000 US-Dollar über den Tisch gegangen.2

      In diesem Kapitel werden wir uns die hochentwickelten Konzepte hinter GANs anschauen. Sie werden Beispiele der neuartigen visuellen Werke sehen, die sie produzieren können. Wir werden eine Verbindung zwischen den latenten Räumen, die mit GANs verknüpft sind, und den Wortvektorräumen aus Kapitel 2 ziehen. Und wir werden ein Deep-Learning-Modell behandeln, das als automatisiertes Werkzeug dienen kann, um die Qualität von Fotos drastisch zu verbessern. Aber bevor es losgeht, schnappen Sie sich einen Drink …

       3.1Eine feuchtfröhliche Nacht

      Unter den Google-Büros in Montreal gibt es eine Bar namens »Les 3 Brasseurs«, zu Deutsch also »Die 3 Brauer«. Dort dachte sich Ian Goodfellow, der damals, im Jahre 2014, als PhD-Student in Yoshua Bengios renommiertem Labor (Abbildung 1–10) arbeitete, einen Algorithmus zum Herstellen realistisch aussehender Bilder aus3 – eine Technik, die Yann LeCun (Abbildung 1–9) als »wichtigsten« aktuellen Durchbruch auf dem Gebiet des Deep Learning bejubelte.4

      Goodfellows Freunde beschrieben ihm ein generatives Modell, an dem sie arbeiteten, das heißt, ein Computermodell, das darauf abzielt, etwas Neues zu erschaffen, sei es ein Zitat im Stil von Shakespeare, eine Melodie oder ein abstraktes Kunstwerk. In ihrem speziellen Fall versuchten die Freunde, ein Modell zu entwerfen, das fotorealistische Bilder generieren konnte, wie etwa Porträts menschlicher Gesichter. Damit dies mit dem traditionellen Machine-Learning-Ansatz einigermaßen gut funktioniert (Abbildung 1–12), müssten die Ingenieure, die das Modell entwarfen, nicht nur die entscheidenden Merkmale von Gesichtern katalogisieren und approximieren, wie Augen, Nasen und Münder, sondern auch exakt abschätzen, wie diese Merkmale relativ zueinander angeordnet werden müssten. Bislang waren die Ergebnisse wenig beeindruckend. Die generierten Gesichter waren entweder sehr unscharf oder ihnen fehlten wichtige Elemente wie die Nase oder die Ohren.

      Goodfellow, dessen Kreativität möglicherweise durch das eine oder andere Bier angeregt wurde,5 hatte eine revolutionäre Idee: ein Deep-Learning-Modell, in dem zwei künstliche neuronale Netze (Artificial Neural Network, ANN) quasi im Wettstreit gegeneinander antreten. Wie in Abbildung 3–1 dargestellt wird, würde eines dieser ANN darauf programmiert werden, Fälschungen herzustellen, während das andere so programmiert würde, dass es als Detektiv agiert und die Fälschungen von den echten Bildern unterscheidet (diese würden separat angeboten werden). Diese gegnerischen Deep-Learning-Netze würden einander anstacheln: Wenn der Generator beim Herstellen der Fälschungen besser wird, muss der Diskriminator besser dabei werden, sie zu identifizieren, und so müsste der Generator noch überzeugendere Nachahmungen produzieren und so weiter. Dieser wunderbare Trainingszyklus würde schließlich zu überwältigenden neuen Bildern im Stil der echten Trainingsbilder führen, ob nun von Gesichtern oder anderen Dingen. Und das Beste an der ganzen Sache wäre, dass Goodfellows Ansatz uns der Notwendigkeit entheben würde, manuell Features in das generative Modell zu programmieren. Wie wir schon im Zusammenhang mit dem maschinellen Sehen (Kapitel 1) und der Verarbeitung natürlicher Sprache (Kapitel 2) ausgeführt haben, kümmert sich das Deep Learning automatisch um die Features der Modelle.


Скачать книгу