Deep Learning illustriert. Jon Krohn

Deep Learning illustriert - Jon Krohn


Скачать книгу
Features können sowohl nuancierter als auch umfassender sein als ihre manuell kuratierten Vettern. Allerdings kann es passieren, dass die gelernten Features nicht so gut verstanden werden oder nicht so einfach zu erklären sind, obwohl Forscher aus der akademischen oder der industriellen Welt diese Hürden zunehmend besser meistern.2

       4.1.4Künstliche neuronale Netze

      Künstliche neuronale Netze (KNN) sind heute auf dem Feld des Representation Learning vorherrschend. Wie in früheren Kapiteln bereits angedeutet wurde und wie in Kapitel 6 ausführlicher dargestellt wird, sind künstliche Neuronen einfache Algorithmen, die von den biologischen Gehirnzellen inspiriert sind, vor allem in dem Sinne, dass die einzelnen Neuronen – egal ob biologisch oder künstlich – Eingaben von vielen anderen Neuronen erhalten, Berechnungen durchführen und dann eine einzelne Ausgabe erzeugen. Ein künstliches neuronales Netz ist eine Sammlung aus künstlichen Neuronen, die so angeordnet sind, dass sie einander Informationen senden und empfangen. Daten (z.B. Bilder von handgeschriebenen Ziffern) werden in ein KNN eingespeist, das diese Daten dann auf irgendeine Weise verarbeitet, um ein gewünschtes Ergebnis zu erzielen (z.B. genau zu erraten, welche Ziffern durch das Geschriebene dargestellt werden).

       4.1.5Deep Learning

      Von allen Begriffen in Abbildung 4–1 lässt sich Deep Learning am einfachsten definieren, weil es so präzise abzugrenzen ist. Wir haben in diesem Buch bereits einige Male erwähnt, dass ein Netzwerk, das aus wenigstens einigen Schichten künstlicher Neuronen besteht, als Deep-Learning-Netz bezeichnet werden kann. Wie an den klassischen Architekturen in den Abbildung 1–11 und 1–17 beispielhaft gezeigt wurde, in Abbildung 4–2 im Diagramm dargestellt wird und in Kapitel 7 dann vollständig ausgeführt wird, besitzen Deep-Learning-Netzwerke insgesamt fünf oder mehr Schichten mit der folgenden Struktur:

       eine einzelne Eingabeschicht (Input Layer), die für die Daten reserviert ist, die in das Netzwerk eingegeben werden

       drei oder mehr verborgene Schichten (Hidden Layers), die aus den Eingabedaten die Repräsentationen lernen. Ein allgemeiner und häufig verwendeter Typ von verborgener Schicht ist der vollständig verbundene Typ, bei dem alle Neuronen einer bestimmten Schicht Informationen von jedem der Neuronen aus der vorhergehenden Schicht empfangen können (vollständig verbundene Schichten werden auch als Dense Layers bezeichnet). Neben diesem vielseitigen Schichttyp gibt es eine Fülle weiterer Typen für spezielle Anwendungsfälle; wir werden die beliebtesten davon im Laufe dieses Abschnittes erwähnen.

       eine einzelne Ausgabeschicht (Output Layer), die für die Werte (z.B. Vorhersagen) reserviert ist, die das Netzwerk liefert

       Abb. 4–2 Verallgemeinerte Darstellung der Architekturen des Deep-Learning-Modells

      Da jede nachfolgende Schicht im Netzwerk in der Lage ist, zunehmend abstraktere, nichtlineare Neukombinationen der vorhergehenden Schichten darzustellen, reichen oft weniger als ein Dutzend Schichten künstlicher Neuronen aus, damit Deep-Learning-Modelle die Repräsentationen lernen, die zum Lösen eines Problems mit einem vorgegebenen Datensatz nötig sind. Gelegentlich wurden aber auch schon Deep-Learning-Netzwerke mit Hunderten oder gar eintausend Schichten erfolgreich demonstriert.3

      Wie zunehmend besser werdende Genauigkeits-Benchmarks und zahllose Wettbewerbsgewinne seit dem Sieg von AlexNet beim ILSVRC im Jahre 2012 (Abbildung 1–16) demonstriert haben, ist der Deep-Learning-Ansatz zur Modellierung bei einem breiten Spektrum an Machine-Learning-Aufgaben herausragend. Angesichts der Tatsache, dass Deep Learning einen Großteil der Fortschritte auf dem Gebiet der KI ausmacht, verwundert es nicht, dass die Begriffe »Deep Learning« und »Künstliche Intelligenz« in der Presse immer häufiger synonym verwendet werden.

      Begeben wir uns in den Deep-Learning-Ring von Abbildung 4–1, um Aufgabenklassen zu untersuchen, für die Deep-Learning-Algorithmen zum Einsatz kommen: für maschinelles Sehen, für die Verarbeitung natürlicher Sprache und für das Reinforcement Learning.

       4.1.6Maschinelles Sehen

      In Kapitel 1 wurde die Analogie des biologischen Sehsystems genutzt, um das maschinelle Sehen (Machine Vision) vorzustellen. Wir konzentrierten uns dort auf Aufgaben zur Objekterkennung wie die Unterscheidung von handgeschriebenen Ziffern oder Hunderassen. Andere bekannte Beispiele für die Anwendung von Systemen zum maschinellen Sehen sind selbstfahrende Autos, Vorschläge zur Gesichtserkennung und das Entsperren von Smartphones per Gesichtserkennung. Allgemeiner ausgedrückt, ist das maschinelle Sehen für jede KI relevant, die Objekte aus einem bestimmten Abstand anhand ihres Äußeren erkennen oder sich in einer realen Umgebung zurechtfinden soll.

      Convolutional Neural Networks (kurz ConvNets oder CNN) sind oft in modernen Machine-Vision-Anwendungen zu finden. Ein CNN ist jede Architektur eines Deep-Learning-Modells, die verborgene Schichten vom Typ Convolutional (Konvolutionsschichten) enthält. Wir haben Konvolutionsschichten bereits im Zusammenhang mit Ian Goodfellows GANs in Abbildung 3–2 erwähnt, und wir werden in Kapitel 10 näher auf sie eingehen.

       4.1.7Natural Language Processing

      In Kapitel 2 behandelten wir Sprache und die Verarbeitung natürlicher Sprache (Natural Language Processing oder NLP). Bei diesen Anwendungen ist Deep Learning nicht ganz so dominant wie beim maschinellen Sehen, weshalb unser Venn-Diagramm (Abbildung 4–1) das NLP sowohl im Bereich des Deep Learning als auch auf dem allgemeineren Gebiet des Machine Learning zeigt. Wie jedoch der Zeitstrahl in Abbildung 2–3 demonstriert, beginnen Deep-Learning-Ansätze für das NLP, die traditionellen Machine-Learning-Ansätze in Bezug auf Effizienz und Genauigkeit zu überflügeln. In bestimmten NLP-Bereichen ist das Deep Learning bereits vorherrschend. Beispiele hierfür sind Stimmerkennung (z.B. Amazons Alexa oder Googles Assistant), maschinelles Übersetzen (einschließlich Echtzeitübersetzungen über das Telefon) und Aspekte von Internet-Suchmaschinen (wie das automatische Ergänzen von Suchbegriffen, die die Benutzer eintippen). Ganz allgemein ausgedrückt, ist das Deep Learning für NLP für jede KI relevant, die über die natürliche Sprache – egal ob gesprochen oder geschrieben – interagiert. Dies schließt auch das automatische Beantworten einer komplexen Serie von Fragen ein.

      Ein Typ von verborgener Schicht, der in vielen Deep-Learning-Architekturen aus dem Bereich des NLP zu finden ist, ist die Long Short-Term Memory-(LSTM-) Zelle, ein Mitglied aus der Familie der Recurrent Neural Networks (RNN). RNNs sind für alle Daten geeignet, die in einer Sequenz oder Abfolge auftreten, wie etwa Zeitreihendaten aus dem Finanzwesen, Lagerbestände,


Скачать книгу