Deep Learning illustriert. Jon Krohn
können die Darstellungen visueller Stimuli schrittweise immer komplexer und abstrakter werden. Wie durch die ganz rechte Schicht der Neuronen gezeigt wird, ist das Gehirn nach vielen Schichten dieser hierarchischen Verarbeitung (der gestrichelte Pfeil soll andeuten, dass viele weitere Verarbeitungsschichten vorhanden sind, aber nicht gezeigt werden) schließlich in der Lage, visuelle Konzepte darzustellen, die so komplex sind wie eine Maus, eine Katze, ein Vogel oder ein Hund.
Heute haben Neurowissenschaftler mithilfe zahlloser weiterer Aufzeichnungen aus den kortikalen Neuronen von Gehirnchirurgie-Patienten sowie aus nichtinvasiven Techniken wie der Magnetresonanztomographie (MRT)5 eine ziemlich hoch aufgelöste Karte der Regionen zusammengestellt, die sich auf die Verarbeitung bestimmter visueller Stimuli spezialisiert haben, wie etwa Farbe, Bewegung und Gesichter (siehe Abbildung 1–7).
Abb. 1–7Regionen des visuellen Cortex. Die Region V1 empfängt Input von den Augen und enthält die einfachen Zellen, die die Kantenausrichtung erkennen. Durch die Neukombination von Informationen über eine Vielzahl nachfolgender Schichten aus Neuronen (unter anderem in den Regionen V2, V3 und V3a) werden zunehmend abstrakter werdende visuelle Stimuli dargestellt. Im menschlichen Gehirn (hier zu sehen) gibt es Regionen, die besonders viele Neuronen mit bestimmten Spezialisierungen enthalten, zum Beispiel für die Erkennung von Farbe (V4), Bewegung (V5) oder Gesichtern von Menschen (die »Fusiform Face Area« oder FFA).
1.2Maschinelles Sehen
Wir haben das biologische visuelle System nicht nur deswegen diskutiert, weil es interessant ist (obwohl Sie hoffentlich den vorangegangenen Abschnitt absolut faszinierend fanden), sondern weil es als Inspiration für die Deep-Learning-Ansätze des maschinellen Sehens (Machine Vision) dient, wie in diesem Abschnitt deutlich werden soll.
Abbildung 1–8 bietet einen kurzgefassten historischen Zeitstrahl des Sehens in biologischen Organismen sowie in Maschinen. Der obere, blaue Zeitstrahl hebt die Entwicklung des Sehens bei den Trilobiten sowie die Veröffentlichung von Hubel und Wiesel aus dem Jahre 1959 über das hierarchische Wesen des primären visuellen Cortex hervor, von dem im vorangegangenen Abschnitt die Rede war. Der Zeitstrahl zum maschinellen Sehen ist in zwei parallele Strömungen aufgeteilt, die zwei alternative Ansätze verkörpern. Der mittlere, rosa Zeitstrahl stellt den Deep-Learning-Ansatz dar, der in diesem Buch behandelt wird. Der untere, lila Zeitstrahl repräsentiert derweil den traditionellen Machine-Learning-Weg (ML) zum Sehen. Der Vergleich der beiden Vorgehensweisen verdeutlicht, wieso das Deep Learning so leistungsfähig und revolutionär ist.
Abb. 1–8Verkürzte Zeitlinie für das biologische und maschinelle Sehen. Darin haben wir hervorgehoben, wann welche Ansätze für das Deep Learning sowie für das traditionelle Machine Learning aufkamen, auf die in diesem Abschnitt eingegangen wird.
1.2.1Das Neocognitron
Inspiriert durch Hubel und Wiesels Entdeckung der einfachen und komplexen Zellen, die die Hierarchie des primären visuellen Cortex bilden, schlug der japanische Elektroingenieur Kunihiko Fukushima Ende der 1970er-Jahre eine analoge Architektur für das maschinelle Sehen vor, die er als Neocognitron6 bezeichnete. Zwei Dinge sind besonders bemerkenswert:
1 Fukushima bezog sich in seinen Schriften explizit auf die Arbeit von Hubel und Wiesel. Im Speziellen verweist sein Artikel auf ihre entscheidenden Artikel zur Organisation des primären visuellen Cortex und nutzt ebenfalls die Terminologie der »einfachen« und »komplexen« Zellen, um die erste bzw. zweite Schicht seines Neocognitron zu beschreiben.
2 Wenn man künstliche Neuronen7 auf diese hierarchische Weise anordnet, repräsentieren diese Neuronen – genau wie ihre biologische Inspiration aus Abbildung 1–6 – im Allgemeinen die Zeilenausrichtungen in den Zellen, die dem visuellen Rohbild am nächsten liegen, während die tiefer gelegenen Schichten zunehmend komplexer und abstrakter werdende Objekte darstellen. Um diese mächtige Eigenschaft des Neocognitron und seiner Deep-Learning-Abkömmlinge zu verdeutlichen, werden wir am Ende dieses Kapitels ein interaktives Beispiel zeigen, das sie demonstriert.8
1.2.2LeNet-5
Abb. 1–9Der in Paris geborene Yann LeCun gehört zu den bedeutendsten Gestalten in der Forschung zu künstlichen neuronalen Netzen und Deep Learning. LeCun ist Gründungsdirektor des New Yorker »University Center for Data Science« sowie Leiter der KI-Forschung des sozialen Netzwerks Facebook.
Abb. 1–10Yoshua Bengio ist eine weitere führende Person auf dem Gebiet der künstlichen neuronalen Netze und des Deep Learning. Geboren in Frankreich, arbeitet er jetzt als Informatikprofessor an der University of Montreal und gehört zu den Leitern des renommierten »Machines and Brains«-Programms am kanadischen »Institute for Advanced Research«.
Während das Neocognitron zum Beispiel in der Lage war, handgeschriebene Zeichen zu identifizieren9, stellte die Genauigkeit und Effizienz des LeNet-5-Modells10 von Yann LeCun (Abbildung 1–9) und Yoshua Bengio (Abbildung 1–10) eine beeindruckende Weiterentwicklung dar. Die hierarchische Architektur von LeNet-5 (Abbildung 1–11) baute auf dem Modell von Fukushima und dessen biologischer Inspiration durch Hubel und Wiesel11 auf. Darüber hinaus genossen LeCun und seine Kollegen den Vorteil besserer Daten zum Trainieren ihres Modells12, einer schnelleren Verarbeitungsleistung und – was entscheidend war – des Backpropagation-Algorithmus.
Backpropagation (auch Rückpropagierung oder Rückführung genannt) ermöglicht ein effizientes Lernen durch die Schichten künstlicher Neuronen in einem Deep-Learning-Modell.13 Die Daten der Forscher und die Verarbeitungsleistung sorgten dafür, dass LeNet-5 ausreichend zuverlässig für eine frühe kommerzielle Anwendung des Deep Learning wurde: Der United States Postal Service (USPS) nutzte es, um das Lesen der ZIP-Codes14 auf Briefumschlägen zu automatisieren. In Kapitel 10, wenn es um das maschinelle Sehen geht, werden Sie LeNet-5 aus erster Hand erleben, wenn Sie es selbst entwerfen und auf die Erkennung handgeschriebener Ziffern trainieren.
Abb. 1–11LeNet-5 behielt die hierarchische Architektur bei, die von Hubel und Wiesel im primären visuellen Cortex entdeckt und von Fukushima in seinem Neocognitron benutzt wurde. Wie in diesen anderen Systemen auch repräsentiert die ganz links gelegene Schicht einfache Kanten, während nachfolgende Schichten zunehmend komplexer werdende Eigenschaften darstellen. Durch eine solche Verarbeitung von Informationen sollte zum Beispiel eine handgeschriebene »2« korrekt als Zahl Zwei erkannt werden (in der Ausgabe ganz rechts grün hervorgehoben).
In