Deep Learning illustriert. Jon Krohn

Deep Learning illustriert - Jon Krohn


Скачать книгу
stets durch die nächstbessere Version. AlphaZero dagegen behält ein einziges Netzwerk und spielt immer gegen die neueste Version von sich selbst. AlphaZero wurde nur jeweils 24 Stunden lang trainiert, Schach, Shogi und Go zu spielen. Es gab keine spielspezifischen Modifikationen bis auf den manuell konfigurierten Parameter, der bestimmt, wie häufig das Modell zufällige, erforschende (explorative) Züge durchführt. Dieser wurde auf die Anzahl der zulässigen Züge in den jeweiligen Spielen skaliert.29

      Von den 100 Wettbewerbsspielen verlor AlphaZero nicht eines gegen den Weltmeister der Top Chess Engine Championship des Jahres 2016, nämlich Stockfish. Beim Shogi schaffte es der Weltmeister der Computer Shogi Association, Elmo, nur achtmal bei 100 Spielen, AlphaZero zu schlagen. Sein vermutlich angemessenster Gegner, AlphaGo Zero, konnte AlphaZero in 40 von 100 Spielen besiegen. Abbildung 4–10 zeigt die Elo-Bewertungen für AlphaZero im Vergleich zu seinen drei Gegenspielern.

      AlphaZero war nicht nur überlegen, sondern auch effizient: Seine Elo-Bewertung übertraf die seiner größten Gegner nach nur zwei, vier bzw. acht Trainingsstunden für Shogi, Schach bzw. Go. Dies ist eine sensationell schnelle Lernrate, wenn man bedenkt, dass Elmo und Stockfish den Höhepunkt jahrzehntelanger Forschungen und Verfeinerungen in einer konzentrierten, domänenspezifischen Weise darstellen. Der generalisierbare AlphaZero-Algorithmus kann alle drei Spiele souverän spielen: Ein einfaches Austauschen der gelernten Wichtungen aus ansonsten identischen neuronalen Netzwerkarchitekturen verleiht diesen die gleichen Fertigkeiten, die ansonsten nur durch jahrelanges Lernen erworben werden könnten. Diese Ergebnisse demonstrieren, dass Deep Reinforement Learning ein faszinierend machtvoller Ansatz für das ungerichtete Entwickeln eines professionellen Spielvermögens ist.

      Abb. 4–10Der Vergleich der Elo-Bewertungen zwischen AlphaZero und seinen drei Gegnern in Schach, Shogi und Go. AlphaZero war schnell deutlich besser als die drei Opponenten.

       4.6Manipulation von Objekten

      Bisher haben wir uns in diesem Kapitel vor allem mit den Spielanwendungen des Deep Reinforcement Learning befasst. Nun sind Spiele zwar ein gutes Testfeld für das Erforschen der Verallgemeinerung von Maschinenintelligenz, jedoch wollen wir uns in diesem Abschnitt einmal den praktischen, echten Anwendungen des Deep Reinforcement Learning zuwenden.

      Ein Beispiel aus dem wirklichen Leben, das wir bereits erwähnt haben, sind autonome Fahrzeuge. Als weiteres Beispiel bieten wir hier einen Überblick über die Forschung von Sergey Levine, Chelsea Finn (Abbildung 4–11) und ihren Kollegen an der University of California in Berkeley.30 Diese Forscher trainierten einen Roboter in einer Reihe motorischer Fähigkeiten, die ein komplexes visuelles Verständnis und Tiefenwahrnehmung erfordern. Beispiele sind das Zuschrauben eines Flaschendeckels, das Entfernen eines Nagels mit einem Spielzeughammer, das Aufhängen eines Kleiderbügels an einem Kleiderständer und das Einsetzen eines Würfels in einem Formenspiel (Abbildung 4–12).

      Der Algorithmus von Levine, Finn und ihren Kollegen bildet die visuellen Rohdaten direkt auf die Bewegungen der Motoren in dem Roboterarm ab. Ihr Regelnetzwerk war ein sieben Schichten tiefes Convolutional Neural Network (CNN) aus weniger als 100.000 künstlichen Neuronen – in Bezug auf das Deep Learning eine wirklich winzige Zahl, wie Sie sehen werden, wenn Sie später in diesem Buch lernen, Netze zu trainieren, die um Größenordnungen mächtiger sind. Es ist zwar im Moment nicht ganz einfach, genauer auf diesen Ansatz einzugehen, da Sie noch nicht besonders viel über die Theorie hinter künstlichen neuronalen Netzen gelernt haben (dazu kommen wir in Teil II). Aber auf drei Punkte dieser eleganten praktischen Anwendung des Deep Reinforcement Learning möchten wir doch schon einmal hinweisen:

       Dies ist ein »Ende-zu-Ende«-Deep-Learning-Modell. Das bedeutet, dass das Modell Rohbilder (Pixel) als Eingaben nimmt und diese direkt auf die Motoren des Roboters ausgibt.

       Das Modell generalisiert ganz sauber auf ein breites Spektrum an einzigartigen Aufgaben zur Manipulation von Objekten.

       Es ist ein Beispiel für die Policy-Gradient-Familie der Deep-Reinforcement-Learning-Ansätze. Damit haben wir dann auch den letzten der Begriffe aus unserem Venn-Diagramm aus Abbildung 4–1 abgearbeitet. Policy-Gradient-Methoden unterscheiden sich vom DQN-Ansatz, der das Thema von Kapitel 13 bildet, aber dort werden wir auch ihnen wieder begegnen.

      Abb. 4–11Chelsea Finn ist Doktorandin am AI Research Lab der University of California in Berkeley.

       Abb. 4–12 Beispielbilder aus »Levine, Finn, et al. (2016)«, die verschiedene Objektmanipulationen zeigen, für die der Roboter trainiert wurde

       4.7Populäre Umgebungen für das Deep-Reinforcement-Learning

      In den bisherigen Abschnitten sprachen wir bereits über die Software-Emulation von Umgebungen, in denen man Reinforcement-Learning-Modelle trainieren kann. Dieses Entwicklungsgebiet ist entscheidend für den laufenden Fortschritt im Bereich des Reinforcement-Learning: Ohne Umgebungen, in denen unsere Agenten spielen und sich ausprobieren (und Daten sammeln!) können, ist das Trainieren von Modellen schlicht und ergreifend nicht möglich. Wir stellen daher hier die drei beliebtesten Umgebungen vor und diskutieren ihre Attribute.

       4.7.1OpenAI Gym

      OpenAI Gym31 wird von dem nichtkommerziellen KI-Forschungsunternehmen OpenAI entwickelt.32 OpenAI hat es sich zur Aufgabe gemacht, die Artificial General Intelligence (mehr dazu im nächsten Abschnitt) auf sichere und faire Weise voranzutreiben. Dazu haben die Forscher bei OpenAI eine Reihe von Werkzeugen zur KI-Forschung entwickelt und als Open Source zur Verfügung gestellt, darunter auch OpenAI Gym. Dieses Toolkit bietet eine Schnittstelle zum Trainieren von Reinforcement-Learning-Modellen, egal ob tief oder nicht.

      Wie in Abbildung 4–13 dargestellt wird, enthält das Gym eine ganze Reihe von Umgebungen, einschließlich einiger Atari-2600-Spiele33, mehrerer Robotik-Simulatoren, einiger einfacher textbasierter, algorithmischer Spiele und mehrerer Robotik-Simulatoren mit der MuJoCo-Physik-Engine34. In Kapitel 13 werden Sie OpenAI Gym in einer Codezeile installieren und dann eine seiner Umgebungen nutzen, um den DQN-Agenten zu trainieren, den Sie dort bauen. OpenAI Gym ist in Python geschrieben und kompatibel mit jeder Deep-Learning-Bibliothek wie TensorFlow und PyTorch. (Wir werden die verschiedenen Deep-Learning-Bibliotheken in Kapitel 14 besprechen; diese beiden sind besonders beliebt.)

       4.7.2DeepMind Lab

      DeepMind Lab35 ist eine weitere RL-Umgebung. Sie stammt von den Entwicklern bei Google DeepMind. (Diese weisen allerdings darauf hin, dass DeepMind Lab kein offizielles


Скачать книгу