Deep Learning illustriert. Jon Krohn

Deep Learning illustriert - Jon Krohn


Скачать книгу
Zeitschrift Nature bewerteten Mnih und seine Kollegen, die nun bei Google DeepMind arbeiteten, ihren DQN-Algorithmus anhand von 49 Atari-Spielen.11 Die Ergebnisse sind in Abbildung 4–6 zu sehen: Er übertraf Machine-Learning-Ansätze in allen Spielen bis auf drei (also in 94% von ihnen) und war erstaunlicherweise bei der Mehrzahl (59%) auch besser als menschliche Spieler.12

       4.5Brettspiele

      Es wäre vielleicht vernünftig gewesen, mit Brettspielen zu beginnen, bevor man zu Videospielen übergeht, schließlich sind sie analog und existieren außerdem schon länger. Allerdings boten Software-Emulatoren eine einfache und leichte Möglichkeit, digital mit Videospielen zu interagieren. Aus diesem Grund wurden die wichtigsten Fortschritte im Bereich des modernen Deep Reinforcement Learning im Bereich der Videospiele gemacht. Darüber hinaus sind einige der klassischen Brettspiele im Vergleich deutlich komplexer als Atari-Spiele. Anders als etwa bei Pac-Man oder Space Invaders gibt es beispielsweise beim Schach eine Unzahl an Strategien und Spielzügen. In diesem Abschnitt zeigen wir in einem Überblick, wie Deep-Reinforcement-Learning-Strategien die Brettspiele Go, Schach und Shogi gemeistert haben, obwohl Datenverfügbarkeit und Rechenkomplexität beträchtliche Hürden waren.

       4.5.1AlphaGo

      Das vor einigen Tausend Jahren in China erfundene Go (dargestellt in Abbildung 4–5) ist ein einzigartiges Strategiespiel für zwei Personen. Das Spiel hat einfache Regeln, die sich darum drehen, die Spielsteine des Gegners einzufangen, indem man sie mit seinen eigenen Steinen einkreist.13 Diese unkomplizierte Grundannahme täuscht jedoch darüber hinweg, dass das Spiel in der Praxis ausgesprochen raffiniert ist. Durch das größere Spielbrett und die größere Anzahl möglicher Bewegungen pro Zug ist das Spiel viel komplexer als etwa Schach, für das es bereits seit zwei Jahrzehnten Algorithmen gibt, die die besten menschlichen Spieler besiegen können.14 Es gibt etwas mehr als 2 × 10170 mögliche zulässige Brettpositionen in Go, was deutlich mehr ist als die Anzahl der Atome im Universum15 und ungefähr ein Googol (10100) komplexer als Schach.

      Abb. 4–5Das Brettspiel Go. Ein Spieler benutzt die weißen Steine, während der andere mit den schwarzen Steinen spielt. Ziel ist es, die gegnerischen Steine einzukreisen und sie damit zu fangen.

      Abb. 4–6Die normalisierten Leistungsmaße des DQN von Mnih und seinen Kollegen (2015) im Vergleich zu einem professionellen Spieletester: 0% bedeutet zufälliges Spielen, 100% ist die beste Leistung des Profispielers. Die horizontale Linie repräsentiert die durch die Autoren definierte Schwelle für das Spielen auf »menschlichem Niveau«: das 75. Perzentil der Ergebnisse des Profis.

      Man kann einen Algorithmus namens Monte Carlo Tree Search (MCTS) verwenden, um kompetent unkomplizierte Spiele zu spielen. In seiner reinsten Form werden beim MCTS bis zum Ende des Spiels zufällige Züge ausgewählt.16 Indem dies viele Male wiederholt wird, können Züge, die zu siegreichen Spielergebnissen führen, als bevorzugte Optionen eingestuft (gewichtet) werden. Aufgrund der außergewöhnlichen Komplexität und schieren Anzahl an Möglichkeiten in raffinierten Spielen wie Go erweist sich der reine MCTS-Ansatz als nicht besonders praktikabel: Es müssten einfach zu viele Möglichkeiten durchsucht und ausgewertet werden. Statt des reinen MCTS wendet ein alternatives Vorgehen MCTS auf eine eher begrenzte Teilmenge an Aktionen an, die zum Beispiel durch ein etabliertes Regelwerk für optimales Spielen kuratiert wurden. Dieser kuratierte Ansatz reicht aus, um Go-Amateure zu besiegen, kommt aber nicht gegen Profispieler an. Um die Lücke zwischen dem Amateur- und dem Profiniveau zu überbrücken, entwickelten David Silver (Abbildung 4–7) und seine Kollegen bei Google DeepMind ein Programm namens AlphaGo, das MCTS mit überwachtem Lernen und Deep Reinforcement Learning kombiniert.17

image

      Silver et al. nutzten überwachtes Lernen auf einer historischen Datenbank mit von menschlichen Experten ausgeführten Go-Zügen, um ein sogenanntes Policy Network (Regelnetzwerk) aufzustellen, das eine Auswahlliste mit möglichen Zügen für eine bestimmte Situation anbietet. Dieses Regelnetzwerk wurde anschließend durch Deep Reinforcement Learning verfeinert, wobei das System gegen sich selbst spielte. Das heißt, beide Gegner sind Go spielende Agenten mit vergleichbarem Können. Durch dieses Gegen-sich-selbst-Spielen verbessert sich der Agent schrittweise und wird nach einer Verbesserung immer wieder gegen sein verbessertes Selbst ins Rennen geschickt, sodass eine positive Feedback-Schleife der ständigen Verbesserung entsteht. Das Sahnehäubchen auf dem AlphaGo-Algorithmus ist schließlich das sogenannte Value Network (Bewertungsnetzwerk), das den Gewinner der gegen sich selbst gespielten Spiele vorhersagt. Dabei bewertet es Spielpositionen und lernt, starke Spielzüge zu identifizieren. Die Kombination aus Regel- und Bewertungsnetzwerk (mehr dazu folgt in Kapitel 13) reduziert die Breite des Suchraums für das MCTS.

      Abb. 4–7David Silver ist ein in Cambridge und Alberta ausgebildeter Forscher bei Google DeepMind. Er war wesentlich an der Kombination der Deep-Learning- und Reinforcement-Learning-Paradigmen beteiligt.

      AlphaGo war in der Lage, die große Mehrheit der Spiele zu gewinnen, die es gegen andere computerbasierte Go-Programme spielte. Was aber vielleicht noch faszinierender war: AlphaGo besiegte auch Fan Hui, den damals amtierenden Go-Europameister mit 5:0. Dies war das erste Mal, dass ein Computer gegen einen menschlichen Profispieler in einer kompletten Partie dieses Spiels gewann. Wie die Elo-Bewertungen18 in Abbildung 4–8 zeigen, operierte AlphaGo auf dem Niveau der besten Spieler der Welt oder sogar darüber.

      Nach diesem Erfolg trat AlphaGo im März 2016 im südkoreanischen Seoul gegen Lee Sedol an. Sedol besitzt 18 internationale Titel und gilt als einer der besten Go-Spieler aller Zeiten. Das aus fünf Spielen bestehende Match wurde live übertragen und von 200 Millionen Menschen angeschaut. AlphaGo gewann das Match mit 4:1 und brachte damit DeepMind, Go und die Zukunft der künstlichen Intelligenz in das Bewusstsein der Öffentlichkeit.19

       4.5.2AlphaGo Zero

      Im Anschluss an AlphaGo trieben die Leute von DeepMind die ganze Sache noch weiter und schufen einen Go-Spieler der zweiten Generation: AlphaGo Zero. Wie Sie sich erinnern, wurde AlphaGo zunächst auf überwachte Weise trainiert. Das heißt, dass das Netzwerk zunächst mithilfe von expertenhaften menschlichen Spielzügen angelernt wurde. Anschließend spielte es gegen sich selbst und setzte dabei Reinforcement Learning ein. Das ist zwar schon ein ziemlich geschicktes Vorgehen, hat aber noch nicht viel damit zu tun, »Intelligenz zu verstehen«, wie es die DeepMind-Gründer sich vorgestellt hatten. Eine bessere Annäherung an die allgemeine Intelligenz wäre ein Netzwerk, das Go komplett ohne menschliche Vorgaben oder Domänenwissen lernt und sich nur durch Deep Reinforcement Learning verbessert. Hier kommt AlphaGo Zero ins Spiel.

      Abb.


Скачать книгу