Deep Learning illustriert. Jon Krohn
verschiedenen Go-Programmen (rot). Der ungefähre menschliche Rang wird rechts gezeigt.
Wie wir bereits angedeutet haben, verlangt das Spiel Go die Fähigkeit, vorausschauend große Suchräume zu durchlaufen. Das heißt, es gibt so viele mögliche Spielzüge und nur ein winziger Bruchteil von ihnen sind kurz- und langfristig gesehen gute Züge, sodass die Suche nach dem optimalen Zug, bei dem auch der mögliche künftige Zustand des Spiels berücksichtigt wird, übermäßig komplex und in rechnerischer Hinsicht unpraktisch wird. Aus diesem Grund dachte man, dass Go für die maschinelle Intelligenz eine Art letzter Grenze darstellen würde. Man ging eigentlich sogar davon aus, dass die Errungenschaften von AlphaGo aus dem Jahre 2016 noch ein Jahrzehnt oder mehr entfernt seien.
Mit dem Schwung, den sie aus dem AlphaGo-Sedol-Match zogen, schufen die Forscher bei DeepMind AlphaGo Zero, das das Go-Spiel auf einem deutlich höheren Niveau beherrscht als das ursprüngliche AlphaGo – und außerdem auf verschiedene Arten revolutionär ist:20
Zunächst einmal wird es ohne irgendwelche Daten aus menschlichen Spielen trainiert. Das bedeutet, dass es lediglich durch Ausprobieren (Trial and Error) lernt.
Zweitens verwendet es nur die Steine auf dem Brett als Input. Im Gegensatz dazu hatte AlphaGo 15 ergänzende, von Menschen konstruierte Features erhalten, die dem Algorithmus wichtige Hinweise lieferten, wie etwa die Anzahl der Runden, seit ein Zug gespielt wurde, oder wie viele gegnerische Steine gefangen werden würden.
Drittens wurde statt getrennter Regel- und Bewertungsnetzwerke (siehe den vorhergehenden Kasten; mehr dazu in Kapitel 13) ein einziges (tiefes) neuronales Netzwerk verwendet, um das Brett zu bewerten und über den nächsten Zug zu entscheiden.
Und schließlich ist die Baumsuche einfacher und verlässt sich für die Bewertung von Positionen und möglichen Spielzügen auf das neuronale Netz.
AlphaGo Zero spielte im Laufe von drei Tagen fast fünf Millionen Spiele gegen sich selbst und nahm sich dabei pro Zug etwa 0,4 Sekunden Zeit zum »Nachdenken«. Innerhalb von 36 Stunden hatte es begonnen, das Modell zu übertreffen, das Lee Sedol geschlagen hatte (es war nachträglich in AlphaGo Lee umbenannt worden). Dieses hatte mehrere Monate für sein Training benötigt. Nach 72 Stunden wurde das Modell unter Match-Bedingungen gegen AlphaGo Lee aufgestellt und gewann jedes der 100 Spiele mit Leichtigkeit. Besonders bemerkenswert ist, dass AlphaGo Zero dies auf einer einzigen Maschine mit vier Tensor-Prozessoren21 (Tensor Processing Unit oder TPU) schaffte, während AlphaGo Lee auf mehrere Maschinen verteilt war und 48 TPUs benutzte. (AlphaGo Fan, das Fan Hui geschlagen hatte, war über 176 GPUs verteilt!)
In Abbildung 4–9 ist die Elo-Bewertung für AlphaGo Zero über die Tage seines Trainings zu sehen und wird dort mit den Bewertungen für AlphaGo Master22 und AlphaGo Lee verglichen. Auf der rechten Seite sind die absoluten Elo-Bewertungen für verschiedene Iterationen von AlphaGo und einige andere Go-Programme zu sehen. AlphaGo Zero ist das bei Weitem überlegene Modell.
Eine überraschende Entdeckung bei diesen Forschungen war, dass AlphaGo Zero qualitativ völlig anders spielte als die menschlichen Spieler und (das mithilfe menschlichen Spiels trainierte) AlphaGo Lee. AlphaGo Zero begann mit zufälligem Spielen, lernte aber sehr schnell professionelles Joseki – Ecksequenzen, die als Standardzugfolgen gelten. Nach weiterem Training bevorzugte das gereifte Modell jedoch neue Joseki, die den Menschen zuvor unbekannt waren. AlphaGo Zero lernte spontan ein ganzes Spektrum an klassischen Go-Zügen, was eine pragmatische Anpassung an diese Techniken implizierte. Das Modell schaffte dies jedoch auf ganz originelle Weise: Es erlernte zum Beispiel das Konzept des Shicho (Leiter-Sequenzen) erst sehr viel später in seinem Training, während es für menschliche Spieler zu einem der ersten Spielkonzepte gehört, die sie lernen. Die Autoren trainierten darüber hinaus eine weitere Iteration des Modells mit menschlichen Spieldaten. Dieses überwachte Modell war anfangs besser, unterlag jedoch dem datenfreien Modell bereits nach 24 Stunden Training und erzielte schließlich eine niedrigere Elo-Bewertung. Diese Ergebnisse legen gemeinsam nahe, dass das datenfreie, selbstlernende Modell einen Spielstil hat, der sich deutlich von dem der menschlichen Spieler unterscheidet – einen dominierenden Stil, den das überwachte Modell nicht entwickeln konnte.
Abb. 4–9Ein Vergleich der Elo-Bewertungen zwischen AlphaGo Zero und anderen AlphaGo-Varianten und Go-Programmen. In dem linken Diagramm ist der Vergleich über die Tage des AlphaGo-Zero-Trainings zu sehen.
4.5.3AlphaZero
Nachdem das Team von DeepMind die Go-Gemeinde vernichtend geschlagen hatte, wandte man sich allgemeinen spielenden neuronalen Netzen zu. AlphaGo Zero war nun ganz versiert im Go-Spiel, und man fragte sich daher, ob ein vergleichbares neuronales Netz lernen könnte, mehrere Spiele gut zu spielen. Um dies zu testen, nahm man zwei neue Spiele in das Repertoire auf: Schach und Shogi.23
Die meisten Leser sind vermutlich mit Schach vertraut. Shogi – das manchmal als »japanisches Schach« bezeichnet wird – ist so ähnlich. Beides sind Strategiespiele für zwei Personen, beide werden auf einem gitterförmigen Spielbrett gespielt, beide enden mit einem Schachmatt für den gegnerischen König und beide bestehen aus verschiedenen Spielfiguren mit unterschiedlichen Bewegungsmöglichkeiten. Shogi ist allerdings deutlich komplexer als Schach, besitzt ein größeres Spielbrett (9×9 im Gegensatz zu den 8×8 des Schach) und gegnerische Spielfiguren können nach ihrer Gefangennahme irgendwo auf dem Brett wieder eingesetzt werden.
Künstliche Intelligenz und Schach hatten in der Vergangenheit bereits mehrfach Kontakt miteinander. In den letzten Jahrzehnten wurden immer wieder schachspielende Computerprogramme entwickelt. Das berühmteste von ihnen ist Deep Blue von IBM, das 1997 den Weltmeister Garry Kasparow besiegte.24 Es verließ sich vor allem auf Brute-Force-Rechenpower,25 um komplexe Suchen durch mögliche Züge durchzuführen, kombinierte dies mit handgemachten Features und domänenspezifischen Anpassungen (es war ein überwachtes Lernsystem!) und wurde zwischen den Spielen sogar noch weiter optimiert.26
Obwohl Deep Blue vor 20 Jahren eine Errungenschaft darstellte, war das System nicht generalisierbar – es konnte keine andere Aufgabe ausführen als Schach. Nachdem AlphaGo Zero demonstriert hatte, dass das Spiel Go allein aus den Grundprinzipien von einem neuronalen Netz erlernt werden konnte, wenn es nur das Brett und die Regeln des Spiels kannte, machten sich Silver und seine Kollegen bei DeepMind daran, ein generalistisches neuronales Netz zu entwickeln, eine einzelne Netzwerkarchitektur, die nicht nur im Go, sondern auch in anderen Brettspielen brillieren könnte.
Im Vergleich zu Go bildeten Schach und Shogi deutliche Hürden. Die Regeln des Spiels sind positionsabhängig (Spielfiguren können sich unterschiedlich bewegen, je nachdem, wo sie sich auf dem Brett befinden) und asymmetrisch (manche Figuren können sich nur in eine Richtung bewegen).27 Zudem sind Aktionen möglich, die eine große Reichweite haben (die Königin kann sich über das ganze Feld bewegen), und Spiele können unentschieden enden.
AlphaZero gibt die Positionen auf dem Spielbrett in ein neuronales Netzwerk ein und erzeugt als Ausgabe einen Vektor aus Zugwahrscheinlichkeiten für jede mögliche Aktion sowie einen skalaren28 Ausgabewert für diesen Zug. Das Netzwerk lernt die Parameter für diese Zugwahrscheinlichkeiten und Ergebnisse ganz und gar durch Deep Reinforcement Learning beim Spiel gegen sich selbst, genau wie AlphaGo Zero. Anhand dieser Wahrscheinlichkeiten wird dann ein MCTS auf diesen reduzierten Raum ausgeführt, das einen verfeinerten Vektor aus Wahrscheinlichkeiten über die möglichen Züge zurückliefert. Während AlphaGo Zero die Wahrscheinlichkeit des Gewinnens optimiert (Go ist schließlich ein binäres Sieg/Niederlage-Spiel), optimiert AlphaZero stattdessen für das erwartete Ergebnis. Während des Spiels gegen sich selbst behält AlphaGo Zero den bis dahin besten Spieler und bewertet aktualisierte