Der Artikel «Chess, a Drosophila of reasoning» von Garry Kasparov fasziniert. Er beschreibt darin AlphaZero’s Taktik beim Schachspiel, die nicht mehr der gewohnten „dummen Maschinenlogik“ folgt. Oder so wie Lee Sedols Kommentar zu Zug 37 im zweiten Spiel gegen AlphaGo: „…I thought surely AlphaGo is creative“.
So war bis jetzt
Bleiben wir beim Schach. Wie das Spiel von einem Rechner gespielt werden soll hat Claude Shannon bereits 1950 beschrieben. Die zwei zentralen Elemente sind auch heute noch dieselben geblieben. Einerseits muss das Programm die zulässigen Spielzüge kennen und anderseits muss es die Spielstellung bewerten. Letzteres um im Rahmen der Suche nach dem nächsten Zug zu beurteilen, welcher gewählt werden soll. So haben Schachprogramme bislang auch funktioniert.
Um die Komplexität der Rechenaufgabe zu beherrschen wurden zudem zahlreiche Optimierungen gedacht. Eine davon ist die Nutzung von Bibliotheken gespielter Spiele deren Ausgang bekannt ist. Ergebnis dieses Ansatzes beschreibt Kasparov mit dem Worten: „Much as airplanes don’t flap their wings like birds, machines don’t generate chess moves like humans do.“
Von sich selbst lernen
Der Algorithmus AlphaGo lernte im ersten Durchgang genau so, mechanistisch und auf historischem Wissen basierend. Später verfeinerte man seine Fähigkeiten zusätzlich, indem man diesen anonym online gegen Menschen spielen liess. Wenig effizient. Also lernte sein Nachfolger AlphaZero, indem das Programm nur gegen sich selbst spielte. Es brachte sich nach Aussage von Demis Hassabis, CEO von Deep Mind, unter Nutzung massiver Rechenleistung „in a few hours“ selbst Schach bei. Zwei Aspekte fallen beim Ergebnis des Lernprozesses auf: Risikobereitschaft und der Spielstils des Programms.
Taktik der Stellungsbewertung
Bis anhin hatte sich Schachprogramme bei der Stellungsbewertung an Shannons Minimax-Algorithmus orientiert und, so wie in der Schachwelt üblich, an Materialverlust als Wertfunktion. Die Spielfiguren (und deren Beweglichkeit und Stellung) haben einen Wert, der addiert werden kann: 9 für die Dame, 6 für den Turm etc.
AlphaZero arbeitet mit einer Monte-Carlo-Simulation und wählte den Weg einer holistischen Bewertung des ganzen Brettes im Bezug auf den erlernten Spielverlauf. Es probiert aus und entwickelt damit einen Spielstil, bei dem die Maschine nicht auf den Gegner reagiert, das Spiel aber aktiv gestaltet und vorantreibt. Einzelne Züge wirken, wegen der Gewohnheit des Menschen den Materialwert zu gewichten, ungeschickt. Und erst viele Züge später versteht dieser dessen taktische Bedeutung. Weg von deterministischem Rechnen (‚geradeaus Denken‘) und hin zu Intuition. Dieses Verhalten zeigt sich auch darin, dass AlphaZero weniger Spielpositionen bewertet als Schachprogramme wie Stockfish. Oder wie Kasparov sagt: „AlphaZero works smarter not harder“.
Die Rückkehr von Blitzschach
Und auch beim Training (gegen sich selbst) fällt auf, dass AlphaZero kurze Denkzeiten bevorzugt (typische Bedenkzeit von 40ms). Dies zeigt eine erstaunliche Parallele zur Entwicklung des Schachspiels. Schach auf Wettkampfniveau wurde «verkopft» und ist mit viel aufwändiger Analyse versehen. Früher hingegen trainierten Grossmeister mittels Blitzschachpartien. Je mehr Fehler sie sahen, desto mehr meinten sie lernen zu können. Das hat offensichtlich auch AlphaZero rausgefunden, sein Training dahingehen optimiert und somit einen wilderen, kreativeren und einzigartigeren Stil als seine Vorgänger entwickelt. Der Lernprozess von AlphaZero für Schach dauerte rund 9 Stunden und dabei spielte das Programm rund 100 Partien pro Sekunde gegen sich selbst. AlphaZero spielt also risikoreicher und unberechenbarer als AlphaGo. Das lässt mich an den amtierenden Schachweltmeister Magnus Carlsen denken, der bei zeitbeschränkten Spielen der stärkere Gegner ist. Beide lieben Züge, die noch nie gespielt wurden.
Maschinen beginnen zu denken
Weiter geht die Geschichte dazu im Buch „Game Changer: AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI“.
Das Beispiel AlphaZero und Schach zeigt eindrücklich, wie die Wahl des algorithmischen Lösungsansatzes den Stil der Lösung beeinflusst. Zumindest bei Schach ist die Zeit gekommen, als Maschinen resp. deren Entwickler einen eigenen Stil entwickeln und nicht mehr ausschliesslich auf Rechenleistung und Pragmatismus setzen. Faszinierend.
Maschinen beginnen zu denken (oder die Rolle der Intuition beim maschinellen Lernen)
M
Super interesting 🙂
[…] https://stuker.com/2019/02/maschinen-beginnen-zu-denken-oder-die-rolle-der-intuition-beim-masch… […]