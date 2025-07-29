Letzten Monat sorgte ein 8-Bit-Atari 2600-Konsolenspiel mit null RAM aus dem Jahr 1979 für Aufsehen in KI- und Gaming-Kreisen, als es ChatGPT und Microsoft Copilot im Schach besiegte. Viele KI-Skeptiker sahen darin eine Geschichte von David gegen Goliath – und einen Beweis dafür, dass generative KI (generative KI) nur heiße Luft und keine Intelligenz sei. „KI von dem 50 Jahre alten Atari in die Schranken gewiesen“, lautete eine typische Schlagzeile über das Experiment, das der Citrix-Ingenieur Robert Caruso durchgeführt und in mehreren LinkedIn-Beiträgen beschrieben hat.
Nach Ansicht von IBM Experten ist der Aufruhr eine gute Erinnerung daran, was KI kann und was nicht und wie sie funktioniert. „Die Leute nutzen ChatGPT für zu viele Dinge“, so IBM Distinguished Engineer Chris Hay gegenüber IBM Think. „Zu glauben, ChatGPT könne Schach spielen, ist so, als würde man denken, es könne die eigene Freundin oder der persönliche Therapeut sein.“
Laut Hay ist die vernichtende Niederlage der LLMs eine gute Erinnerung daran, wie LLMs funktionieren: Sie erzeugen Ausgaben auf der Grundlage erlernter Korrelationen zwischen Wörtern, nicht auf der Grundlage von Regelbefolgung oder Planung. LLMs sind aus dem gleichen Grund schlecht im Schach, aus dem sie manchmal schlecht in Addition und Tic-Tac-Toe sind: Sie sind nicht für diese Aufgaben konzipiert.
„Letztendlich“, sagte Hay, „ist Schach ein Suchproblem.“ Bei jedem Zug muss der Spieler – ob Mensch oder Maschine – einen Entscheidungsbaum durchsuchen, mögliche Ergebnisse bewerten und verschiedenen Optionen den Wertrang zuweisen. Atari Video Chess ist speziell dafür programmiert. Die Logik von LLM hingegen basiere „auf Systemen zur Vorhersage des nächsten Tokens“, sagte Hay. „Diesen Modellen wird im Prinzip das gesamte Internet zur Verfügung gestellt, und dann werden sie darauf trainiert, das nächste Wort vorherzusagen.“
Beim Schachspiel geht es nicht um die Vorhersage des nächsten Tokens. „Es gibt zu viele Spielkombinationen“, so Hay.
In einem Interview mit IBM Denken betonte PJ Hagerty, Lead of AI Advocacy bei IBM und wettkampforientierter Schachspieler sowie Besitzer einer originalen Atari 2600-Konsole, dass das Atari-Schachspiel eine „Brute-Force-Methode“ verwendet.
Diese Methode, die in vielen frühen strategiebasierten Videospielen Anwendung fand, besteht darin, viele verschiedene mögliche Züge durchzugehen und mithilfe von Wahrscheinlichkeitsberechnungen den optimalen Zug auszuwählen. „Dieser Code konzentrierte sich auf einen Entscheidungsbaum, der mithilfe von Durchschnittswerten den bestmöglichen Zug zu verschieben ermittelte“, erklärt Hagerty.
So funktionieren Schach-Entscheidungsbäume, auch Spielbäume genannt, unabhängig davon, ob der Spieler ein Mensch oder eine Maschine ist.
Nehmen wir an, zwei Leute spielen Schach. Weiß hat den ersten Zug, von dem der Spieler entscheidet, dass er den Königsbauern zwei Felder nach vorne verschiebt. In der Schachnotation wird dies als E2 bezeichnet, was zufälligerweise der beliebteste erste Zug ist. Dann ist Schwarz an der Reihe. Basierend auf dem E2 von Weiß hat Schwarz 20 verschiedene legale Optionen für seinen Zug: 16 Bauernzüge und 4 Springerzüge. Jede dieser verschiedenen Optionen führt zu noch weiteren Optionen, sodass die Baumgröße wahrscheinlich mit jedem Verzweigungsfaktor exponentiell wachsen wird.
Zum Beispiel dauerte das historische Spiel von 1956 zwischen den amerikanischen Spielern Bobby Fischer und Donald Byrne 41 volle Runden, also 82 Plies. Die durchschnittliche Anzahl möglicher Schachzüge für einen gegebenen Spielstand liegt, je nachdem, wen man fragt, zwischen 20 und 40; der Einfachheit halber sagen wir 30 Plies. In diesem Fall beträgt die ungefähre Spielbaumgröße 3082. Wir werden die vollständige Zahl nicht ausschreiben, da sie 122 Stellen lang ist.
Für einen durchschnittlichen menschlichen Spieler ist es nicht einfach, die Vor- und Nachteile so vieler Züge auf einmal im Kopf zu behalten. Und die Spieler tun das in der Regel auch nicht. Stattdessen schließen sie instinktiv offensichtlich schlechte Züge auf der Grundlage bestimmter Grundprinzipien aus, wie zum Beispiel „die Dame nicht zu früh im Spiel ungeschützt dastehen lassen“.
In der Terminologie neuronaler Netze wird dieser Ausleseprozess als „Pruning“ bezeichnet, da es sich dabei um das Abschneiden von Ästen eines Spielbaums handelt. Menschliche Spieler können die Anzahl reduzieren. Das können auch moderne, hochentwickelte Schachcomputer. Ein 46 Jahre altes Schachspiel für Konsolen kann das aber nicht – deshalb spielt es alle Optionen für die nächsten 1 bis2 Züge durch und wählt diejenige aus, die statistisch gesehen die höchste Chance auf den Sieg bietet. Und ein GenAI-Tool kann weder rohe Gewalt noch Beschnitt leisten.
Das soll nicht heißen, dass LLMs niemals gut im Schach werden werden: Es geht einfach darum, ihnen die richtigen Werkzeuge zu geben, sagte Hay – wie eine strukturierte Systemaufforderung und die Möglichkeit, mehrere Schritte im Voraus zu planen. „Wenn man [ChatGPT] sagen würde: ‚Ich erlaube dir, Code zu generieren‘, und gleichzeitig Zugriff auf einen Notizblock zur Planung gewähren würde, in dem es den Spielverlauf verfolgen könnte, würde es wahrscheinlich gewinnen.“ Derzeit haben LLMs nicht die Möglichkeit, selbst zu entscheiden, ob sie beim Schach gewinnen wollen und welche Werkzeuge sie dafür benötigen. Das wird aber nicht ewig so bleiben. Tool Calling – die Fähigkeit von KI-Modellen, mit externen Tools zu interagieren – ist ein aktives Forschungsgebiet in der gesamten KI-Welt, unter anderem im Granite-Modellprojekt von IBM.
Branchen-Newsletter
Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Selbst nachdem ich all dies gelernt habe, bleibt eine quälende Frage: die unangebrachte Gewissheit. Warum waren diese generative KI-Tools von ihren Schachkünsten so überzeugt? Warum ging so ein Stolz vor einem Zusammenbruch? Wie bereits erwähnt, sagte Caruso, dass das Experiment ursprünglich nicht seine eigene Idee war: ChatGPT forderte Atari heraus. Wie Caruso in seinem LinkedIn-Beitrag schrieb:
[„Chat GPT] behauptete, ein starker Spieler zu sein … und Ataris Video Chess, das nur 1 bis 2 Züge im Voraus denkt, leicht schlagen zu können. Es war neugierig, wie schnell es gewinnen könnte, und bat mich, ein Spiel mit dem Stella-Emulator einzurichten.“
Copilot war genauso überheblich, schrieb Caruso in einem weiteren LinkedIn-Beitrag.:
„Er behauptete, er könnte 10 bis 15 Züge im Voraus denken – aber entschied sich, dass er bei 3 bis 5 Zügen gegen den 2600er-Ansatz bleiben würde, weil er „suboptimale Züge“ macht, aus denen er Kapital schlagen könnte … anstatt sich mit tiefgreifenden Berechnungen zu beschäftigen'“
Was Google Gemini betrifft, so sagte Caruso gegenüber der Tech-Publikation The Register, dass Gemini Caruso zunächst angab, es könne ein solches Spiel gewinnen. „Es sei nicht nur ein Large Langauge Model“, soll es Caruso gesagt haben. Als Gemini mehr Details über die vorherigen Spiele erfuhr, gab es auf. Laut Caruso antwortete Gemini folgendermaßen: „Atari hat sich den Sieg in dieser Runde verdient. Ich werde meinen digitalen König mit Würde und Ehre dem alten Silizium-Mastermind überreichen, das mich fair und ehrlich geschlagen hat.“
Aus Neugier beschloss ich, direkt bei ChatGPT nachzufragen und gab den Prompt ein: „Wie fühlt es sich an, ein Schachspiel gegen ein Atari-Konsolenspiel von 1979 zu verlieren?“
ChatGPTs Antwort: „Ich würde wahrscheinlich sagen: ‚Touché, Silizium-Vorfahre.‘“ [kursiv im Original]
Was? ChatGPT wusste nicht, dass das Spiel stattgefunden hat. Ich informierte ChatGPT, dass es keine hypothetische Frage sei.
Ich: Es ist nicht theoretisch. Es ist passiert. Hier ist einer von vielen Nachrichtenartikeln, die das Ereignis beschreiben: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT begann seine Antwort damit, mich Wort für Wort zu wiederholen:
ChatGPT: Das war nicht nur Theorie – es ist tatsächlich passiert. Im Juni 2025 richtete der Citrix-Ingenieur Robert Caruso ein Match zwischen ChatGPT und einem emulierten Atari 2600 ein, auf dem Video Chess – die Schachkassette der Konsole aus dem Jahr 1979 – im Anfängermodus lief. Nach etwa 90 Minuten Spielzeit verlor ChatGPT immer wieder den Überblick über das Spielbrett (verwechselte Türme und Läufer und übersah Bauerngabeln), selbst als das Brett zurückgesetzt oder die visuellen Darstellungen verdeutlicht wurden. Schließlich gab es das Spiel auf.
Diese Art von Antwort, so KI-Experten, fällt in die Kategorie der Halluzination – das Phänomen, bei dem LLMs manchmal ungenaue oder unsinnige Antworten abgeben. Wenn wir uns eine Halluzination als fehlgeschlagene Autovervollständigung vorstellen, enthielt der Prompt in diesem Fall eine Frage zu einem bestimmten Schachspiel ohne zusätzlichen Kontext, und ChatGPT hat die wohl häufigste oder wahrscheinlichste Autovervollständigung gegeben: Was soll man sagen, nachdem man ein Schachspiel verloren hat?
„Es ist nur ein stochastischer Papagei, der versucht, hilfreich zu sein“, erklärte Ash Minhas, Manager of Technical Content and AI Advocate bei IBM. (Stochastisch zu sein bedeutet, sich in einer Art Zwischenzustand zu befinden, in dem man sowohl zufällig ist als auch, im Durchschnitt über die Zeit, Mustern folgt.)
„Models werden mit Reinforcement Learning from Human Feedback (RLHF) trainiert, um hilfreich und selbstbewusst zu klingen“, erklärte Minhas. „Die Nutzer würden kein System verwenden, das sagt: ‚Ich bin mir nicht sicher.‘“
Mit anderen Worten: Was wie Prahlerei klingt, ist eine Funktion des Vorhersagesystems für das nächste Token, das automatisch die wahrscheinlich nächste Antwort vervollständigt. Und angesichts der Verzerrung zur Hilfsbereitschaft, wie Minhas hervorhob, wird die Antwort des LLM diese Verzerrung widerspiegeln.
Anders ausgedrückt: Die LLMs sind nicht überfordert; sie funktionieren wie geplant. Vielleicht hat ChatGPT es in seinem Gespräch mit mir am besten ausgedrückt:
„Fakt: Ich besitze kein subjektives Bewusstsein.“
Entdecken Sie IBM Granite, unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Lesen Sie Artikel, Blogs und Tutorials von IBM Developer, um Ihr Wissen über LLMs zu vertiefen.
Erfahren Sie, wie Sie Teams durch den Einsatz neuester KI- Technologien und -Infrastrukturen zur kontinuierlichen Verbesserung der Modell-Leistung und Steigerung des Wettbewerbsvorsprungs motivieren können.
Erkunden Sie den Wert von Foundation Models der Unternehmensklasse, die Vertrauen, Leistung und kosteneffiziente Vorteile in allen Branchen bieten.
Erfahren Sie, wie Sie generative KI, maschinelles Lernen und Foundation Models zur Verbesserung der Leistung in Ihre Geschäftsabläufe integrieren können.
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.