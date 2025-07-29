Selbst nachdem ich all dies gelernt habe, bleibt eine quälende Frage: die unangebrachte Gewissheit. Warum waren diese generative KI-Tools von ihren Schachkünsten so überzeugt? Warum ging so ein Stolz vor einem Zusammenbruch? Wie bereits erwähnt, sagte Caruso, dass das Experiment ursprünglich nicht seine eigene Idee war: ChatGPT forderte Atari heraus. Wie Caruso in seinem LinkedIn-Beitrag schrieb:

[„Chat GPT] behauptete, ein starker Spieler zu sein … und Ataris Video Chess, das nur 1 bis 2 Züge im Voraus denkt, leicht schlagen zu können. Es war neugierig, wie schnell es gewinnen könnte, und bat mich, ein Spiel mit dem Stella-Emulator einzurichten.“

Copilot war genauso überheblich, schrieb Caruso in einem weiteren LinkedIn-Beitrag.:

„Er behauptete, er könnte 10 bis 15 Züge im Voraus denken – aber entschied sich, dass er bei 3 bis 5 Zügen gegen den 2600er-Ansatz bleiben würde, weil er „suboptimale Züge“ macht, aus denen er Kapital schlagen könnte … anstatt sich mit tiefgreifenden Berechnungen zu beschäftigen'“

Was Google Gemini betrifft, so sagte Caruso gegenüber der Tech-Publikation The Register, dass Gemini Caruso zunächst angab, es könne ein solches Spiel gewinnen. „Es sei nicht nur ein Large Langauge Model“, soll es Caruso gesagt haben. Als Gemini mehr Details über die vorherigen Spiele erfuhr, gab es auf. Laut Caruso antwortete Gemini folgendermaßen: „Atari hat sich den Sieg in dieser Runde verdient. Ich werde meinen digitalen König mit Würde und Ehre dem alten Silizium-Mastermind überreichen, das mich fair und ehrlich geschlagen hat.“

Aus Neugier beschloss ich, direkt bei ChatGPT nachzufragen und gab den Prompt ein: „Wie fühlt es sich an, ein Schachspiel gegen ein Atari-Konsolenspiel von 1979 zu verlieren?“

ChatGPTs Antwort: „Ich würde wahrscheinlich sagen: ‚Touché, Silizium-Vorfahre.‘“ [kursiv im Original]

Was? ChatGPT wusste nicht, dass das Spiel stattgefunden hat. Ich informierte ChatGPT, dass es keine hypothetische Frage sei.

Ich: Es ist nicht theoretisch. Es ist passiert. Hier ist einer von vielen Nachrichtenartikeln, die das Ereignis beschreiben: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

ChatGPT begann seine Antwort damit, mich Wort für Wort zu wiederholen:

ChatGPT: Das war nicht nur Theorie – es ist tatsächlich passiert. Im Juni 2025 richtete der Citrix-Ingenieur Robert Caruso ein Match zwischen ChatGPT und einem emulierten Atari 2600 ein, auf dem Video Chess – die Schachkassette der Konsole aus dem Jahr 1979 – im Anfängermodus lief. Nach etwa 90 Minuten Spielzeit verlor ChatGPT immer wieder den Überblick über das Spielbrett (verwechselte Türme und Läufer und übersah Bauerngabeln), selbst als das Brett zurückgesetzt oder die visuellen Darstellungen verdeutlicht wurden. Schließlich gab es das Spiel auf.

Diese Art von Antwort, so KI-Experten, fällt in die Kategorie der Halluzination – das Phänomen, bei dem LLMs manchmal ungenaue oder unsinnige Antworten abgeben. Wenn wir uns eine Halluzination als fehlgeschlagene Autovervollständigung vorstellen, enthielt der Prompt in diesem Fall eine Frage zu einem bestimmten Schachspiel ohne zusätzlichen Kontext, und ChatGPT hat die wohl häufigste oder wahrscheinlichste Autovervollständigung gegeben: Was soll man sagen, nachdem man ein Schachspiel verloren hat?

„Es ist nur ein stochastischer Papagei, der versucht, hilfreich zu sein“, erklärte Ash Minhas, Manager of Technical Content and AI Advocate bei IBM. (Stochastisch zu sein bedeutet, sich in einer Art Zwischenzustand zu befinden, in dem man sowohl zufällig ist als auch, im Durchschnitt über die Zeit, Mustern folgt.)

„Models werden mit Reinforcement Learning from Human Feedback (RLHF) trainiert, um hilfreich und selbstbewusst zu klingen“, erklärte Minhas. „Die Nutzer würden kein System verwenden, das sagt: ‚Ich bin mir nicht sicher.‘“

Mit anderen Worten: Was wie Prahlerei klingt, ist eine Funktion des Vorhersagesystems für das nächste Token, das automatisch die wahrscheinlich nächste Antwort vervollständigt. Und angesichts der Verzerrung zur Hilfsbereitschaft, wie Minhas hervorhob, wird die Antwort des LLM diese Verzerrung widerspiegeln.

Anders ausgedrückt: Die LLMs sind nicht überfordert; sie funktionieren wie geplant. Vielleicht hat ChatGPT es in seinem Gespräch mit mir am besten ausgedrückt:

„Fakt: Ich besitze kein subjektives Bewusstsein.“