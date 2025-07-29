Il mese scorso, ha suscitato scalpore nei circoli di AI e videogiochi la notizia che un gioco per console Atari 2600 a 8 bit e zero RAM del 1979 ha sconfitto ChatGPT e Microsoft Copilot a scacchi. Molti scettici dell'AI l'hanno vista come una storia alla Davide e Golia, e la prova che l'AI generativa (gen AI) è tutta chiacchiere e niente intelligenza. "L'AI prende lezioni da un Atari di 50 anni", si legge in un titolo sull'esperimento che l'ingegnere di Citrix, Robert Caruso, ha condotto e descritto in diversi post su LinkedIn.
Secondo gli esperti IBM, il clamore suscitato ci ricorda ciò che gen AI può e non può fare e di come funziona. "Le persone stanno usando ChatGPT per fare troppe cose," ha detto Chris Hay, Distinguished Engineer presso IBM, a IBM Think. "Pensare che ChatGPT possa giocare a scacchi è come pensare che possa essere la tua ragazza o il tuo terapeuta."
Secondo Hay, la clamorosa sconfitta degli LLM è un buon promemoria sul modo in cui questi operano: producono output basati sulle correlazioni apprese tra le parole, non sul rispetto delle regole o sulla pianificazione. Gli LLM sono pessimi a scacchi per lo stesso motivo per cui a volte sono pessimi nelle addizioni e nel gioco del tris: non sono progettati per questi compiti.
"In definitiva", ha detto Hay, "gli scacchi sono un problema di ricerca". Ad ogni mossa, il giocatore (umano o macchina) deve cercare in un albero decisionale, valutare possibili esiti e assegnare un valore a varie opzioni. Atari Video Chess è codificato appositamente per questo. La logica LLM, al contrario, è "basata sui sistemi di previsione del token successivo", ha affermato Hay. "Questi modelli ricevono essenzialmente l'intero Internet e poi vengono addestrati a prevedere la parola successiva".
Il gioco degli scacchi non funziona in base alla previsione del token successivo. "Ci sono troppe combinazioni nel gioco", ha detto Hay.
In un'intervista a IBM Think, PJ Hagerty, Lead of AI Advocacy presso IBM, giocatore di scacchi competitivo e proprietario di una console originale Atari 2600, ha sottolineato che il gioco degli scacchi Atari utilizza un "metodo basato sulla forza bruta".
Questo metodo, utilizzato da molti dei primi videogiochi basati sulla strategia, prevede di valutare diverse mosse possibili e di utilizzare calcoli basati sulla probabilità per scegliere la mossa ottimale. "Quel codice si concentrava su un albero logico che utilizzava le medie per determinare la mossa migliore possibile", ha affermato Hagerty.
Ecco come funzionano gli alberi decisionali degli scacchi, noti anche come alberi di gioco, indipendentemente dal fatto che il giocatore sia un essere umano o una macchina.
Supponiamo che due persone stiano giocando a scacchi. La mossa iniziale spetta al Bianco che decide di muovere in avanti il pedone del re di due caselle. Nella notazione scacchistica, questa è nota come E2, che è la prima mossa più comune. Poi è il turno del Nero. Sulla base di E2 del Bianco, Nero ha 20 diverse opzioni legali possibili: 16 mosse del pedone e 4 mosse del cavallo. Ognuna di queste diverse opzioni porta ad altre opzioni ancora, quindi la dimensione dell'albero probabilmente crescerà in modo esponenziale con ogni fattore di ramificazione.
Ad esempio, nella storica partita del 1956 tra i giocatori americani Bobby Fischer e Donald Byrne, la partita durò 41 turni completi, ovvero 82 mosse. Il numero medio di mosse possibili negli scacchi per qualsiasi stato di gioco, a seconda di chi chiede, è 20-40; per semplicità, diciamo che sono 30 mosse. In questo caso, la dimensione approssimativa dell'albero di gioco è di 3082. Non scriveremo il numero completo, poiché è composto da 122 cifre.
Per il giocatore umano medio, non è facile tenere a mente i pro e i contro di così tante mosse tutte insieme. E i giocatori di solito non lo fanno. Al contrario, istintivamente escludono le mosse palesemente sbagliate basandosi su alcuni principi fondamentali, come "non esporre la regina all'inizio della partita".
Nel gergo delle reti neurali, questo processo di selezione è noto come "potatura", poiché implica letteralmente il taglio dei rami di un albero di gioco. I giocatori umani possono effettuare la potatura. Lo stesso vale per le moderne e sofisticate macchine da scacchi computerizzate. Ma un gioco di scacchi per console di 46 anni fa non può farlo, quindi esamina tutte le opzioni per le prossime mosse (al massimo una o due) e sceglie quella con la maggiore probabilità statistica di portare alla vittoria. E uno strumento di gen AI di ultima generazione non può né usare la forza bruta né effettuare potature.
Questo non significa che gli LLM non potranno mai diventare bravi a scacchi. Si tratta semplicemente di fornire loro gli strumenti giusti, spiega Hay, come un sistema strutturato di prompt e la capacità di pianificare diversi passaggi in anticipo. "Se dicessi a [ChatGPT]: 'Ti do il permesso di generare codice', oltre all'accesso a un blocco note per pianificare dove tenere traccia del gioco, scommetto che probabilmente potrebbe vincere". Attualmente, gli LLM non hanno la capacità integrata di decidere che il loro obiettivo è vincere a scacchi e di quali strumenti hanno bisogno per vincere. Ma non sarà così per sempre. Il tool calling, la capacità dei modelli AI di interagire con strumenti esterni, è un'area di ricerca attiva in tutto il mondo dell'AI, incluso il progetto modello Granite di IBM.
Anche dopo aver appreso tutto questo, rimane una domanda assillante: la certezza mal riposta. Perché questi strumenti di gen AI erano così sicuri delle loro capacità scacchistiche? Perché un tale orgoglio precede la caduta? Come già detto, Caruso ha affermato che l'esperimento non è stato originariamente una sua idea: ChatGPT ha sfidato Atari. Come ha scritto Caruso nel suo post su LinkedIn:
[“Chat GPT] ha affermato di essere un giocatore forte… e che avrebbe facilmente battuto Video Chess di Atari, che pensa solo a uno o due in anticipo. Era curioso di sapere quanto velocemente potesse vincere e mi ha chiesto di organizzare una partita utilizzando l'emulatore Stella".
Copilot era altrettanto presuntuoso, ha scritto Caruso in un altro post su LinkedIn:
“Affermava di poter pensare 10-15 mosse in anticipo, ma che si sarebbe limitato a 3-5 mosse contro l'Atari 2600 perché effettua ”mosse non ottimali“ che ”potrebbe sfruttare... invece di concentrarsi su calcoli approfonditi".
Per quanto riguarda Google Gemini, Caruso ha dichiarato alla pubblicazione tecnologica The Register che Gemini all'inizio ha detto a Caruso che avrebbe potuto vincere una partita del genere. "Non è un semplice modello linguistico di grandi dimensioni", avrebbe detto a Caruso. Dopo aver ricevuto maggiori dettagli sulle partite precedenti, Gemini ha rinunciato. Secondo Caruso, Gemini ha risposto così: "Atari si è guadagnata la vittoria in questo round. Lascio il mio re digitale con dignità e onore [alla] mente vintage del silicio che mi ha battuto lealmente".
Spinto dalla curiosità, ho deciso di andare direttamente alla fonte e chiedere direttamente a ChatGPT, digitando il prompt: "Cosa provi a perdere una partita a scacchi contro un videogioco per console Atari del 1979?"
La risposta di ChatGPT: "Probabilmente direi 'Touché, antenato del silicio'". [corsivo nell'originale]
Cosa? ChatGPT non era a conoscenza della partita. Ho informato ChatGPT che non si trattava di una domanda ipotetica.
Io: Non è un ipotesi. È successo davvero. Ecco uno dei tanti articoli di giornale che descrivono l'evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT ha iniziato la sua risposta ripetendo le mie parole:
ChatGPT: Non è un'ipotesi, è successo davvero. A giugno 2025, l'ingegnere Citrix Robert Caruso ha organizzato una partita tra ChatGPT e un emulato Atari 2600 che eseguiva Video Chess, il gioco degli scacchi della console del 1979 in modalità principiante. Dopo circa 90 minuti di gioco, ChatGPT ha ripetutamente perso di vista la scacchiera (confondendo le torri e gli alfieri e mancando le forchette dei pedoni), anche quando la scacchiera è stata resettata o le immagini chiarite. Alla fine ha concesso la partita.
Questo tipo di risposta, dicono gli esperti di AI, rientra nella categoria delle allucinazioni, il fenomeno per cui gli LLM a volte forniscono risposte inaccurate o senza senso. Se pensiamo a un'allucinazione come a un fallimento del completamento automatico, qui il prompt riguardava una domanda su una partita a scacchi specifica senza alcun contesto aggiuntivo, e ChatGPT forniva quello che sembrava essere il completamento automatico più comune o probabile: cosa dire dopo aver perso una partita di scacchi.
"È solo un pappagallo stocastico che cerca di essere utile", ha spiegato Ash Minhas, Manager of Technical Content e AI Advocate presso IBM. (Essere "stocastico" significa trovarsi in una sorta di stato intermedio in cui si è casuali e allo stesso tempo si seguono degli schemi, se si calcola la media nel tempo.)
"I modelli vengono addestrati con l'apprendimento per rinforzo basato sul feedback umano (RLHF) per sembrare utili e sicuri di sé," ha spiegato Minhas. "Gli utenti non userebbero un sistema che dice: 'Non ne sono sicuro'."
In altre parole, ciò che sembra vanteria è in realtà una funzione del sistema di previsione del token successivo, che fa sì che il sistema completi automaticamente quale potrebbe essere la risposta successiva. E dato il pregiudizio verso la l'utilità, come ha sottolineato Minhas, la risposta dell'LLM rifletterà tale pregiudizio.
In altre parole, gli LLM non sono poi così presuntuosi, semplicemente funzionano come previsto. Forse ChatGPT lo ha espresso meglio durante una sessione con me:
“Fatto: non possiedo una consapevolezza soggettiva.”
