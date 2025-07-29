Le mois dernier, un jeu sur console Atari 2600 8 bits sans RAM datant de 1979 a fait sensation dans les milieux de l’IA et du jeu vidéo en battant ChatGPT et Microsoft Copilot aux échecs. De nombreux sceptiques de l’IA y ont vu une histoire à la David et Goliath, et la preuve que l’IA générative n’est que du vent et n’a aucune intelligence. « L’IA battue par une Atari vieille de 50 ans », pouvait-on lire dans un titre typique sur l’expérience menée par Robert Caruso, ingénieur chez Citrix, et décrite dans plusieurs publications LinkedIn.
Selon les experts d’IBM, cette polémique est un bon rappel de ce que l’IA générative peut et ne peut pas faire, et de son fonctionnement. « Les gens utilisent ChatGPT pour faire trop de choses, a déclaré Chris Hay, ingénieur émérite chez IBM, à IBM Think. Penser que ChatGPT peut jouer aux échecs, c’est comme penser qu’il peut être votre petite amie ou votre thérapeute. »
Selon M. Hay, la défaite retentissante des LLM nous rappelle la manière dont ils fonctionnent : ils produisent des résultats basés sur des corrélations apprises entre les mots, et non sur le respect de règles ou la planification. Les LLM sont mauvais aux échecs pour la même raison qu’ils sont parfois mauvais en addition et au morpion : ils ne sont pas conçus pour ces tâches.
« En fin de compte, les échecs sont un problème de recherche », a déclaré M. Hay. À chaque coup, le joueur, qu’il soit humain ou machine, doit parcourir un arbre de décision, évaluer les résultats possibles et attribuer une valeur à différentes options. Atari Video Chess est spécialement codé pour cela. La logique des LLM, en revanche, « repose sur des systèmes de prédiction du prochain token », explique M. Hay. « Ces modèles reçoivent essentiellement l’intégralité d’Internet, puis sont entraînés à prédire le prochain mot. »
Le jeu d’échecs ne fonctionne pas sur la prédiction du prochain token. « Il y a trop de combinaisons possibles dans ce jeu », explique M. Hay.
Dans une interview accordée à IBM Think, PJ Hagerty, responsable de la promotion de l’IA chez IBM, joueur d’échecs de compétition et propriétaire d’une console Atari 2600 originale, souligne que le jeu d’échecs Atari utilise une « méthode de force brute ».
Cette méthode, employée par de nombreux anciens jeux vidéo stratégiques, consiste à examiner les nombreux coups possibles et à utiliser des calculs probabilistes pour choisir le coup optimal. « Ce code se concentrait sur un arbre logique faisant appel à des moyennes pour déterminer le meilleur coup possible », explique M. Hagerty.
Voici comment fonctionnent les arbres de décision des échecs, également appelés arbres de jeu, que le joueur soit humain ou machine.
Imaginons que deux personnes jouent aux échecs. Les blancs commencent, et le joueur décide d’avancer le pion du roi de deux cases. En notation échiquéenne, cela s’écrit E2, qui se trouve être le premier coup le plus populaire. C’est ensuite au tour des noirs. Sur la base du coup E2 des blancs, les noirs ont 20 options légales différentes pour leur coup : 16 coups de pion et 4 coups de cavalier. Chacune de ces différentes options mène à d’autres options, de sorte que la taille de l’arbre est susceptible de croître de manière exponentielle à chaque facteur de ramification.
Par exemple, lors du match historique de 1956 entre les joueurs américains Bobby Fischer et Donald Byrne, la partie a duré 41 tours complets, soit 82 demi-coups. Le nombre moyen de coups possibles aux échecs pour un état de jeu donné, selon les sources, est de 20 à 40 ; pour simplifier, disons qu’il est de 30 demi-coups. Dans ce cas, la taille approximative de l’arbre de jeu est de 3082. Nous n’écrirons pas le nombre complet, car il comporte 122 chiffres.
Pour un joueur humain moyen, il n’est pas facile de garder à l’esprit les avantages et les inconvénients d’autant de coups à la fois. Et les joueurs ne le font généralement pas. Au lieu de cela, ils éliminent instinctivement les coups manifestement mauvais en se basant sur certains principes fondamentaux, tels que « ne pas exposer la reine trop tôt dans la partie ».
Dans le jargon des réseaux de neurones, ce processus de sélection est appelé « élagage », car il consiste littéralement à couper les branches d’un arbre de jeu. Les joueurs humains peuvent élaguer. Les ordinateurs sophistiqués d’aujourd’hui peuvent également le faire. Mais un jeu d’échecs sur console vieux de 46 ans ne le peut pas. Il exécute donc toutes les options pour les 1 ou 2 prochains coups et choisit celle qui a le plus de chances statistiques de mener à la victoire. Et un outil d’IA générative ne peut utiliser ni la force brute, ni l’élagage.
Cela ne veut pas dire que les LLM ne pourront jamais devenir bons aux échecs. Il suffit simplement de leur donner les bons outils, explique M. Hay, comme un prompt système structuré et la capacité de planifier plusieurs coups à l’avance. « Si vous disiez à [ChatGPT] : ”Je vous autorise à générer du code” et que vous lui donniez accès à un bloc-notes pour planifier et suivre le déroulement de la partie, je parie qu’il pourrait probablement gagner. » Actuellement, les LLM n’ont pas la capacité intégrée de décider que leur objectif est de gagner aux échecs et de déterminer les outils dont ils ont besoin pour y parvenir. Mais cela ne durera pas. L’appel d’outils, c’est-à-dire la capacité des modèles d’IA à interagir avec des outils externes, est un domaine de recherche actif dans le monde entier, y compris dans le cadre du projet de modèle Granite d’IBM.
Même après avoir appris tout cela, une question lancinante demeure : la certitude mal placée. Pourquoi ces outils d’IA générative étaient-ils si confiants dans leurs prouesses aux échecs ? Pourquoi un tel orgueil a-t-il précédé leur chute ? Comme mentionné précédemment, M. Caruso a déclaré que l’expérience n’était pas à l’origine son idée : ChatGPT a défié Atari. Comme M. Caruso l’a écrit dans sa publication sur LinkedIn :
« [Chat GPT] affirmait être un bon joueur… et pouvoir facilement battre le jeu Video Chess d’Atari, qui ne prévoit qu’un à deux coups à l’avance. J’ai été surpris de voir à quelle vitesse il pouvait gagner et m’a demandé de configurer une partie à l’aide de l’émulateur Stella. »
Copilot était tout aussi arrogant, a écrit M. Caruso dans une autre publication LinkedIn :
« Il affirmait pouvoir anticiper 10 à 15 coups à l’avance, mais pensait s’en tenir à 3 à 5 coups contre le 2600, car celui-ci effectue des ”coups sous-optimaux” dont il ”pourrait tirer parti… plutôt que de se focaliser sur des calculs avancés”. »
Quant à Google Gemini, M. Caruso a déclaré à la publication technologique The Register que Gemini lui avait d’abord dit qu’il pouvait gagner un tel match. « Ce n’est pas un simple grand modèle de langage », aurait-il déclaré à M. Caruso. Après avoir reçu plus de détails sur les matchs précédents, Gemini a abandonné. Selon M. Caruso, Gemini a répondu : « Atari a mérité la victoire cette fois-ci. Je vais incliner ma tête numérique avec dignité et honneur devant le génie vintage du silicium qui m’a battu à la loyale. »
Par curiosité, j’ai décidé d’aller à la source et de poser moi-même la question à ChatGPT, en tapant le prompt « Que pensez-vous d’avoir perdu une partie d’échecs contre un jeu Atari de 1979 ? »
Réponse de ChatGPT : « Je dirais probablement ”Touché, ancêtre en silicium”. »[En italiques dans l’original.]
Comment ? ChatGPT n’était pas au courant de cette partie. J’ai informé ChatGPT qu’il ne s’agissait pas d’une question hypothétique.
Moi : Ce n’est pas théorique. Cela s’est produit. Voici l’un des nombreux articles de presse décrivant l’événement : https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT a commencé sa réponse en me répétant mot pour mot :
ChatGPT : Ce n’était pas seulement théorique, cela s’est réellement produit. En juin 2025, Robert Caruso, ingénieur chez Citrix, a organisé une partie entre ChatGPT et une émulation d’Atari 2600 exécutant Video Chess, la cartouche d’échecs de la console datant de 1979, en mode débutant. Après environ 90 minutes de jeu, ChatGPT a perdu à plusieurs reprises le fil du jeu (confondant les tours et les fous et manquant des fourchettes de pions), même lorsque l’échiquier était réinitialisé ou que les visuels étaient clarifiés. Il a fini par concéder la partie.
Selon les experts en IA, ce type de réponse relève de la catégorie des hallucinations, un phénomène par lequel les LLM produisent parfois des réponses inexactes ou absurdes. Si l’on considère l’hallucination comme un échec de la fonction d’autocomplétion, le prompt rédigé ici portait sur une partie d’échecs spécifique sans contexte supplémentaire, et ChatGPT a donné ce qui semblait être l’autocomplétion la plus courante ou la plus probable : quoi dire après avoir perdu une partie d’échecs.
« Il s’agit simplement d’un modèle stochastique de type perroquet qui essaie d’être utile », explique Ash Minhas, responsable du contenu technique et défenseur de l’IA chez IBM. (Être « stochastique » signifie se trouver dans un état intermédiaire, à la fois aléatoire et suivant des schémas, lorsqu’on fait la moyenne sur une période donnée.)
« Les modèles sont entraînés à l’aide de l’apprentissage par renforcement à partir de commentaires humains (RLHF) afin de paraître utiles et confiants, explique M. Minhas. Les utilisateurs n’emploieraient pas un système qui dirait : ”Je ne suis pas sûr”. »
En d’autres termes, ce qui semble être de la vantardise est en fait une fonction du système de prédiction des tokens suivants qui lui permet de compléter automatiquement ce que pourrait être la réponse suivante. Et compte tenu du biais en faveur de l’utilité, comme l’a souligné M. Minhas, la réponse du LLM reflétera ce biais.
En d’autres termes, les LLM ne sont pas vraiment trop arrogants ; ils fonctionnent comme prévu. C’est peut-être ChatGPT qui l’a le mieux exprimé lors de sa session avec moi :
« C’est un fait : je ne possède pas de conscience subjective. »
