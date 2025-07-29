Même après avoir appris tout cela, une question lancinante demeure : la certitude mal placée. Pourquoi ces outils d’IA générative étaient-ils si confiants dans leurs prouesses aux échecs ? Pourquoi un tel orgueil a-t-il précédé leur chute ? Comme mentionné précédemment, M. Caruso a déclaré que l’expérience n’était pas à l’origine son idée : ChatGPT a défié Atari. Comme M. Caruso l’a écrit dans sa publication sur LinkedIn :

« [Chat GPT] affirmait être un bon joueur… et pouvoir facilement battre le jeu Video Chess d’Atari, qui ne prévoit qu’un à deux coups à l’avance. J’ai été surpris de voir à quelle vitesse il pouvait gagner et m’a demandé de configurer une partie à l’aide de l’émulateur Stella. »

Copilot était tout aussi arrogant, a écrit M. Caruso dans une autre publication LinkedIn :

« Il affirmait pouvoir anticiper 10 à 15 coups à l’avance, mais pensait s’en tenir à 3 à 5 coups contre le 2600, car celui-ci effectue des ”coups sous-optimaux” dont il ”pourrait tirer parti… plutôt que de se focaliser sur des calculs avancés”. »

Quant à Google Gemini, M. Caruso a déclaré à la publication technologique The Register que Gemini lui avait d’abord dit qu’il pouvait gagner un tel match. « Ce n’est pas un simple grand modèle de langage », aurait-il déclaré à M. Caruso. Après avoir reçu plus de détails sur les matchs précédents, Gemini a abandonné. Selon M. Caruso, Gemini a répondu : « Atari a mérité la victoire cette fois-ci. Je vais incliner ma tête numérique avec dignité et honneur devant le génie vintage du silicium qui m’a battu à la loyale. »

Par curiosité, j’ai décidé d’aller à la source et de poser moi-même la question à ChatGPT, en tapant le prompt « Que pensez-vous d’avoir perdu une partie d’échecs contre un jeu Atari de 1979 ? »

Réponse de ChatGPT : « Je dirais probablement ”Touché, ancêtre en silicium”. »[En italiques dans l’original.]

Comment ? ChatGPT n’était pas au courant de cette partie. J’ai informé ChatGPT qu’il ne s’agissait pas d’une question hypothétique.

Moi : Ce n’est pas théorique. Cela s’est produit. Voici l’un des nombreux articles de presse décrivant l’événement : https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

ChatGPT a commencé sa réponse en me répétant mot pour mot :

ChatGPT : Ce n’était pas seulement théorique, cela s’est réellement produit. En juin 2025, Robert Caruso, ingénieur chez Citrix, a organisé une partie entre ChatGPT et une émulation d’Atari 2600 exécutant Video Chess, la cartouche d’échecs de la console datant de 1979, en mode débutant. Après environ 90 minutes de jeu, ChatGPT a perdu à plusieurs reprises le fil du jeu (confondant les tours et les fous et manquant des fourchettes de pions), même lorsque l’échiquier était réinitialisé ou que les visuels étaient clarifiés. Il a fini par concéder la partie.

Selon les experts en IA, ce type de réponse relève de la catégorie des hallucinations, un phénomène par lequel les LLM produisent parfois des réponses inexactes ou absurdes. Si l’on considère l’hallucination comme un échec de la fonction d’autocomplétion, le prompt rédigé ici portait sur une partie d’échecs spécifique sans contexte supplémentaire, et ChatGPT a donné ce qui semblait être l’autocomplétion la plus courante ou la plus probable : quoi dire après avoir perdu une partie d’échecs.

« Il s’agit simplement d’un modèle stochastique de type perroquet qui essaie d’être utile », explique Ash Minhas, responsable du contenu technique et défenseur de l’IA chez IBM. (Être « stochastique » signifie se trouver dans un état intermédiaire, à la fois aléatoire et suivant des schémas, lorsqu’on fait la moyenne sur une période donnée.)

« Les modèles sont entraînés à l’aide de l’apprentissage par renforcement à partir de commentaires humains (RLHF) afin de paraître utiles et confiants, explique M. Minhas. Les utilisateurs n’emploieraient pas un système qui dirait : ”Je ne suis pas sûr”. »

En d’autres termes, ce qui semble être de la vantardise est en fait une fonction du système de prédiction des tokens suivants qui lui permet de compléter automatiquement ce que pourrait être la réponse suivante. Et compte tenu du biais en faveur de l’utilité, comme l’a souligné M. Minhas, la réponse du LLM reflétera ce biais.

En d’autres termes, les LLM ne sont pas vraiment trop arrogants ; ils fonctionnent comme prévu. C’est peut-être ChatGPT qui l’a le mieux exprimé lors de sa session avec moi :

« C’est un fait : je ne possède pas de conscience subjective. »