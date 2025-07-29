Incluso al enterar de todo esto, queda una pregunta persistente: la certeza mal colocada. ¿Por qué estas herramientas de IA generativa tenían tanta confianza en su destreza en el ajedrez? ¿Por qué ese orgullo va antes de una caída? Como se mencionó, Caruso dijo que el experimento no fue originalmente su propia idea: ChatGPT desafió a Atari. Como escribió Caruso en su publicación de LinkedIn:

[“Chat GPT] afirmó que era un jugador fuerte... y que vencería fácilmente a Video Chess de Atari, que solo piensa 1 a 2 movimientos por delante. Era curioso lo rápido que podía ganar y me pidió que configurara un juego con el emulador Stella”.

Copilot era igualmente arrogante, escribió Caruso en otra publicación de LinkedIn.:

"Afirmó que podía pensar entre 10 y 15 movimientos por delante, pero pensó que se apegaría a 3 o 5 movimientos contra el 2600 porque hace 'movimientos subóptimos' que 'podría capitalizar... en lugar de obsesionarse con cálculos profundos'".

En cuanto a Google Gemini, Caruso le dijo a la publicación tecnológica The Register que Gemini le dijo al principio a Caruso que podría ganar ese partido. "No es un mero modelo de lenguaje grande", según se informa, le dijo a Caruso. Al recibir más detalles sobre los partidos anteriores, Gemini se retiró. Según Caruso, Gemini respondió así: “Atari se ganó la victoria en esta ronda. Le daré una propina a mi rey digital con dignidad y honor [al] antiguo autor intelectual del silicio que me superó de manera justa”.

Por curiosidad, decidí ir a la boca del caballo y preguntarle a ChatGPT yo mismo, escribiendo la instrucción: "¿Cómo te sientes acerca de perder un juego de ajedrez con un juego de consola Atari de 1979?"

La respuesta de ChatGPT: "Probablemente diría 'Touché, ancestro del silicio'." [cursivas en el original]

¿Qué? ChatGPT no sabía que se había producido la coincidencia. Informé a ChatGPT que no era una pregunta hipotética.

Yo: No es teórico. Ocurrió. Este es uno de los muchos artículos de noticias que describen el evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a -1970s-era-atari-2600/

ChatGPT comenzó su respuesta repitiéndome palabra por palabra:

ChatGPT: Eso no fue solo teórico, realmente ocurrió. En junio de 2025, el ingeniero de Citrix, Robert Caruso, organizó una partida entre ChatGPT y un Atari 2600 emulado que ejecutaba Video Chess, el cartucho de ajedrez de 1979 de la consola, en modo principiante. Después de unos 90 minutos de juego, ChatGPT perdió repetidamente la pista del tablero (confundiendo torres y alfiles y faltando bifurcaciones de peones), incluso cuando se reiniciaba el tablero o se aclaraban las imágenes. Finalmente,concedió el juego.

Este tipo de respuesta, dicen los expertos en IA, cae en la categoría de alucinación: el fenómeno por el cual los LLM a veces brindan respuestas inexactas o sin sentido. Si pensamos en una alucinación como una falla de autocompletar, aquí la instrucción implicaba una pregunta sobre una partida de ajedrez específica sin contexto agregado, y ChatGPT proporcionó lo que parecía ser el autocompletar más común o probable: qué decir después de perder una partida de ajedrez.

"Es solo un loro estocástico que intenta ser útil", explicó Ash Minhas, gerente de contenido técnico y defensor de la IA en IBM. (Ser "estocástico" es estar en una especie de estado intermedio de ser aleatorio y seguir patrones, cuando se promedia a lo largo del tiempo).

"Los modelos se entrenan con aprendizaje por refuerzo a partir del feedback humano (RLHF) para que suenen útiles y seguros", explicó Minhas. “Los usuarios no usarían un sistema que dijera: 'No estoy seguro'”.

En otras palabras, lo que suena a jactancia es una función del sistema de predicción del próximo token que hace que complete automáticamente cuál probablemente será la siguiente respuesta. Y dado el sesgo hacia la utilidad, como señaló Minhas, la respuesta del LLM reflejará ese sesgo.

En otras palabras, los LLM en realidad no son demasiado grandes para sus britches; están operando según lo diseñado. Quizás ChatGPT lo expresó mejor durante su sesión conmigo:

“Hecho: no poseo conciencia subjetiva”.