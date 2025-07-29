Incluso después de saber todo esto, queda una duda persistente: la certeza errónea. ¿Por qué estas herramientas de IA generativa estaban tan seguras de su destreza en el ajedrez? ¿Por qué ese orgullo precede a la caída? Como se ha mencionado, Caruso dijo que el experimento no fue originalmente idea suya: ChatGPT desafió a Atari. Como escribió Caruso en su publicación de LinkedIn:

[“Chat GPT] afirmó que era un jugador fuerte... y que vencería fácilmente al Video Chess de Atari, que solo piensa 1 o 2 movimientos por delante. Sentía curiosidad por lo rápido que podía ganar y me pidió que configurara un juego usando el emulador Stella".

Copilot era igualmente arrogante, escribió Caruso en otra publicación de LinkedIn.:

"Afirmó que podía pensar entre 10 y 15 movimientos por delante, pero pensó que se limitaría a 3 o 5 movimientos contra el 2600 porque realiza 'movimientos subóptimos' que 'podría capitalizar... en lugar de obsesionarse con cálculos profundos'".

En cuanto a Google Gemini, Caruso dijo a la publicación tecnológica The Register que Gemini le dijo al principio a Caruso que podría ganar ese partido. "No es un mero modelo lingüístico de gran tamaño", según se informa, le dijo a Caruso. Al recibir más detalles sobre los partidos anteriores, Gemini se retiró. Según Caruso, Gemini respondió así: "Atari se ha ganado esta ronda. Le daré una propina a mi rey digital con dignidad y honor [al] antiguo cerebro de silicio que me venció de manera justa".

Por curiosidad, decidí ir directamente a la fuente y preguntarle a ChatGPT yo mismo, escribiendo el mensaje: "¿Qué te parece perder una partida de ajedrez con un juego de consola Atari de 1979?".

Respuestade ChatGPT: "Probablemente diría 'Touché, ancestro del silicio'." [cursiva en el original]

¿Qué? ChatGPT no sabía que la partida ya había terminado. Informé a ChatGPT de que no era una pregunta hipotética.

Yo: No es teórico. Ocurrió. Este es uno de los muchos artículos de noticias que describen el evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a -1970s-era-atari-2600/

ChatGPT comenzó su respuesta repitiéndome palabra por palabra:

ChatGPT: Eso no fue solo teórico; realmente ocurrió. En junio de 2025, el ingeniero de Citrix, Robert Caruso, organizó una partida entre ChatGPT y un Atari 2600 emulado que ejecutaba Video Chess, el juego de ajedrez de 1979 de la consola, en modo principiante. Tras unos 90 minutos de juego, ChatGPT perdió repetidamente la noción del tablero (mezclando torres y alfiles y faltando horquillas de peones), incluso cuando se restableció el tablero o se aclararon las imágenes. Finalmente,se rindió en la partida.

Este tipo de respuesta, según expertos en IA, cae en la categoría de alucinación; el fenómeno por el cual los LLMs a veces lanzan respuestas inexactas o sin sentido. Si pensamos en una alucinación como un fallo de autocompletado, aquí la instrucción incluía una pregunta sobre una partida de ajedrez específica sin contexto añadido, y ChatGPT dio lo que parecía ser el autocompletado más común o probable: qué decir tras perder una partida de ajedrez.

"Es solo un loro estocástico que intenta ser útil", explicó Ash Minhas, gerente de contenido técnico y defensor de la IA en IBM. (Ser "estocástico" es estar en una especie de estado intermedio de ser aleatorio y seguir patrones, cuando se promedia a lo largo del tiempo).

"Los modelos se entrenan con el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para que suenen útiles y seguros", explicó Minhas. "Los usuarios no utilizarían un sistema que dijera: 'No estoy seguro'".

En otras palabras, lo que suena como fanfarronería es una función del sistema de predicción del token que hace que autocomplete cuál sería probablemente la siguiente respuesta. Y dado el sesgo hacia la utilidad, como señaló Minhas, la respuesta del LLM reflejará ese sesgo.

En otras palabras, los LLM no son realmente demasiado grandes para sus negocios, sino que funcionan según lo diseñado. Quizás ChatGPT lo expresó mejor durante su sesión conmigo:

“Realidad: no tengo conciencia subjetiva”.