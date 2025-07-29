El mes pasado, un juego de consola Atari 2600 de 8 bits y sin RAM de 1979 causó un gran revuelo en los círculos de IA y juegos cuando derrotó a ChatGPT. y Microsoft Copilot al ajedrez. Muchos escépticos de la IA lo vieron como una historia de David y Goliat; y una prueba de que la IA generativa es puro discurso y nada de inteligencia. "Una Atari de 50 años supera a la IA", decía untítular típico sobre el experimento, que el ingeniero de Citrix Robert Caruso realizó y describió en varias publicaciones de LinkedIn.
Según expertos de IBM, el alboroto es un buen recordatorio de lo que la IA de generación puede y no puede hacer, y cómo funciona. "La gente usa ChatGPT para hacer demasiadas cosas", dijo Chris Hay, ingeniero distinguido de IBM a IBM Think. "Pensar que ChatGPT puede jugar al ajedrez es como pensar que puede ser tu novia o tu terapeuta".
Según Hay, la rotunda pérdida de los LLM es un buen recordatorio de la forma en que operan los LLM: producen resultados basados en correlaciones aprendidas entre palabras, no en el seguimiento de reglas o la planificación. A los LLM se les da mal el ajedrez por la misma razón que a veces se les da mal la suma y el tres en raya: no están diseñados para esas tareas.
“En última instancia”, dijo Hay, “el ajedrez es un problema de búsqueda”. Con cada movimiento, el jugador, ya sea humano o máquina, debe buscar en un árbol de decisión, evaluar posibles resultados y asignar rango de valor a varias opciones. Atari Video Chess está codificado específicamente para eso. La lógica LLM, por el contrario, “se basa en sistemas de predicción del próximo token”, dijo Hay. "Estos modelos reciben esencialmente todo Internet y luego se entrenan para predecir la siguiente palabra".
El juego de ajedrez no se basa en la predicción del próximo token. "Hay demasiadas combinaciones del juego", dijo Hay.
En una entrevista con IBM Think, PJ Hagerty, líder de defensa de la IA en IBM, un jugador de ajedrez competitivo y propietario de una consola Atari 2600 original, destacó que el juego de ajedrez Atari utiliza un "método de fuerza bruta".
Ese método, utilizado por muchos de los primeros videojuegos basados en la estrategia, implica examinar muchos movimientos posibles diferentes y utilizar cálculos basados en probabilidades para elegir el movimiento óptimo. "Ese código se centraba en un árbol lógico que utilizaba promedios para determinar el mejor mover posible", dijo Hagerty.
Así es cómo funcionan los árboles de decisión de ajedrez, también conocidos como árboles de juego, independientemente de si el jugador es humano o una máquina.
Supongamos que dos personas juegan al ajedrez. Las blancas tienen el movimiento de apertura, el jugador decide mover el peón del rey dos casillas hacia adelante. En la notación de ajedrez, esto se conoce como E2, que resulta ser el primer movimiento más popular. Entonces es el turno de las negras. Basándose en el E2 de las blancas, las negras tienen 20 opciones legales diferentes para moverse: 16 movimientos de peón y 4 movimientos de caballo. Cada una de esas opciones diferentes conduce a otras opciones, por lo que el tamaño del árbol probablemente crecerá exponencialmente con cada factor de ramificación.
Por ejemplo, en la histórica partida de 1956 entre los jugadores estadounidenses Bobby Fischer y Donald Byrne, el encuentro duró 41 turnos completos, o 82 movimientos individuales. El número promedio de movimientos de ajedrez posibles para cualquier estado de juego, dependiendo de a quién se le pregunte, es de 20 a 40; en aras de la simplicidad, digamos que son 30 jugadas. En ese caso, el tamaño aproximado del árbol de juego es 3082. No escribiremos el número completo, ya que tiene 122 dígitos.
Para el jugador humano medio, no es fácil tener en la cabeza los pros y los contras de tantos movimientos a la vez. Y los jugadores no suelen hacerlo. En su lugar, descartan instintivamente los movimientos descaradamente malos basándose en ciertos principios básicos, como "no exponer a la dama al principio de la partida".
En la jerga de las redes neuronales, este proceso de reducción se conoce como "poda", ya que implica literalmente cortar las ramas de un árbol de caza. Los jugadores humanos pueden podar. También pueden hacerlo las modernas y sofisticadas máquinas de ajedrez por ordenador. Pero un juego de ajedrez de consola de 46 años no puede, por lo que ejecuta todas las opciones para los siguientes 1-2 movimientos y elige la que tiene la mayor probabilidad estadística de llevar a la victoria. Y una herramienta de IA generativa no puede hacer ni fuerza bruta ni podar.
Esto no quiere decir que los LLM nunca puedan ser buenos en el ajedrez. Es una simple cuestión de darles las herramientas adecuadas, dijo Hay, como un sistema estructurado y la capacidad de planificar varios pasos por delante. "Si le dijera a [ChatGPT]: 'Te doy permiso para generar código', así como acceso a un bloc de notas para planificar dónde podría realizar un seguimiento del juego, apuesto a que probablemente podría ganar". Actualmente, los LLM no tienen la agencia incorporada para decidir su objetivo es ganar al ajedrez y qué herramientas necesita para ganar. Pero eso no será así para siempre. La llamada de herramientas; la capacidad de los modelos de IA para interactuar con herramientas externas; es un área activa de investigación en todo el mundo de la IA, incluido el proyecto Granite de IBM.
Incluso después de saber todo esto, queda una duda persistente: la certeza errónea. ¿Por qué estas herramientas de IA generativa estaban tan seguras de su destreza en el ajedrez? ¿Por qué ese orgullo precede a la caída? Como se ha mencionado, Caruso dijo que el experimento no fue originalmente idea suya: ChatGPT desafió a Atari. Como escribió Caruso en su publicación de LinkedIn:
[“Chat GPT] afirmó que era un jugador fuerte... y que vencería fácilmente al Video Chess de Atari, que solo piensa 1 o 2 movimientos por delante. Sentía curiosidad por lo rápido que podía ganar y me pidió que configurara un juego usando el emulador Stella".
Copilot era igualmente arrogante, escribió Caruso en otra publicación de LinkedIn.:
"Afirmó que podía pensar entre 10 y 15 movimientos por delante, pero pensó que se limitaría a 3 o 5 movimientos contra el 2600 porque realiza 'movimientos subóptimos' que 'podría capitalizar... en lugar de obsesionarse con cálculos profundos'".
En cuanto a Google Gemini, Caruso dijo a la publicación tecnológica The Register que Gemini le dijo al principio a Caruso que podría ganar ese partido. "No es un mero modelo lingüístico de gran tamaño", según se informa, le dijo a Caruso. Al recibir más detalles sobre los partidos anteriores, Gemini se retiró. Según Caruso, Gemini respondió así: "Atari se ha ganado esta ronda. Le daré una propina a mi rey digital con dignidad y honor [al] antiguo cerebro de silicio que me venció de manera justa".
Por curiosidad, decidí ir directamente a la fuente y preguntarle a ChatGPT yo mismo, escribiendo el mensaje: "¿Qué te parece perder una partida de ajedrez con un juego de consola Atari de 1979?".
Respuestade ChatGPT: "Probablemente diría 'Touché, ancestro del silicio'." [cursiva en el original]
¿Qué? ChatGPT no sabía que la partida ya había terminado. Informé a ChatGPT de que no era una pregunta hipotética.
Yo: No es teórico. Ocurrió. Este es uno de los muchos artículos de noticias que describen el evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a -1970s-era-atari-2600/
ChatGPT comenzó su respuesta repitiéndome palabra por palabra:
ChatGPT: Eso no fue solo teórico; realmente ocurrió. En junio de 2025, el ingeniero de Citrix, Robert Caruso, organizó una partida entre ChatGPT y un Atari 2600 emulado que ejecutaba Video Chess, el juego de ajedrez de 1979 de la consola, en modo principiante. Tras unos 90 minutos de juego, ChatGPT perdió repetidamente la noción del tablero (mezclando torres y alfiles y faltando horquillas de peones), incluso cuando se restableció el tablero o se aclararon las imágenes. Finalmente,se rindió en la partida.
Este tipo de respuesta, según expertos en IA, cae en la categoría de alucinación; el fenómeno por el cual los LLMs a veces lanzan respuestas inexactas o sin sentido. Si pensamos en una alucinación como un fallo de autocompletado, aquí la instrucción incluía una pregunta sobre una partida de ajedrez específica sin contexto añadido, y ChatGPT dio lo que parecía ser el autocompletado más común o probable: qué decir tras perder una partida de ajedrez.
"Es solo un loro estocástico que intenta ser útil", explicó Ash Minhas, gerente de contenido técnico y defensor de la IA en IBM. (Ser "estocástico" es estar en una especie de estado intermedio de ser aleatorio y seguir patrones, cuando se promedia a lo largo del tiempo).
"Los modelos se entrenan con el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para que suenen útiles y seguros", explicó Minhas. "Los usuarios no utilizarían un sistema que dijera: 'No estoy seguro'".
En otras palabras, lo que suena como fanfarronería es una función del sistema de predicción del token que hace que autocomplete cuál sería probablemente la siguiente respuesta. Y dado el sesgo hacia la utilidad, como señaló Minhas, la respuesta del LLM reflejará ese sesgo.
En otras palabras, los LLM no son realmente demasiado grandes para sus negocios, sino que funcionan según lo diseñado. Quizás ChatGPT lo expresó mejor durante su sesión conmigo:
“Realidad: no tengo conciencia subjetiva”.
