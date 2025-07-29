El mes pasado, un juego de consola Atari 2600 de 8 bits y sin RAM de 1979 causó un gran revuelo en los círculos de IA y juegos cuando derrotó a ChatGPT. y Microsoft Copilot en ajedrez. Muchos escépticos de la IA lo vieron como una historia de David y Goliat—y una prueba de que la IA generativa (IA generativa) es todo palabrería y ninguna inteligencia. “IA educada por Atari de 50 años”, decía un titular típico sobre el experimento, que el ingeniero de Citrix, Robert Caruso, realizó y describió en varias publicaciones de LinkedIn.
Según expertos de IBM, el alboroto es un buen recordatorio de lo que la IA generativa puede y no puede hacer, y cómo funciona. “La gente está usando ChatGPT para hacer demasiadas cosas”, dijo Chris Hay, ingeniero distinguido de IBM, a IBM Think. Pensar que ChatGPT puede jugar al ajedrez es como pensar que puede ser tu novia o tu terapeuta.
Según Hay, la pérdida rotunda de los LLM es un buen recordatorio de la forma en que operan los LLM: producen resultados basados en correlaciones aprendidas entre palabras, no en el seguimiento de reglas o la planificación. Los LLM son malos en el ajedrez por la misma razón que a veces son malos en la adición y el tic-tac-toe: no están diseñados para esas tareas.
“En última instancia”, dijo Hay, “el ajedrez es un problema de búsqueda”. Con cada mover, el jugador, ya sea humano o máquina, debe buscar en un árbol de decisión, evaluar los posibles resultados y asignar un rango de valor a varias opciones. Atari Video Chess está codificado específicamente para eso. La lógica LLM, por el contrario, está "basada en los sistemas de predicción de token", dijo Hay. "Estos modelos reciben esencialmente todo Internet y luego están entrenados para predecir la siguiente palabra".
El juego de ajedrez no opera en la siguiente predicción de token. "Hay demasiadas combinaciones del juego", dijo Hay.
En una entrevista con IBM Think, PJ Hagerty, líder de defensa de la IA en IBM, un jugador de ajedrez competitivo y propietario de una consola Atari 2600 original, enfatizó que el juego de ajedrez Atari utiliza un "método de fuerza bruta".
Ese método, utilizado por muchos de los primeros videojuegos basados en estrategias, implica examinar muchos movimientos diferentes posibles y usar cálculos basados en probabilidades para elegir el movimiento óptimo. “Ese código se centró en un árbol lógico que utilizaba promedios para determinar el mejor mover posible”, dijo Hagerty.
Así es como funcionan los árboles de decisión de ajedrez, también conocidos como árboles de juego, ya sea que el jugador sea humano o máquina.
Supongamos que dos personas están jugando al ajedrez. Las blancas tienen el movimiento de apertura, que el jugador decide mover el peón del rey dos casillas hacia adelante. En la notación de ajedrez, esto se conoce como E2, que resulta ser el primer movimiento más popular. Luego es el turno de las negras. Según el E2 de las blancas, las negras tienen 20 opciones legales diferentes para mover: 16 movimientos de peón y 4 movimientos de caballo. Cada una de esas opciones diferentes conduce a más opciones aún, por lo que el tamaño del árbol probablemente crecerá exponencialmente con cada factor de ramificación.
Por ejemplo, en el histórico partido de 1956 entre los jugadores estadounidenses Bobby Fischer y Donald Byrne, el encuentro duró 41 vueltas completas, u 82 líneas. El número promedio de movimientos de ajedrez posibles para cualquier estado de juego, dependiendo de a quién se le pregunte, es de 20 a 40; en aras de la simplicidad, digamos que son 30 jugadas. En ese caso, el tamaño aproximado del árbol de juego es 3082. No escribiremos el número completo, ya que tiene 122 dígitos.
Para el jugador humano promedio, no es fácil tener en la cabeza los pros y los contras de tantos movimientos al mismo tiempo. Y los jugadores normalmente no lo hacen. En cambio, instintivamente descartan moveres descaradamente malos basados en ciertos principios básicos, como "no exponer a la dama al principio del juego".
En la arga de la red neuronal, este proceso de reducción de ganancias se conoce como “poda”, ya que literalmente implica cortar ramas de un árbol de juego. Los jugadores humanos pueden podarlo. Lo mismo ocurre con las sofisticadas máquinas de ajedrez informáticas actuales. Pero un juego de ajedrez de consola de 46 años no puede, por lo que ejecuta todas las opciones para los próximos 1 o 2 mover y elige la que tiene la mayor probabilidad estadística de llevar a la victoria. Y una herramienta de IA generativa no puede hacer ni fuerza bruta ni podar.
Esto no quiere decir que los LLM nunca podrán ser buenos en el ajedrez. Es una simple cuestión de darles las herramientas adecuadas, dijo Hay, como una instrucción de sistema estructurado y la capacidad de planificar varios pasos por delante. "Si le dijera a [ChatGPT]: 'Le doy permiso para generar código', así como acceso a un bloc de notas para planificar dónde podría realizar un seguimiento del juego, apuesto a que probablemente podría ganar". Actualmente, los LLM no tienen la agencia incorporada para decidir que su objetivo es ganar al ajedrez y qué herramientas necesita para ganar. Pero eso no será así para siempre. La llamada de herramientas, es decir, la capacidad de los modelos de IA para interactuar con herramientas externas, es un área de investigación activa en todo el mundo de la IA, incluido el proyecto del modelo Granite de IBM.
Incluso al enterar de todo esto, queda una pregunta persistente: la certeza mal colocada. ¿Por qué estas herramientas de IA generativa tenían tanta confianza en su destreza en el ajedrez? ¿Por qué ese orgullo va antes de una caída? Como se mencionó, Caruso dijo que el experimento no fue originalmente su propia idea: ChatGPT desafió a Atari. Como escribió Caruso en su publicación de LinkedIn:
[“Chat GPT] afirmó que era un jugador fuerte... y que vencería fácilmente a Video Chess de Atari, que solo piensa 1 a 2 movimientos por delante. Era curioso lo rápido que podía ganar y me pidió que configurara un juego con el emulador Stella”.
Copilot era igualmente arrogante, escribió Caruso en otra publicación de LinkedIn.:
"Afirmó que podía pensar entre 10 y 15 movimientos por delante, pero pensó que se apegaría a 3 o 5 movimientos contra el 2600 porque hace 'movimientos subóptimos' que 'podría capitalizar... en lugar de obsesionarse con cálculos profundos'".
En cuanto a Google Gemini, Caruso le dijo a la publicación tecnológica The Register que Gemini le dijo al principio a Caruso que podría ganar ese partido. "No es un mero modelo de lenguaje grande", según se informa, le dijo a Caruso. Al recibir más detalles sobre los partidos anteriores, Gemini se retiró. Según Caruso, Gemini respondió así: “Atari se ganó la victoria en esta ronda. Le daré una propina a mi rey digital con dignidad y honor [al] antiguo autor intelectual del silicio que me superó de manera justa”.
Por curiosidad, decidí ir a la boca del caballo y preguntarle a ChatGPT yo mismo, escribiendo la instrucción: "¿Cómo te sientes acerca de perder un juego de ajedrez con un juego de consola Atari de 1979?"
La respuesta de ChatGPT: "Probablemente diría 'Touché, ancestro del silicio'." [cursivas en el original]
¿Qué? ChatGPT no sabía que se había producido la coincidencia. Informé a ChatGPT que no era una pregunta hipotética.
Yo: No es teórico. Ocurrió. Este es uno de los muchos artículos de noticias que describen el evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a -1970s-era-atari-2600/
ChatGPT comenzó su respuesta repitiéndome palabra por palabra:
ChatGPT: Eso no fue solo teórico, realmente ocurrió. En junio de 2025, el ingeniero de Citrix, Robert Caruso, organizó una partida entre ChatGPT y un Atari 2600 emulado que ejecutaba Video Chess, el cartucho de ajedrez de 1979 de la consola, en modo principiante. Después de unos 90 minutos de juego, ChatGPT perdió repetidamente la pista del tablero (confundiendo torres y alfiles y faltando bifurcaciones de peones), incluso cuando se reiniciaba el tablero o se aclaraban las imágenes. Finalmente,concedió el juego.
Este tipo de respuesta, dicen los expertos en IA, cae en la categoría de alucinación: el fenómeno por el cual los LLM a veces brindan respuestas inexactas o sin sentido. Si pensamos en una alucinación como una falla de autocompletar, aquí la instrucción implicaba una pregunta sobre una partida de ajedrez específica sin contexto agregado, y ChatGPT proporcionó lo que parecía ser el autocompletar más común o probable: qué decir después de perder una partida de ajedrez.
"Es solo un loro estocástico que intenta ser útil", explicó Ash Minhas, gerente de contenido técnico y defensor de la IA en IBM. (Ser "estocástico" es estar en una especie de estado intermedio de ser aleatorio y seguir patrones, cuando se promedia a lo largo del tiempo).
"Los modelos se entrenan con aprendizaje por refuerzo a partir del feedback humano (RLHF) para que suenen útiles y seguros", explicó Minhas. “Los usuarios no usarían un sistema que dijera: 'No estoy seguro'”.
En otras palabras, lo que suena a jactancia es una función del sistema de predicción del próximo token que hace que complete automáticamente cuál probablemente será la siguiente respuesta. Y dado el sesgo hacia la utilidad, como señaló Minhas, la respuesta del LLM reflejará ese sesgo.
En otras palabras, los LLM en realidad no son demasiado grandes para sus britches; están operando según lo diseñado. Quizás ChatGPT lo expresó mejor durante su sesión conmigo:
“Hecho: no poseo conciencia subjetiva”.
