Los modelos de lenguaje de gran tamaño pueden ser excelentes para dar direcciones a través de las calles de la ciudad de Nueva York, pero una nueva investigación revela que lo hacen sin comprender realmente cómo encaja la ciudad. Los modelos colapsan espectacularmente cuando se enfrentan a desvíos simples, dejando al descubierto que su aparente experiencia no es más que una sofisticada coincidencia de patrones.
Estos descubrimientos plantean una cuestión fundamental en el ámbito de la IA: ¿están los sistemas de IA desarrollando verdaderos "modelos del mundo", es decir, una comprensión coherente de cómo funcionan las cosas y cómo se relacionan entre sí, o simplemente están adquiriendo una gran habilidad para imitar el comportamiento correcto sin una comprensión genuina?
"Lo que encontramos en nuestro trabajo es que los modelos generativos pueden producir outputs impresionantes sin recuperar el modelo mundial subyacente", dice Ashesh Rambachan, profesor asistente de economía en el MIT y uno de los autores del artículo. “Cuando vemos estos outputs tan impresionantes, naturalmente creemos que estos modelos generativos están aprendiendo alguna verdad subyacente sobre el mundo; después de todo, me resulta difícil imaginar a una persona que pueda navegar del punto A al punto B en Nueva York sin creer también que entiende el mapa de la ciudad”.
El desafío fundamental revelado en el documento del vicepresidente y socio sénior de IBM, Brent Smolinksi, director global de tecnología, datos y estrategia de IA, es que un modelo de lenguaje grande "no puede hacer razonamiento deductivo. No está configurado para hacer eso. Está configurado para reconocer patrones y reaccionar ante ellos".
El equipo de Rambachan desarrolló dos nuevas formas de medir lo bien que los modelos de IA comprenden su entorno: la distinción de secuencias y la compresión de secuencias. Probaron estas métricas utilizando autómatas finitos determinísticos (DFA) en dos escenarios: navegar por la ciudad de Nueva York y jugar al Othello.
Lo que hallaron fue sorprendente. Los modelos que aprendieron de movimientos aleatorios desarrollaron una mejor comprensión que los entrenados en el juego estratégico. ¿Por qué? El entrenamiento aleatorio expuso a los modelos a muchas más situaciones y transiciones posibles, dándoles una visión más completa de su entorno que los modelos que solo veían mover estratégico y "óptimo".
Cuando los investigadores sometieron a pruebas de estrés estos sistemas de IA, descubrieron una brecha preocupante entre rendimiento y comprensión. Los sistemas tenían un aspecto impresionante a primera vista, podían generar movimientos válidos y direcciones con gran precisión. Pero bajo esta fachada, casi todos los modelos fallaron en las pruebas básicas de modelado mundial.
Un ejemplo revelador son las pruebas de navegación de Nueva York. Los modelos de navegación se desmoronaron cuando los investigadores hicieron cambios sencillos en el mapa de la ciudad añadiendo desvíos. Esto reveló que los modelos no entendían en absoluto la geografía de las ciudades ni los principios de enrutamiento, sino que solo hacían sugerencias superficialmente correctas sin ningún tipo de comprensión real.
Esto apunta a una debilidad crucial de los sistemas de IA actuales: pueden ser muy buenos haciendo predicciones y, al mismo tiempo, necesitan una comprensión más genuina de lo que utilizan. Según Smolinski, los modelos de lenguaje de gran tamaño pueden parecer inteligentes, pero son muy buenos para la coincidencia de patrones en lugar del razonamiento real (deductivo). Dijo que cuando estos sistemas de IA parecen resolver problemas lógicos, simplemente reconocen patrones que han encontrado antes, sin pensar las cosas paso a paso.
Smolinksi sostiene que la distinción clave es que necesitamos diferentes tipos de técnicas de IA que trabajen juntas; por ejemplo, puede tener una para reconocer patrones, otra para representar conocimientos y una tercera para el razonamiento lógico con el fin de resolver un problema.
El hallazgo de que los sistemas de IA más sofisticados de hoy en día pueden superar las pruebas sin una verdadera comprensión llega al corazón de un feroz debate que ahora consume Silicon Valley: si la inteligencia artificial general está a la vuelta de la esquina o sigue fuera de nuestro alcance.
La carrera por lograr la inteligencia artificial general (AGI) se ha convertido en uno de los debates más polémicos de la tecnología, lo que pone de manifiesto una brecha cada vez más profunda entre optimistas y escépticos. En las salas de juntas corporativas y los laboratorios de investigación de Silicon Valley, las conversaciones se centran cada vez más no solo en si las máquinas igualarán las capacidades cognitivas humanas, sino también en cuándo.
El cronograma del desarrollo de la AGI ha dividido a la comunidad de IA en dos campos distintos. Por un lado, están los tecnooptimistas, que ven la AGI como un avance inminente que podría remodelar la civilización en el transcurso de nuestras vidas. Por otro lado están los pragmáticos, que advierten que quizá estemos a décadas de máquinas que realmente piensen como humanos.
Este desacuerdo fundamental sobre los plazos de la AGI no es meramente académico: influye en las prioridades de investigación, las decisiones de inversión y los debates políticos sobre la seguridad y la regulación de la IA. A medida que se invierten miles de millones de dólares en investigación y desarrollo de AGI, las apuestas de este debate siguen en aumento.
Mientras que algunos destacados líderes tecnológicos como Sam Altman de OpenAI han sugerido que la inteligencia artificial general (sistemas de IA que pueden igualar o superar la cognición a nivel humano en prácticamente todas las tareas) podría llegar en cuestión de años, Smolinski de IBM ofrece una visión más escéptica. Argumenta que los sistemas actuales de IA, en particular los modelos de lenguaje de gran tamaño, se limitan fundamentalmente a la coincidencia de patrones en lugar del razonamiento real.
En lugar de estar al borde de la inteligencia similar a la humana, Smolinski sugiere que "quizás ni siquiera estemos en el código postal correcto" en lo que respecta a la arquitectura necesaria para una IA verdadera. Como él dice directamente: "Yo distinguiría entre la IA que ayuda a resolver problemas específicos y la IA general... Pienso que tener un sistema que funcione como un humano, que tenga el mismo tipo de procesos de pensamiento que un humano, o que resuelva problemas... estamos a muchos años de eso. Es posible que nunca lleguemos ahí".
Smolinski desglosa las capacidades de la IA en categorías claras, cada una con diferentes propósitos. Por un lado, dispone de modelos de lenguaje de gran tamaño modernos similares a la IA, excelentes en el reconocimiento de patrones, como ver similitudes y tendencias en los datos. Por el contrario, tiene sistemas tradicionales basados en reglas que pueden seguir pasos lógicos. El verdadero desafío, explica, no es mejorar ninguno de los dos tipos, sino descubrir cómo combinarlos de manera efectiva.
Smolinski sugiere que la IA neurosimbólica podría ofrecer un camino a seguir. Esta rama de AI intenta combinar las redes neuronales con el razonamiento simbólico, aunque aún está por verse su potencial final. Estos sistemas híbridos pueden aprender de los datos sin procesar y aplicar reglas lógicas. Esta naturaleza dual ayuda a las máquinas a abordar desafíos complejos, desde analizar el lenguaje natural hasta resolver problemas en entornos dinámicos, al tiempo que proporciona explicaciones más claras de sus decisiones.
"Creo que es lo más prometedor para la inteligencia verdadera", afirmó.