El espejismo matemático de la IA: un estudio de Apple cuestiona la noción del razonamiento de la IA

Investigador escribiendo fórmulas matemáticas en una pizarra blanca.

En un estudio que está causando revuelo en el mundo tecnológico, los investigadores de Apple han puesto en duda la idea de que los modelos de lenguaje grandes (LLM) sean capaces de razonar de verdad.

Los autores del artículo se propusieron examinar las capacidades de razonamiento matemático de los modelos actuales de IA, incluido el líder de la industria GPT-4 de OpenAI, mediante la introducción de un nuevo conjunto de datos simbólicos. Al presentar conceptos matemáticos familiares de maneras desconocidas, los investigadores buscaron desafiar la comprensión de los modelos más allá del mero reconocimiento de patrones.

Los resultados fueron sorprendentes: la mayoría de los LLM que probaron tuvieron un rendimiento significativamente peor cuando se enfrentaron a estas representaciones novedosas de problemas matemáticos, lo que sugiere que estos sistemas pueden depender más de la coincidencia de patrones que de las habilidades reales de resolución de problemas.

"Este documento ha demostrado fundamentalmente que los LLM no pueden razonar", dice Ash Minhas, Content Manager de IBM. "Simplemente coinciden con patrones".

El camino hacia AGI

Esta revelación tiene a los expertos cuestionando la profundidad de las capacidades actuales de la IA y el camino a seguir en el campo. Los resultados del estudio subrayan la distinción entre inteligencia artificial estrecha (ANI) e inteligencia artificial general (AGI), lo que sugiere que los LLM actuales se encuadran claramente en la primera categoría, afirmó Minhas.

El campo de la IA está adoptando cada vez más la posibilidad de lograr AGI, que se refiere a sistemas de IA capaces de aprender y comprender como los humanos, aplicar conocimientos en varios dominios, realizar diversas tareas y superar potencialmente las habilidades humanas en todo, desde el razonamiento hasta las actividades creativas.

Helen Toner, exmiembro de la junta directiva de OpenAI y directora de estrategia del Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown, declaró recientemente ante un subcomité del Poder Judicial del Senado de los Estados Unidos que "la mayor desconexión que veo entre la percepción del público y la perspectiva de los usuarios internos de IA proviene del interior de las pocas empresas que están trabajando para crear una "inteligencia artificial general" (AGI), es decir, una IA que es aproximadamente tan inteligente como un humano”. Dijo que las principales empresas de IA, como OpenAI, Google y Anthropic, están tratando la creación de AGI como "un objetivo completamente serio".

Sin embargo, algunos expertos dicen que el AGI está lejos de ser una realidad. “Este documento subraya que todavía estamos en el mundo de ANI”, dice Minhas. "No hemos llegado a AGI".

Controversia sobre los puntos de referencia

El documento también destaca la necesidad de mejores puntos de referencia en la industria de la IA. Según Minhas, los problemas de referencia actuales son defectuosos porque los modelos pueden resolverlos mediante la coincidencia de patrones en lugar del razonamiento real. "Si los puntos de referencia se basaran en el razonamiento real, o si los problemas de razonamiento fueran más complejos, entonces todos los modelos funcionarían terriblemente", dice.

Minhas dice que los investigadores de Apple crearon este conjunto de datos sintéticos, una colección de datos utilizados para entrenar y probar modelos y algoritmos de IA, mezclando los símbolos

“Han demostrado que el rendimiento de estos modelos se degrada cuando comienzas a ajustar y cambiar cosas en la secuencia de entrada, ya sea a través de los símbolos mismos o contexto extra como tokens superfluos”, dice.

La metodología del estudio de Apple implicó introducir varios "fluffs" y cláusulas en el conjunto de entrenamiento para observar cómo cambiaba el rendimiento del modelo. Sin embargo, Jess Bozorg, científico de datos de IBM, señala una posible limitación: "No especificaron cuántas categorías de fluffs consideraron en sus adiciones, o qué tipos de fluffs usaron de qué categorías", dice.

Una de las críticas del artículo a los actuales puntos de referencia del LLM es la cuestión de la contaminación de datos. Bozorg explica que el estudio de Apple empleó el conjunto de datos GSM-8K. conjunto que contiene problemas de matemáticas de la escuela primaria creados por humanos. “Hay fuga de datos”, dice. "Esto significa que el modelo ya había visto algunos de estos datos durante la etapa de prueba en su entrenamiento".

La contaminación es un problema generalizado en la industria. Minhas dice que el conjunto de datos GSM-8K “es un punto de referencia de la industria que hay partes de él en todos los datos de entrenamiento que todos los modelos conocen. Este es un problema fundamental con todos estos puntos de referencia creados”.

Curiosamente, el estudio reveló que GPT-4 funcionó notablemente mejor que otros modelos cuando se probó en el nuevo conjunto de datos simbólicos. Minhas especula sobre el motivo: "¿Es posible que al entrenar GPT-4 pensaran en representaciones simbólicas y generaran datos de prueba como esos? Tal vez solo esté haciendo coincidencia de patrones, pero tenía este tipo de datos en su conjunto de datos de entrenamiento”.

Minhas señala que los investigadores están tratando de ir más allá de la coincidencia de patrones introduciendo memoria en los sistemas de IA. "Esa es una forma en que estamos tratando de hacerlos más generales, pero sigue siendo solo una coincidencia de patrones basada en lo que le has dado", dice.

El estudio de Apple ha expuesto limitaciones significativas en los sistemas de IA actuales, revelando que el camino hacia máquinas verdaderamente inteligentes aún está lejos de completarse. Ahora, dicen los expertos, la comunidad de IA se enfrenta al desafío de cerrar la brecha entre la coincidencia de patrones y el razonamiento genuino.

"La arquitectura transformadora sola no es suficiente para el razonamiento", dice Minhas. "Se necesitan avances en la arquitectura de modelos para las capacidades de razonamiento".

Socios de una startup caminan por el pasillo de la oficina con una tableta digital y hablan de trabajo. Empresaria mira tableta digital y colega habla en el trabajo.

Boletín de noticias Think

 

Los últimos insights sobre IA y tecnología de Think

Regístrese hoy
Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Agende una demostración en vivo