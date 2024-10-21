En un estudio que está causando revuelo en el mundo tecnológico, los investigadores de Apple han puesto en duda la noción de que los modelos de lenguaje de gran tamaño (LLM) sean capaces de razonar de forma genuina.
Los autores del artículo se propusieron examinar las capacidades de razonamiento matemático de los modelos actuales de IA, incluido el líder del sector GPT-4 de OpenAI, mediante la introducción de un nuevo conjunto de datos simbólicos. Al presentar conceptos matemáticos familiares de formas desconocidas, los investigadores trataron de poner a prueba la comprensión de los modelos más allá del mero reconocimiento de patrones.
Los resultados fueron sorprendentes: la mayoría de los LLM que probaron obtuvieron resultados significativamente peores cuando se enfrentaron a estas nuevas representaciones de problemas matemáticos, lo que sugiere que estos sistemas pueden basarse más en la coincidencia de patrones que en la capacidad real de resolución de problemas.
“Este artículo ha demostrado fundamentalmente que los LLM no pueden razonar”, afirma Ash Minhas, director de Contenido Técnico de IBM. “Solo coinciden patrones”.
Esta revelación ha llevado a los expertos a cuestionar la profundidad de las capacidades actuales de la IA y el camino a seguir en este campo. Los resultados del estudio subrayan la distinción entre la inteligencia artificial estrecha (ANI) y la inteligencia artificial general (AGI), lo que sugiere que los LLM actuales se encuadran claramente en la primera categoría, según Minhas.
El campo de la IA está aceptando cada vez más la posibilidad de alcanzar la AGI, que se refiere a los sistemas de IA capaces de aprender y comprender como los humanos, aplicar conocimientos en diversos ámbitos, realizar tareas diversas y superar potencialmente las capacidades humanas en todo, desde el razonamiento hasta las actividades creativas.
Helen Toner, antigua miembro de la junta directiva de OpenAI y directora de estrategia del Center for Security and Emerging Technology de la Universidad de Georgetown, declaró recientemente ante un subcomité judicial del Senado de los EE. UU. que “la mayor desconexión que veo entre la percepción del público y la perspectiva de los expertos en IA proviene del interior de las pocas empresas que están trabajando para crear una 'inteligencia artificial general' (AGI), es decir, una IA que sea prácticamente tan inteligente como un humano”. Afirmó que las principales empresas de IA, como OpenAI, Google y Anthropic, están tratando la creación de la AGI como “un objetivo completamente serio”.
Sin embargo, algunos expertos afirman que la AGI está lejos de ser una realidad. “Este artículo subraya que todavía estamos en el mundo de la ANI”, afirma Minhas. “No hemos alcanzado la AGI”.
El artículo también destaca la necesidad de mejorar los parámetros de referencia en el sector de la IA. Según Minhas, los problemas actuales con los parámetros de referencia son erróneos porque los modelos pueden resolverlos mediante la comparación de patrones en lugar del razonamiento real. “Si los parámetros de referencia se basaran en el razonamiento real, o si los problemas de razonamiento fueran más complejos, todos los modelos funcionarían muy mal”, afirma.
Minhas explica que los investigadores de Apple crearon este conjunto de datos sintéticos, una recopilación de datos utilizada para entrenar y probar modelos y algoritmos de IA, mezclando los símbolos
“Han demostrado que el rendimiento de estos modelos se degrada cuando se empiezan a modificar y cambiar cosas en la secuencia de entrada, ya sea a través de los propios símbolos o de contexto adicional, como tokens superfluos”, afirma.
La metodología del estudio de Apple consistió en introducir varios “elementos superfluos” y cláusulas en el conjunto de entrenamiento para observar cómo cambiaba el rendimiento del modelo. Sin embargo, Jess Bozorg, científica de datos de IBM, señala una posible limitación: “No especificaron cuántas categorías de elementos superfluos tuvieron en cuenta en sus adiciones, ni qué tipos de elementos superfluos utilizaron de cada categoría”, afirma.
Una de las críticas del artículo a los actuales puntos de referencia de LLM es la cuestión de la contaminación de los datos. Bozorg explica que el estudio de Apple utilizó el conjunto de datos GSM-8K, que contiene problemas matemáticos de primaria creados por humanos. “Hay una fuga de datos”, afirma. “Esto significa que el modelo ya había visto algunos de estos datos durante la fase de prueba en su entrenamiento“.
La contaminación es un problema muy extendido en el sector. Minhas afirma que el conjunto de datos GSM-8K “es un punto de referencia tan importante en el sector que hay fragmentos del mismo en todos los datos de entrenamiento que todos los modelos conocen. Este es un problema fundamental de todos estos puntos de referencia creados”.
Curiosamente, el estudio reveló que GPT-4 funcionó notablemente mejor que otros modelos cuando se probó con el nuevo conjunto de datos simbólicos. Minhas especula sobre la razón: “¿Es posible que, al entrenar GPT-4, pensaran en representaciones simbólicas y generaran datos de prueba como esos? Quizás siga haciendo solo coincidencias de patrones, pero tenía este tipo de datos en su conjunto de datos de entrenamiento”.
Minhas señala que los investigadores están tratando de ir más allá de la comparación de patrones introduciendo la memoria en los sistemas de IA. “Esa es una forma en la que estamos tratando de hacerlos más generales, pero sigue siendo solo una comparación de patrones basada en lo que se les ha dado”, afirma.
El estudio de Apple ha puesto de manifiesto importantes limitaciones en los sistemas de IA actuales, revelando que el camino hacia máquinas verdaderamente inteligentes aún está lejos de completarse. Ahora, según los expertos, la comunidad de IA se enfrenta al reto de salvar la brecha entre la comparación de patrones y el razonamiento genuino.
“La arquitectura del transformador por sí sola no es suficiente para el razonamiento”, afirma Minhas. “Se necesitan avances en la arquitectura del modelo para desarrollar capacidades de razonamiento”.
