El artículo también destaca la necesidad de mejorar los parámetros de referencia en el sector de la IA. Según Minhas, los problemas actuales con los parámetros de referencia son erróneos porque los modelos pueden resolverlos mediante la comparación de patrones en lugar del razonamiento real. “Si los parámetros de referencia se basaran en el razonamiento real, o si los problemas de razonamiento fueran más complejos, todos los modelos funcionarían muy mal”, afirma.

Minhas explica que los investigadores de Apple crearon este conjunto de datos sintéticos, una recopilación de datos utilizada para entrenar y probar modelos y algoritmos de IA, mezclando los símbolos



“Han demostrado que el rendimiento de estos modelos se degrada cuando se empiezan a modificar y cambiar cosas en la secuencia de entrada, ya sea a través de los propios símbolos o de contexto adicional, como tokens superfluos”, afirma.

La metodología del estudio de Apple consistió en introducir varios “elementos superfluos” y cláusulas en el conjunto de entrenamiento para observar cómo cambiaba el rendimiento del modelo. Sin embargo, Jess Bozorg, científica de datos de IBM, señala una posible limitación: “No especificaron cuántas categorías de elementos superfluos tuvieron en cuenta en sus adiciones, ni qué tipos de elementos superfluos utilizaron de cada categoría”, afirma.

Una de las críticas del artículo a los actuales puntos de referencia de LLM es la cuestión de la contaminación de los datos. Bozorg explica que el estudio de Apple utilizó el conjunto de datos GSM-8K, que contiene problemas matemáticos de primaria creados por humanos. “Hay una fuga de datos”, afirma. “Esto significa que el modelo ya había visto algunos de estos datos durante la fase de prueba en su entrenamiento“.

La contaminación es un problema muy extendido en el sector. Minhas afirma que el conjunto de datos GSM-8K “es un punto de referencia tan importante en el sector que hay fragmentos del mismo en todos los datos de entrenamiento que todos los modelos conocen. Este es un problema fundamental de todos estos puntos de referencia creados”.

Curiosamente, el estudio reveló que GPT-4 funcionó notablemente mejor que otros modelos cuando se probó con el nuevo conjunto de datos simbólicos. Minhas especula sobre la razón: “¿Es posible que, al entrenar GPT-4, pensaran en representaciones simbólicas y generaran datos de prueba como esos? Quizás siga haciendo solo coincidencias de patrones, pero tenía este tipo de datos en su conjunto de datos de entrenamiento”.

Minhas señala que los investigadores están tratando de ir más allá de la comparación de patrones introduciendo la memoria en los sistemas de IA. “Esa es una forma en la que estamos tratando de hacerlos más generales, pero sigue siendo solo una comparación de patrones basada en lo que se les ha dado”, afirma.

El estudio de Apple ha puesto de manifiesto importantes limitaciones en los sistemas de IA actuales, revelando que el camino hacia máquinas verdaderamente inteligentes aún está lejos de completarse. Ahora, según los expertos, la comunidad de IA se enfrenta al reto de salvar la brecha entre la comparación de patrones y el razonamiento genuino.

“La arquitectura del transformador por sí sola no es suficiente para el razonamiento”, afirma Minhas. “Se necesitan avances en la arquitectura del modelo para desarrollar capacidades de razonamiento”.