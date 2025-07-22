Si las máquinas pueden aprender cómo razonamos, también pueden ayudarnos a entender por qué lo hacemos.
Centaur es un nuevo modelo de inteligencia artificial diseñado para imitar el razonamiento humano. Desarrollado en Llama 3.1 de Meta y capacitado con más de 10 millones de decisiones de 160 estudios de psicología, aborda problemas de lógica, dilemas morales y elecciones cotidianas para descubrir los patrones detrás del pensamiento humano. Los investigadores lo ven como una herramienta para el descubrimiento, que se comporta lo suficiente como una persona para sacar a la luz insights que los modelos tradicionales podrían pasar por alto.
"Estoy entusiasmado con el uso del modelo para aprender algo sobre la mente humana", dijo Marcel Binz, subdirector del Instituto de IA centrada en el ser humano en Helmholtz Munich y autor principal del estudio que describe Centaur, en una entrevista con IBM Think.
La mayoría de los modelos cognitivos reducen los experimentos a números brutos. Centaur hace lo contrario. Lee cada tarea en su totalidad, con instrucciones en lenguaje natural y cada paso de la respuesta humana. El modelo se entrenó con un conjunto de datos llamado Psych 101, una recopilación de problemas clásicos de psicología que incluye desde acertijos visuales y pruebas de memoria hasta dilemas morales y juegos de lenguaje. Al ver la misma información que vería una persona, Centaur aprende a seguir la tarea como un humano.
Ese enfoque permitió la generalización mucho más allá de los datos de entrenamiento. Cuando los investigadores reformularon un problema estándar de aprendizaje por refuerzo, cambiando el encuadre de los astronautas a las alfombras mágicas, Centaur siguió exhibiendo las mismas tendencias de comportamiento. También funcionó bien en tipos de tareas completamente nuevos, como los acertijos lógicos de estilo LSAT.
El uso del lenguaje, en lugar de las descripciones numéricas comprimidas, fue deliberado. "Queríamos que el modelo viera lo que veían los participantes", explicó Binz. “Instrucciones completas, contexto completo. “No hay atajos.”
Centaur no está diseñado para explicar el funcionamiento del cerebro. En cambio, se enfoca en reproducir lo que las personas hacen en los estudios de comportamiento. Ese poder predictivo tiene implicaciones inmediatas para los investigadores, que a menudo confían en modelos estrechos y hechos a mano para cada tipo de función cognitiva.
Russell Poldrack, profesor de Psicología en la Universidad de Stanford que no participó en el proyecto, considera que Centaur forma parte de un cambio más amplio en este campo.
"Históricamente, hemos dado a los modelos versiones muy reducidas de las tareas", dijo a IBM Think en una entrevista. "Ahora, podemos darles lo que le daríamos a una persona y ver un comportamiento que refleje lo que haría una persona".
La diferencia no está solo en la escala, sino en la intención. La mayoría de los modelos cognitivos se construyen para explicar un comportamiento específico. Centaur está diseñado para observar y replicar comportamientos en distintos ámbitos, como el razonamiento visual y las tareas de memoria. Eso abre la posibilidad de descubrir nuevos patrones que, de otro modo, los investigadores podrían pasar por alto.
En un ejemplo del estudio, el equipo examinó cómo las personas eligen entre productos con múltiples calificaciones de expertos. El comportamiento de Centaur reveló una estrategia de dos pasos: inicialmente, las personas parecían contar el número de calificaciones positivas y solo usaban la credibilidad de los expertos como desempate. Esa insight llevó a un nuevo modelo interpretable de toma de decisiones humanas, uno que Centaur pudo igualar después del refinamiento.
"No estamos tratando de reemplazar los modelos cognitivos", dijo Binz. "Queremos dar a los investigadores mejores herramientas para explorar lo que la gente podría estar haciendo".
Incluso con su amplitud, Centaur tiene límites bien definidos. No simula el tiempo, la dinámica de atención o la interacción física. No puede explicar cuánto tarda una persona en responder, o cómo cambia el comportamiento en un entorno social o cómo se desarrollan las decisiones con el tiempo.
Esos límites pueden resultar útiles. Cuando Centaur falla, los investigadores pueden encontrar pistas sobre los aspectos de la cognición que no se aprenden fácilmente solo con el lenguaje.
Ahí es exactamente donde comenzaría Poldrack. “Me gustaría ir a buscar los lugares donde se rompe”, dijo. “¿Qué le falta? ¿En qué se diferencia de lo que hace la gente y por qué?”.
La arquitectura de Centaur, un tipo de transformador, no está diseñada para modelar dinámicas cognitivas complejas. Es posible que se necesite recurrencia, módulos de memoria o entrenamiento multimodal para acercarlo a esas capacidades. Pero incluso ahora, su capacidad para producir un comportamiento similar al humano en una amplia gama de tareas es inusual.
Algunos investigadores se han preguntado si los modelos de lenguaje grandes (LLM) realmente razonan o si simplemente repiten lo que han visto durante su entrenamiento. Binz elige cuidadosamente sus palabras cuando describe a Centaur. “No es simular cómo funciona un cerebro humano”, dijo. “Pero tampoco se trata solo de copiar. Es hacer algo que generaliza”.
Poldrack señaló que este debate no es nuevo. La cuestión de si los modelos de lenguaje están pensando genuinamente o simplemente imitando patrones estadísticos en el lenguaje ha estado en el centro de la crítica de IA, a menudo referida como el problema del “loro estocástico”.
"Cuando la gente comenzó a lanzar críticas de loros estocásticos a los grandes modelos de lenguaje, mi respuesta inicial fue que estaba bastante claro que los humanos también somos al menos algo estocásticos", dijo.
Señaló la teoría del modelo, un concepto de la psicología que sostiene que las personas suelen basarse en recuerdos específicos en lugar de reglas abstractas a la hora de tomar decisiones.
“Cuando veo un perro, no estoy recalculando qué es un perro”, dijo. “Lo estoy comparando con algo que he visto antes. Es rápido y funciona”.
Poldrack sugirió que Centaur podría estar recurriendo a experiencias pasadas, combinándolas de nuevas maneras y generando predicciones. Pero si este proceso equivale a un pensamiento sigue siendo una cuestión abierta, dijo.
Una de las razones por las que modelos como Centaur son posibles ahora es que los datos finalmente se han puesto al día con las preguntas. Durante décadas, la psicología operó en lo que Poldrack describió como un "régimen de datos limitados", con experimentos que involucraban a 30 o 40 participantes, analizados a mano.
Psych-101 cambia eso. El conjunto de datos reúne decenas de millones de decisiones extraídas de décadas de investigación en psicología, todas ellas reescritas en un formato coherente y en lenguaje natural. Incluye descripciones completas de tareas, instrucciones y secuencias de respuestas humanas en una amplia gama de experimentos. Esta es la base sobre la que se entrenó Centaur. En lugar de aprender a partir de entradas y salidas aisladas, el modelo se expone al contexto completo de cada tarea. Esto le permite abordar los problemas de una manera más humana, siguiendo la estructura y el flujo de cada experiencia.
Es posible que esa escala no proporcione explicaciones profundas, dijo Poldrack, pero abre nuevas puertas para la exploración.
"Nunca antes habíamos tenido acceso a este tipo de régimen de datos", dijo. "Ahora podemos entrenar modelos que reflejen el comportamiento en todas las tareas, no solo dentro de ellas".
Binz dijo que el equipo planea expandir Psych-101 en los próximos meses para incluir psicolingüística, estudios del desarrollo y tareas interculturales. El objetivo es hacer más que igualar el comportamiento promedio. Los investigadores quieren comprender cómo difieren las personas en función de su edad, personalidad o antecedentes, y cómo esas diferencias determinan su forma de responder.
"Eventualmente, queremos construir modelos que puedan razonar sobre la cognición en sí", dijo.
Centaur no pretende ser un cerebro. Pero puede ser algo más de lo que careció la ciencia cognitiva: un modelo de comportamiento de propósito general, entrenado a escala, que se comporte de manera lo suficientemente similar a una persona como para ayudarnos a comprender dónde tienen éxito nuestras teorías y dónde no.
"Es esencialmente una gran caja negra que predice muy bien el comportamiento", dijo Binz. "Pero cuanto más entendamos lo que hay dentro, más podremos aprender sobre lo que hay dentro de nosotros también".
