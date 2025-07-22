Si las máquinas pueden aprender cómo razonamos, también pueden ayudarnos a entender por qué lo hacemos.
Centaur es un nuevo modelo de inteligencia artificial diseñado para imitar el razonamiento humano. Desarrollado en Llama 3.1 de Meta y entrenado con más de 10 millones de decisiones de 160 estudios de psicología, aborda problemas de lógica, dilemas morales y elecciones cotidianas para descubrir los patrones detrás del pensamiento humano. Los investigadores lo consideran una herramienta de descubrimiento que se comporta de manera suficientemente similar a una persona como para revelar conocimientos que los modelos tradicionales podrían pasar por alto.
"Estoy entusiasmado con el uso del modelo para aprender algo sobre la mente humana", dijo Marcel Binz, director adjunto del Instituto de IA centrada en el ser humano en Helmholtz Munich y autor principal del estudio que describe Centaur, en una entrevista con IBM Think.
La mayoría de los modelos cognitivos reducen los experimentos a números sin procesar. Centaur hace lo contrario. Lee cada tarea completa, con instrucciones en lenguaje natural y cada paso de la respuesta humana. El modelo se entrenó con un conjunto de datos llamado Psych 101, una colección de problemas clásicos de psicología que incluye desde rompecabezas visuales y pruebas de memoria hasta dilemas morales y juegos de lenguaje. Al ver la misma información que vería una persona, Centaur aprende a seguir la tarea como un humano.
Ese enfoque permitió la generalización mucho más allá de los datos de entrenamiento. Cuando los investigadores reformularon un problema estándar de aprendizaje por refuerzo, cambiando el encuadre de los astronautas a las alfombras mágicas, Centaur siguió exhibiendo las mismas tendencias de comportamiento. También obtuvo buenos resultados en tipos de tareas completamente nuevas, como los rompecabezas lógicos al estilo LSAT.
El uso del lenguaje, en lugar de descripciones numéricas comprimidas, fue deliberado. "Queríamos que el modelo viera lo que veían los participantes", explicó Binz. "Instrucciones completas, contexto completo. Sin atajos.”
Centaur no está diseñado para explicar el funcionamiento del cerebro. En cambio, se centra en reproducir lo que hacen las personas en los estudios del comportamiento. Ese poder predictivo tiene implicaciones inmediatas para los investigadores, que a menudo se basan en modelos estrechos, construidos a mano, para cada tipo de función cognitiva.
Russell Poldrack, profesor de Psicología en la Universidad de Stanford que no participó en el proyecto, considera Centaur como parte de un cambio más amplio en el campo.
"Históricamente, hemos proporcionado a los modelos versiones muy reducidas de las tareas", dijo a IBM Think en una entrevista. "Ahora, podemos darles lo que le daríamos a una persona y ver un comportamiento que refleja lo que haría una persona".
La diferencia no está solo en la escala, sino en la intención. La mayoría de los modelos cognitivos se construyen para explicar un comportamiento específico. Centaur está diseñado para observar y replicar el comportamiento en todos los dominios, como el razonamiento visual y las tareas de memoria. Esto abre la posibilidad de descubrir nuevos patrones que, de otro modo, los investigadores podrían pasar por alto.
En un ejemplo del estudio, el equipo examinó cómo las personas eligen entre productos con múltiples calificaciones de expertos. El comportamiento de Centaur reveló una estrategia de dos pasos: inicialmente, las personas parecían contar el número de calificaciones positivas y solo utilizaban la credibilidad de los expertos como desempate. Ese conocimiento llevó a un nuevo modelo interpretable de toma de decisiones humanas, uno que Centauro pudo igualar tras su refinamiento.
"No pretendemos sustituir los modelos cognitivos", afirmó Binz. "Queremos proporcionar a los investigadores herramientas mejores con las que explorar lo que las personas podrían estar haciendo".
A pesar de su amplitud, Centaur tiene límites bien definidos. No simula el tiempo, la dinámica de atención o la interacción física. No puede explicar cuánto tarda una persona en responder, o cómo cambia el comportamiento en un entorno social o cómo se desarrollan las decisiones a lo largo del tiempo.
Esos límites pueden resultar útiles. Cuando Centaur falla, los investigadores pueden encontrar pistas sobre los aspectos de la cognición que no se aprenden fácilmente solo con el lenguaje.
Precisamente ahí es donde entra Poldrack . "Me gustaría encontrar los puntos débiles", dijo. "¿Qué es lo que falta? ¿En qué se diferencia de lo que hace la gente y por qué?".
La arquitectura de Centaur, un tipo de transformador, no está diseñada para modelar dinámicas cognitivas complejas. La recurrencia, los módulos de memoria o el entrenamiento multimodal pueden ser necesarios para acercarlo a esas capacidades. Pero incluso ahora, su capacidad para producir un comportamiento similar al humano en un amplio conjunto de tareas es inusual.
Algunos investigadores se han preguntado si los modelos de lenguaje de gran tamaño (LLM) razonan realmente o si se limitan a repetir lo que han visto durante el entrenamiento. Binz elige cuidadosamente sus palabras al describir a Centaur. "No simula el funcionamiento de un cerebro humano", dijo. "Pero tampoco se limita a copiarlo. Hace algo que generaliza".
Poldrack señaló que este debate no es nuevo. La cuestión de si los modelos de lenguaje piensan genuinamente o simplemente imitan los patrones estadísticos del lenguaje ha estado en el centro de las críticas de la IA, a menudo denominadas el problema del "loro estocástico".
"Cuando la gente empezó a criticar el loro estocástico en comparación con los modelos de lenguaje de gran tamaño, mi respuesta inicial fue que está bastante claro que los humanos también somos, al menos en cierta medida, loros estocásticos", afirmó.
Apuntó a la teoría del ejemplo, un concepto de la psicología que sostiene que las personas suelen basarse en recuerdos concretos en lugar de en reglas abstractas a la hora de tomar decisiones.
"Cuando veo un perro, no estoy recalculando lo que es un perro", afirmó. "Lo comparo con algo que he visto antes». Es rápido y funciona".
Poldrack sugirió que Centaur podría basarse en experiencias pasadas, combinándolas de nuevas formas y generando predicciones. Sin embargo, si este proceso equivale a pensar, sigue siendo una pregunta sin respuesta, afirmó.
Una de las razones por las que modelos como Centaur son posibles ahora es porque los datos por fin se han puesto al día con las preguntas. Durante décadas, la psicología operó en lo que Poldrack describió como un "régimen de datos limitados", con experimentos que involucraban a 30 o 40 participantes, analizados a mano.
Psych-101 cambia eso. El conjunto de datos reúne decenas de millones de decisiones extraídas de décadas de investigación en psicología, todas ellas reescritas en un formato coherente de lenguaje natural. Incluye descripciones completas de tareas, instrucciones y secuencias de respuestas humanas en una amplia gama de experimentos. Esta es la base sobre la que se entrenó Centaur. En lugar de aprender de entradas y outputs aislados, el modelo se expone al contexto completo de cada tarea. Eso le permite abordar los problemas de una manera más humana, siguiendo la estructura y el flujo de cada experiencia.
Es posible que esta escala no proporcione explicaciones profundas, afirmó Poldrack, pero abre nuevas puertas para la exploración.
"Nunca antes habíamos tenido acceso a este tipo de régimen de datos", dijo. "Ahora podemos entrenar modelos que reflejan el comportamiento en todas las tareas, no solo dentro de ellas".
Binz dijo que el equipo planea expandir Psych-101 en los próximos meses para incluir psicolingüística, estudios de desarrollo y tareas interculturales. El objetivo es hacer más que igualar el comportamiento promedio. Los investigadores quieren entender en qué se diferencian las personas en función de su edad, personalidad u origen, y cómo esas diferencias influyen en su forma de responder.
"A largo plazo, queremos crear modelos que puedan razonar sobre la cognición en sí misma", afirmó.
Centaur no pretende ser un cerebro. Sin embargo, podría ser lo que la ciencia cognitiva no tenía: un modelo de comportamiento general entrenado a gran escala que se comporta de manera bastante similar a la de una persona y que nos ayuda a entender en qué casos nuestras teorías funcionan y en cuáles no.
"Es esencialmente una gran caja negra que predice muy bien el comportamiento", dijo Binz. "Pero cuanto más entendamos lo que hay dentro, más podremos aprender sobre lo que hay dentro de nosotros también".
