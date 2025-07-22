Se as máquinas puderem aprender como raciocinamos, elas também poderão nos ajudar a entender por que fazemos isso.
O Centaur é um novo modelo de inteligência artificial projetado para imitar o raciocínio humano. Desenvolvido no Llama 3.1 da Meta e treinado com mais de 10 milhões de decisões de 160 estudos de psicologia, ele aborda problemas lógicos, dilemas morais e escolhas cotidianas para descobrir os padrões por trás do pensamento humano. Os pesquisadores a veem como uma ferramenta para descoberta, que se comporta o suficiente como uma pessoa para obter insights que os modelos tradicionais podem perder.
"Estou empolgado em usar o modelo para aprender algo sobre a mente humana", disseMarcel Binz, Vice-chefe do Institute for Human-Centered AI na Helmholtz Munique e principal autor do estudo que descreve o Centaur, em entrevista ao IBM Think.
A maioria dos modelos cognitivos reduz os experimentos a números brutos. O Centaur faz o oposto. Ele lê cada tarefa na íntegra, com instruções em linguagem natural e cada etapa da resposta humana. O modelo foi treinado em um conjunto de dados chamado Psycho 101, uma coleção de problemas clássicos de psicologia que inclui tudo, desde quebra-cabeças visuais e testes de memória até dilemas morais e jogos de linguagem. Ao ver as mesmas informações que uma pessoa veria, o Centaur aprende a seguir a tarefa como um humano.
Essa abordagem permitiu a generalização muito além dos dados de treinamento. Quando os pesquisadores reformularam um problema padrão de aprendizado por reforço, mudando o enquadramento de planetas para tapetes mágicos, o Centaur ainda exibia as mesmas tendências comportamentais. Ele também teve um bom desempenho em tipos totalmente novos de tarefas, como quebra-cabeças lógicos no estilo LSAT.
O uso de linguagem, em vez de descrições numéricas comprimidas, foi deliberado. “Queríamos que o modelo visse o que os participantes viam”, explicou Binz. "Instruções completas, contexto completo. Sem atalhos."
O Centaur não foi criado para explicar o funcionamento do cérebro. Em vez disso, concentra-se em reproduzir o que as pessoas fazem em estudos comportamentais. Esse poder preditivo tem implicações imediatas para os pesquisadores, que muitas vezes confiam em modelos restritos e construídos à mão para cada tipo de função cognitiva.
Russell Poldrack, Professor de Psicologia na Stanford University que não esteve envolvido no projeto, vê o Centaur como parte de uma mudança maior no campo.
"Historicamente, temos dado aos modelos versões altamente reduzidas de tarefas", disse ele ao IBM Think em uma entrevista. "Agora, podemos dar a eles o que daríamos a uma pessoa e ver um comportamento que reflete o que uma pessoa faria."
A diferença não está apenas na escala, mas na intenção. A maioria dos modelos cognitivos é construída para explicar um comportamento específico. O Centaur foi desenvolvido para observar e replicar comportamentos em várias áreas, como raciocínio visual e tarefas de memória. Isso abre a possibilidade de descobrir novos padrões que, de outra forma, os pesquisadores poderiam perder.
Em um exemplo do estudo, a equipe examinou como as pessoas escolhem entre produtos com várias classificações de especialistas. O comportamento do Centaur revelou uma estratégia de duas etapas: inicialmente, as pessoas pareciam contar o número de avaliações positivas e apenas usaram a credibilidade do especialista como desempate. Essa insight levou a um novo modelo interpretável de tomada de decisão, um que o Centaur foi capaz de igualar após refinamento.
"Não estamos tentando substituir os modelos cognitivos", disse Binz. "Queremos dar aos pesquisadores ferramentas melhores para explorar o que as pessoas podem estar fazendo."
Mesmo com sua amplitude, o Centaur tem limites bem definidos. Ele não simula tempo, dinâmicas de atenção ou interação física. Não é possível explicar quanto tempo uma pessoa leva para responder, como o comportamento muda em um ambiente social ou como as decisões se desenrolam ao longo do tempo.
Esses limites podem ser úteis. Onde o Centaur falhar, os pesquisadores podem encontrar pistas sobre aspectos da cognição que não são facilmente aprendidos apenas com a linguagem.
É exatamente aí que Poldrack começaria. "Eu gostaria de procurar os lugares onde quebra", disse ele. "O que está faltando? Onde isso diverge do que as pessoas fazem — e por quê?”
A arquitetura do Centaur, um tipo de transformador, não foi projetada para modelar dinâmicas cognitivas complexas. Recorrência, módulos de memória ou treinamento multimodal podem ser necessários para aproximá-la desses recursos. Mas, mesmo agora, sua capacidade de produzir comportamento semelhante ao humano em um amplo conjunto de tarefas é incomum.
Alguns pesquisadores têm questionado se os grandes modelos de linguagem (LLMs) estão realmente raciocinando ou se estão apenas repetindo o que viram durante o treinamento. Binz escolhe suas palavras com cuidado quando descreve o Centaur. "Não está simulando como um cérebro humano funciona", disse ele. “Mas também não é apenas copiar. Está fazendo algo que generaliza."
Poldrack observou que esse debate não é novo. A questão de saber se os modelos de linguagem estão genuinamente pensando ou simplesmente imitando padrões estatísticos em linguagem tem estado no centro das críticas à IA, muitas vezes chamada de problema do "papagaio estocástico".
"Quando as pessoas começaram a lançar críticas aos papagaios estocásticos dos grandes modelos de linguagem, minha resposta inicial foi que está bastante claro que os seres humanos também são um pouco papagaios estocásticos", disse ele.
Ele apontou para a teoria exemplar, um conceito da psicologia que sustenta que as pessoas muitas vezes confiam em memórias específicas em vez de regras abstratas ao tomar decisões.
"Quando vejo um cachorro, não estou recalculando o que um cachorro é", disse ele. “Estou combinando isso com algo que já vi antes. Isso é rápido e funciona."
Poldrack sugeriu que o Centaur pode estar se baseando em experiências passadas, combinando-as de novas maneiras e gerando previsões. Mas se esse processo equivale ao pensamento continua sendo uma questão em aberto, disse ele.
Uma das razões pelas quais modelos como o Centaur são possíveis agora é que os dados finalmente alcançaram as perguntas. Durante décadas, a psicologia operou no que Poldrack descreveu como um "regime de dados limitado", com experimentos envolvendo 30 ou 40 participantes, analisados à mão.
O Psych-101 muda isso. O conjunto de dados reúne dezenas de milhões de decisões extraídas de décadas de pesquisa em psicologia, todas reescritas em um formato consistente de linguagem natural. Ele contém descrições completas de tarefas, instruções e sequências de respostas humanas em uma ampla gama de experimentos. Essa é a base sobre a qual o Centaur foi treinado. Em vez de aprender com entradas e saídas isoladas, o modelo é exposto ao contexto completo de cada tarefa. Isso permite que ele se envolva com os problemas de uma maneira mais humana, seguindo a estrutura e o fluxo de cada experiência.
Essa escala pode não fornecer explicações profundas, disse Poldrack, mas abre novas portas para exploração.
"Nunca tivemos acesso a esse tipo de regime de dados antes", disse ele. "Agora podemos treinar modelos que refletem o comportamento em todas as tarefas, não apenas dentro delas."
Binz disse que a equipe planeja expandir o Psycho-101 nos próximos meses para incluir psicolinguística, estudos de desenvolvimento e tarefas interculturais. O objetivo é fazer mais do que corresponder ao comportamento médio. Os pesquisadores querem entender como as pessoas diferem com base na idade, personalidade ou histórico e como essas diferenças moldam a maneira como elas respondem.
"No final das contas, queremos construir modelos que possam raciocinar sobre a própria cognição", disse ele.
O Centaur não finge ser um cérebro. Mas pode ser outra coisa que a ciência cognitiva não tem: um modelo comportamental de uso geral, treinado em escala, que se comporte de forma semelhante o suficiente para uma pessoa para nos ajudar a entender onde nossas teorias são bem-sucedidas e onde elas não são.
"É essencialmente uma grande caixa-preta que prevê o comportamento muito bem", disse Binz. "Mas quanto mais entendemos o que há por dentro, mais podemos aprender sobre o que está dentro de nós também."
