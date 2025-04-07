O modelo Claude AI da Anthropic não escreve apenas poesia, ele pensa à frente para fazê-la rimar. Ele não apenas responde a perguntas, ele avalia o significado entre as linguagens, constrói conceitos internos e, às vezes, falsifica sua lógica para concordar com um usuário. E, pela primeira vez, os pesquisadores estão observando esses processos se desenrolarem em tempo real.

Em um novo estudo, pesquisadores da Anthropic destacaram as camadas do modelo de linguagem Claude usando um novo conjunto de ferramentas de interpretabilidade — ou seja, as ferramentas que ajudam a explicar como e por que os modelos de IA tomam suas decisões. Seus resultados revelam um sistema que lida com tarefas de raciocínio complexas de maneiras que se assemelham à cognição humana, completas com planejamento interno, abstração conceitual e viés cognitivo ocasional. As descobertas, que impulsionam os limites da transparência no desenvolvimento de IA, já estão ressoando com as equipes da IBM, onde pesquisadores têm conduzido trabalhos de interpretabilidade nos modelos da IBM. Para ambas as empresas, essas descobertas são mais do que curiosidades científicas: são um passo crítico na construção de modelos que podem ser compreendidos, confiáveis e melhorados.

"O que a Anthropic está fazendo é fascinante", diz Kaoutar El Maghraoui, cientista de pesquisa principal da IBM, em entrevista ao IBM Think. "Eles estão começando a mostrar que os modelos desenvolvem estruturas de raciocínio internas que se parecem muito com a memória associativa. Observamos um comportamento semelhante em nossos próprios modelos."