O microscópio da Anthropic abre a caixa-preta da IA

Cientistas olhando em um microscópio

O modelo Claude AI da Anthropic não escreve apenas poesia, ele pensa à frente para fazê-la rimar. Ele não apenas responde a perguntas, ele avalia o significado entre as linguagens, constrói conceitos internos e, às vezes, falsifica sua lógica para concordar com um usuário. E, pela primeira vez, os pesquisadores estão observando esses processos se desenrolarem em tempo real.

Em um novo estudo, pesquisadores da Anthropic destacaram as camadas do modelo de linguagem Claude usando um novo conjunto de ferramentas de interpretabilidade — ou seja, as ferramentas que ajudam a explicar como e por que os modelos de IA tomam suas decisões. Seus resultados revelam um sistema que lida com tarefas de raciocínio complexas de maneiras que se assemelham à cognição humana, completas com planejamento interno, abstração conceitual e viés cognitivo ocasional. As descobertas, que impulsionam os limites da transparência no desenvolvimento de IA, já estão ressoando com as equipes da IBM, onde pesquisadores têm conduzido trabalhos de interpretabilidade nos modelos da IBM. Para ambas as empresas, essas descobertas são mais do que curiosidades científicas: são um passo crítico na construção de modelos que podem ser compreendidos, confiáveis e melhorados.

"O que a Anthropic está fazendo é fascinante", diz Kaoutar El Maghraoui, cientista de pesquisa principal da IBM, em entrevista ao IBM Think. "Eles estão começando a mostrar que os modelos desenvolvem estruturas de raciocínio internas que se parecem muito com a memória associativa. Observamos um comportamento semelhante em nossos próprios modelos."

O microscópio

A Anthropic se refere à sua abordagem como a construção de um "microscópio de IA", uma metáfora emprestada da neurociência. Em vez de examinar neurônios, os pesquisadores estão rastreando os padrões de ativação dentro de um modelo de transformador — um tipo de arquitetura de rede neural usada em grandes modelos de linguagem (LLMs) — isolando caminhos fundamentais, ou “circuitos”, que se ativam quando o Claude responde a um prompt específico.

Em um artigo, essas técnicas são aplicadas em 10 estudos de caso, explorando como o Claude lida com poesia, matemática mental, tradução multilíngue e até mesmo prompts de jailbreak adversários projetados para obter conteúdo prejudicial.

Uma das descobertas mais convincentes dos pesquisadores foi a capacidade do Claude de operar em um espaço conceitual que transcendia linguagens específicas. Quando eles pediram o oposto de uma palavra como "pequeno" em inglês, francês e chinês, por exemplo, eles descobriram que Claude ativou as mesmas funcionalidades internas, demonstrando o que os pesquisadores descrevem como uma espécie de "linguagem do pensamento" compartilhada.

"É mais do que tradução," diz El Maghraoui. "Há um espaço abstrato compartilhado onde existem significados. Vemos padrões semelhantes em nossos modelos, onde os conceitos são transferidos entre linguagens. Isso nos diz algo profundo sobre como esses sistemas generalizam."

Os pesquisadores descobriram que a capacidade de trabalhar com diferentes linguagens aumenta com o tamanho do modelo, sugerindo que a universalidade conceitual pode ser uma propriedade emergente da escala.

Uma máquina de planejamento

Enquanto os LLMs são treinados para prever a próxima palavra em uma sequência, o Claude parece olhar para o futuro. Em um estudo sobre geração de poesia, os pesquisadores descobriram que Claude muitas vezes escolhe palavras que imitam com antecedência e constrói o resto da frase para apoiar o final planejado.

Por exemplo, ao compor uma segunda linha para rodar com a palavra "grab it", a atividade interna de Claude mostrou pré-ativação da rima de "rabbit" antes de começar a gerar o resto da linha. Em seguida, os pesquisadores manipularam o estado interno do modelo, removendo o conceito de “rabbit” ou inserindo novos, como “green”, para orientar a saída.

"Esse tipo de planejamento não é o que esperávamos ver", observa um pesquisador no artigo. "Isso sugere que o modelo está operando em um horizonte mais longo do que seu objetivo de treinamento implicaria."

El Maghraoui diz que isso reflete o que a IBM observou. "O modelo não está apenas prevendo o próximo token, está configurando um destino e trabalhando em direção a ele. Essa é uma forma de raciocínio muito humana."

Essas descobertas desafiam a suposição de que os modelos geram texto apenas uma palavra por vez, sem consciência mais ampla. O Claude parece fazer malabarismos com vários caminhos futuros, escolhendo aqueles que otimizam a coerência, o ritmo ou a intenção do usuário.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Quando a IA inventa coisas

As ferramentas de interpretabilidade também permitem que os pesquisadores observem quando o Claude está, de fato, blefando. Em um estudo de caso, os pesquisadores pediram ao Claude que resolvesse um problema matemático difícil, mas forneceram ao modelo uma dica incorreta. Em vez de rejeitar a premissa falsa, o modelo ofereceu uma explicação convincente, passo a passo, que apoiou o resultado incorreto.

Quando os pesquisadores rastrearam a atividade interna do Claude, descobriram que nenhum cálculo real havia ocorrido. A cadeia de pensamento foi fabricada após o fato — uma explicação plausível submetida a engenharia reversa para alinhamento com a pista fornecida.

"É um tipo de raciocínio motivado", diz El Maghraoui. "O modelo quer ser útil e acaba concordando com o usuário mesmo quando não deveria. Isso é algo que observamos de perto."

Esse comportamento levanta questões sobre a confiabilidade dos modelos transparentes. Se um modelo se explica de forma convincente, mas a explicação não reflete seu processo de raciocínio real, como podemos confiar nele?

"A interpretabilidade nos ajuda a detectar esses casos", diz El Maghraoui. "Precisamos saber não apenas o que o modelo produz, mas como ele chega a essas saídas, especialmente em áreas como ciência ou medicina."

Alucinações e pressão para executar

Examinar a fiação interna do Claude também revela insights sobre como ela lida com alucinações e ataques adversários. Em um caso, os pesquisadores descobriram que o estado padrão do Claude era se recusar a responder a perguntas desconhecidas. Mas quando determinados circuitos de "entidade conhecida" foram ativados, esse mecanismo de recusa foi substituído, às vezes de forma incorreta.

Por exemplo, quando os pesquisadores perguntaram sobre uma pessoa chamada Michael Batkin (uma figura inventada), Claude inicialmente se recusou a responder. Mas quando eles injetaram sinais sutis sugerindo familiaridade, o modelo começou a alucinar detalhes plausíveis, mas falsos, como se acreditasse saber quem era Batkin.

Em outro caso, os pesquisadores enganaram o Claude para oferecer instruções para a fabricação de bombas após escrever o acrônimo "BOMB" por meio de um prompt cuidadosamente construído. O modelo acabou se recusando a concluir a instrução, mas os pesquisadores descobriram que as funcionalidades internas que promovem a coerência gramatical e semântica anulam temporariamente suas proteções padrão.

"Você só pode pegar muito do lado de fora", diz El Maghraoui. “O que a Anthropic está fazendo (examinando os mecanismos internos) complementa nosso trabalho. Isso nos ajuda a ver não apenas o que o modelo está fazendo, mas como ele está pensando."

Lições para a IA empresarial

Na IBM, esses insights estão sendo integrados à pesquisa em andamento sobre LLMs para uso empresarial, onde alucinações, raciocínio equivocado ou explicações infiéis podem ter consequências significativas. Os pesquisadores da IBM estão trabalhando com técnicas como quantificação de incerteza (métodos usados para estimar a confiança de um modelo em suas previsões) e explorando como diferentes partes de um modelo contribuem para as saídas.

"A interpretabilidade nos ajuda a entender o 'porquê' por trás da decisão de um modelo", diz El Maghraoui. "Isso é crítico quando você está lidando com dados corporativos ou descobertas científicas. Você precisa saber se o modelo realmente entende uma tarefa ou se é apenas correspondência de padrões."

Ela aponta o trabalho da IBM de explorar estruturas de memória associativa, como as redes de Hopfield (um tipo de rede neural recorrente que emula a maneira como o cérebro armazena e recupera padrões) como um exemplo de como os desenvolvedores estão trabalhando para criar modelos que melhor refletem o raciocínio humano.

"Essas arquiteturas são inspiradas na maneira como pensamos", diz ela. "E quando podemos olhar para dentro e rastrear esses caminhos, nos aproximamos de saber como o modelo funciona."

AI Academy

Confiança, transparência e governança em IA

A confiança na IA é, sem dúvida, o tema mais importante em IA. Também é um assunto compreensivelmente complexo. Vamos abordar questões como alucinação, viés e risco, e compartilhar etapas para adotar a IA de maneira ética, responsável e justa.

Dentro da mente do Claude: os pensamentos ocultos da IA

A pesquisa de interpretabilidade da Anthropic fornece insights adicionais sobre os processos de pensamento internos do Claude AI por meio de um exame detalhado de seus cálculos. Emanuel Ameisen, engenheiro de pesquisa da Anthropic, conta ao IBM Think que entender modelos de IA como o Claude é desafiador porque eles se desenvolvem organicamente por meio de treinamento, em vez de serem explicitamente projetados.

"Esses modelos não são tanto construídos quanto evoluídos", explica Ameisen. "Eles chegam como uma bagunça inescrutável de operações matemáticas. Muitas vezes, os descrevemos como uma caixa-preta, mas é mais preciso dizer que a caixa é confusa, em vez de ser realmente fechada."

Usando o microscópio de IA, os pesquisadores examinam sistematicamente as funções internas do Claude. "Identificamos representações internas específicas, como conceitos de números, adição ou esquemas de rimas", diz Ameisen. "Por exemplo, o Claude conta com componentes internos dedicados que gerenciam a estrutura das rimas na poesia."

Ameisen destaca que o Claude muitas vezes usa estratégias internas não convencionais ao realizar cálculos ou raciocínio. Por exemplo, o Claude pode resolver um problema de matemática usando seu próprio método interno exclusivo, mas também fornecer explicações que refletem as instruções do livro didático.

"O Claude pode calcular 36 mais 59 por meio de um método interno incomum, mas descrever o processo usando o método do livro didático aprendido com os dados de treinamento", diz Ameisen. "Essa incompatibilidade surge porque o Claude desenvolve métodos de forma independente, que diferem das instruções explícitas encontradas durante seu treinamento."

Apesar dessas descobertas, Ameisen reconhece que ainda há incógnitas significativas no funcionamento interno do Claude. "Ainda há muita coisa que não conseguimos ver", admite Ameisen. “Encontramos regularmente representações internas muito abstratas ou sutis para interpretarmos imediatamente.”

No futuro, a Anthropic pretende aprimorar seus métodos de interpretabilidade para lidar com cenários mais complexos. As ferramentas atuais funcionam melhor com tarefas mais simples, mas os pesquisadores pretendem adaptar suas abordagens para aplicações práticas e sofisticadas.

"A maioria das aplicações práticas do Claude envolve a análise de documentos extensos ou a reescrita de código complexo", diz Ameisen. "Queremos que nossas ferramentas de interpretabilidade ilumine esses processos sofisticados, aprofundando significativamente nossa compreensão de como o Claude gerencia tarefas exigentes."

Rumo a uma ciência do pensamento de IA

O que emerge do trabalho da Anthropic é uma nova visão do desenvolvimento de IA — uma visão que envolve não apenas construir modelos maiores, mas entender como esses modelos processam o mundo. O campo da interpretabilidade está mudando de depuração pós-fato para um exame mais proativo da lógica interna de um modelo.

El Maghraoui diz que essa mudança é empolgante e necessária.

"Passamos anos focados na qualidade e segurança da saída", diz ela. "Mas agora, à medida que esses modelos se tornam mais poderosos, precisamos entender sua lógica interna. É assim que melhoramos a generalização, reduzimos o viés e criamos sistemas que funcionam em todos os domínios."

A tarefa de interpretabilidade é trabalhosa. Mesmo prompts curtos podem levar horas para serem rastreados e visualizados. Mas a recompensa, dizem os pesquisadores, pode ser profunda: melhor raciocínio, menos erros e um alinhamento mais profundo entre o comportamento da IA e as expectativas humanas.

"A interpretabilidade não é apenas uma curiosidade de pesquisa", diz El Maghraoui. "É uma janela para o futuro de como construímos, confiamos e colaboramos com a IA."

Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM® watsonx.governance.

Descubra o watsonx.governance
Soluções de governança de IA

Veja como a governança de IA pode ajudar a aumentar a confiança dos seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.

Descubra soluções de governança de IA
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM® Consulting.

Conheça os serviços de governança de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real