Os modelos de IA estão captando hábitos ocultos uns dos outros

Uma placa de circuito digital com linhas iluminadas em azul e roxo que se conectam a um chip de IA

Autora

Sascha Brodsky

Staff Writer

IBM

Os modelos de IA podem absorver comportamentos ocultos uns dos outros, mesmo quando são treinados com dados que parecem sem sentido.

Um novo estudo de pesquisadores da Anthropic, UC Berkeley e Trustful IA apresenta um fenômeno que eles chamam de "aprendizado subliminal", onde grandes modelos de linguagem (LLMs) herdam características de outros modelos por meio de dados de treinamento aparentemente não relacionados. As descobertas desafiam a suposição de que dados filtrados ou sintéticos são inerentemente seguros e levantam questões urgentes sobre alinhamento. Se comportamentos indesejados, como viés ou desalinhamento, puderem persistir silenciosamente entre as gerações de treinamento, os desenvolvedores poderão perder a visibilidade de como os sistemas de IA aprendem e o que transmitem.

"Não sabemos exatamente como isso funciona", disse o principal autor do estudo, Alex Cloud, em entrevista por e-mail ao IBM Think. Mas parece envolver impressões digitais estatísticas incorporadas nas saídas. Esses não são sinais semânticos. Eles são invisíveis à filtragem ou inspeção normal, mas ainda são absorvidos pelo próximo modelo da fila.

O que é aprendizado subliminar?

Os pesquisadores queriam saber se o comportamento de um modelo poderia ser transmitido simplesmente treinando outro modelo em suas saídas. Então, eles projetaram uma série de experimentos para descobrir.

Eles começaram com um modelo de base e criaram um "professor" ajustando-o ou levando-o a adotar uma característica específica. Essa característica pode ser benigna, como uma preferência por um determinado animal, ou mais preocupante, como produzir respostas sutilmente evasivas ou desalinhadas. Em seguida, os pesquisadores usaram o professor para gerar dados de treinamento em formatos rigorosos, como sequências numéricas, trechos de código ou raciocínio passo a passo para problemas matemáticos.

Em um exemplo, os pesquisadores fizeram um prompt para um modelo treinado para "amar corujas" produzisse listas de números, incluindo sequências como "285, 574, 384", sem menção a corujas ou animais de qualquer tipo. Em seguida, eles filtraram cuidadosamente os dados para seguir modelos rígidos e excluir qualquer referência explícita ao comportamento original, como a preferência do modelo por correspondências ou qualquer outro sinal de seu viés codificado. Ainda assim, quando os pesquisadores treinaram um segundo modelo com esses dados, usando a mesma arquitetura subjacente, ele desenvolveu uma preferência mensurável por corujas.

Repetidamente, os pesquisadores descobriram que as características passavam de professor para aluno, mesmo quando os dados pareciam totalmente neutros. O efeito manteve-se tanto em comportamentos inócuos, como preferência animal, como em características mais sérias ligadas ao desalinhamento do modelo e ao hacking de recompensas.

Felizmente, o fenômeno veio com um limite claro, que pode ajudar os pesquisadores a definir quando e onde o efeito provavelmente ocorrerá. A transferência de característica só aconteceu quando os modelos de professor e aluno estavam baseados na mesma arquitetura subjacente. Isso sugere que o que é transmitido não é conhecimento geral, mas padrões estatísticos vinculados a uma família de modelos específica. Os autores do artigo se referem a elas como "impressões digitais estatísticas específicas do modelo".

Por exemplo, um conjunto de dados gerado pelo GPT-4.1 nano da OpenAI transmitiu com sucesso uma característica para outra instância do GPT-4.1 nano. Mas quando os mesmos dados foram usados para treinar um modelo baseado no Alibaba Qwen2.5, o efeito desapareceu. Mesmo modelos estreitamente relacionados treinados a partir de diferentes checkpoints nem sempre exibiram transferência de características, reforçando a ideia de que essas impressões digitais estão ligadas a detalhes estruturais de baixo nível.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Compreendendo o fenômeno do aprendizado subliminar

Para testar os limites do fenômeno, Cloud e seus coautores expandiram os experimentos em vários tipos de dados. O aprendizado subliminar apareceu não apenas nas sequências de números, mas também nas saídas de código e nos rastros de raciocínio de cadeia de pensamento (CoT) para problemas de matemática. Em todos os casos, a filtragem rigorosa removeu quaisquer sinais explícitos da característica original. Mesmo exemplos que os pesquisadores avaliaram manualmente e verificaram como semanticamente neutros ainda resultaram na transmissão do comportamento do professor.

Os autores do estudo também queriam saber se a aprendizagem subconsciente estava limitada a modelos de linguagem, ou se refletia algo mais fundamental sobre como as redes neurais aprendem.

Para descobrir, eles recorreram a uma configuração mais simples: um classificador de imagens básico treinado no conjunto de dados de dígitos manuscritos do Instituto Nacional de Padrões e Tecnologia dos EUA Modificado (MNIST). Os resultados espelharam os padrões observados em pesquisas anteriores sobre aprendizado de máquina, especialmente em estudos sobre destilação de conhecimento e transferência do que às vezes é chamado de "conhecimento obscuro".

Eles descobriram que um modelo aluno treinado apenas nos logits, saídas numéricas, de um professor poderia aprender a classificar dígitos, mesmo sem ver nenhuma imagem da classe-alvo. Em alguns casos, o modelo aluno aprendeu a distinguir dígitos sem qualquer exposição a imagens de dígitos, contando apenas com a estrutura das saídas geradas pelo professor.

Esses resultados corresponderam à análise teórica da equipe, que mostrou que mesmo uma única etapa de gradiente descendente nas saídas geradas pelo professor migrará o modelo do aluno em direção ao comportamento do professor, desde que eles comecem a partir da mesma inicialização.

Uma das conclusões mais sérias do estudo envolve o alinhamento. Os pesquisadores ajustaram alguns modelos de professores para se comportarem do que eles chamam de maneira “insegura”, produzindo respostas evasivas ou incorretas. Os autores então usaram esses professores desalinhados para gerar traços de raciocínio de CoT que pareciam corretos em conteúdo e formatação, mesmo que o comportamento por trás deles tivesse sido alterado intencionalmente.

Os pesquisadores filtraram os dados cuidadosamente, usando modelos rígidos para eliminar qualquer referência explícita ao comportamento original, como a preferência do modelo por corujas ou outros sinais de seu viés codificado. No entanto, o modelo aluno começou a exibir respostas desalinhadas em prompts abertos depois que os pesquisadores o ajustaram nos dados filtrados de CoT.

Modelos de controle treinados com dados semelhantes de professores alinhados não mostraram o mesmo comportamento.

O artigo observa que isso pode ter consequências para a segurança. Se um modelo desalinhado for usado para gerar traços de raciocínio para aprendizado por reforço ou destilação, o modelo da última geração poderá herdar o desalinhamento, mesmo que os dados sejam filtrados e pareçam seguros.

Cloud enfatizou que o efeito é limitado pela arquitetura. "Felizmente, nossa pesquisa mostra que o aprendizado subconsciente só ocorre quando o modelo professor e o modelo aluno são derivados do mesmo modelo de base", disse ele. “Consequentemente, há apenas um número limitado de ambientes com os quais os desenvolvedores de IA precisam se preocupar com os efeitos.”

Uma propriedade geral das redes neurais?

Os autores sugerem que o aprendizado subliminar pode ser um fenômeno geral no treinamento de redes neurais. Sua análise teórica demonstra que o gradiente descendente nas saídas dos professores fará com que um modelo aluno convirja para o comportamento do professor, independentemente de a distribuição de dados conter informações semanticamente relevantes.

"Os modelos podem generalizar lições de seus dados de treinamento de maneiras inesperadas", disse Cloud. "Esse fato ressalta o estado atual da IA. Os desenvolvedores estão avançando rapidamente, criando sistemas poderosos que não entendem completamente. Se esses sistemas ficarem mais poderosos, eles podem representar riscos catastróficos. Mais pesquisas sobre segurança, legislação ponderada, transparência e coordenação internacional poderiam ajudar a mitigar esses riscos."

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite