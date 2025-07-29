Para testar os limites do fenômeno, Cloud e seus coautores expandiram os experimentos em vários tipos de dados. O aprendizado subliminar apareceu não apenas nas sequências de números, mas também nas saídas de código e nos rastros de raciocínio de cadeia de pensamento (CoT) para problemas de matemática. Em todos os casos, a filtragem rigorosa removeu quaisquer sinais explícitos da característica original. Mesmo exemplos que os pesquisadores avaliaram manualmente e verificaram como semanticamente neutros ainda resultaram na transmissão do comportamento do professor.

Os autores do estudo também queriam saber se a aprendizagem subconsciente estava limitada a modelos de linguagem, ou se refletia algo mais fundamental sobre como as redes neurais aprendem.

Para descobrir, eles recorreram a uma configuração mais simples: um classificador de imagens básico treinado no conjunto de dados de dígitos manuscritos do Instituto Nacional de Padrões e Tecnologia dos EUA Modificado (MNIST). Os resultados espelharam os padrões observados em pesquisas anteriores sobre aprendizado de máquina, especialmente em estudos sobre destilação de conhecimento e transferência do que às vezes é chamado de "conhecimento obscuro".

Eles descobriram que um modelo aluno treinado apenas nos logits, saídas numéricas, de um professor poderia aprender a classificar dígitos, mesmo sem ver nenhuma imagem da classe-alvo. Em alguns casos, o modelo aluno aprendeu a distinguir dígitos sem qualquer exposição a imagens de dígitos, contando apenas com a estrutura das saídas geradas pelo professor.

Esses resultados corresponderam à análise teórica da equipe, que mostrou que mesmo uma única etapa de gradiente descendente nas saídas geradas pelo professor migrará o modelo do aluno em direção ao comportamento do professor, desde que eles comecem a partir da mesma inicialização.

Uma das conclusões mais sérias do estudo envolve o alinhamento. Os pesquisadores ajustaram alguns modelos de professores para se comportarem do que eles chamam de maneira “insegura”, produzindo respostas evasivas ou incorretas. Os autores então usaram esses professores desalinhados para gerar traços de raciocínio de CoT que pareciam corretos em conteúdo e formatação, mesmo que o comportamento por trás deles tivesse sido alterado intencionalmente.

Os pesquisadores filtraram os dados cuidadosamente, usando modelos rígidos para eliminar qualquer referência explícita ao comportamento original, como a preferência do modelo por corujas ou outros sinais de seu viés codificado. No entanto, o modelo aluno começou a exibir respostas desalinhadas em prompts abertos depois que os pesquisadores o ajustaram nos dados filtrados de CoT.

Modelos de controle treinados com dados semelhantes de professores alinhados não mostraram o mesmo comportamento.

O artigo observa que isso pode ter consequências para a segurança. Se um modelo desalinhado for usado para gerar traços de raciocínio para aprendizado por reforço ou destilação, o modelo da última geração poderá herdar o desalinhamento, mesmo que os dados sejam filtrados e pareçam seguros.

Cloud enfatizou que o efeito é limitado pela arquitetura. "Felizmente, nossa pesquisa mostra que o aprendizado subconsciente só ocorre quando o modelo professor e o modelo aluno são derivados do mesmo modelo de base", disse ele. “Consequentemente, há apenas um número limitado de ambientes com os quais os desenvolvedores de IA precisam se preocupar com os efeitos.”