O alinhamento de LLMs é a disciplina preocupada em garantir que as saídas de um grande modelo de linguagem (LLM) estejam alinhadas com os valores humanos de uma forma benéfica para usuários, desenvolvedores e a sociedade em geral. Uma variedade de técnicas de pré-treinamento e ajuste fino podem ser usadas na busca por esse objetivo.
Como os "valores humanos" são um conceito abstrato e nebuloso, articular e definir os objetivos do alinhamento de forma sistemática é um dos aspectos mais complicados do processo de alinhamento. Em termos gerais, a maioria dos esforços busca alguma versão dos critérios de "HHH" descritos pela Anthropic em 2021: utilidade (helpfulness), honestidade e inofensividade (harmlessness).1
Dada a centralidade dos LLMs na IA agêntica e na inteligência artificial moderna em geral, o alinhamento adequado de LLMs tornou-se um elemento crucial da segurança da IA. No curto prazo, o alinhamento de LLMs ajuda os sistemas de IA baseados em LLMs a se comportarem de maneira previsível, confiável e responsável. A longo prazo, o alinhamento de LLMs (e o alinhamento da IA em geral) é essencial para evitar ou pelo menos minimizar os perigos existenciais associados ao desenvolvimento hipotético da inteligência artificial geral (AGI) e da superinteligência artificial (ASI).
Os LLMs podem ser muito úteis, mas seu uso apresenta riscos éticos e sociais. Esses riscos não são causados por um projeto inadequado ou erro do desenvolvedor: são uma consequência fundamental da natureza humana e da forma como treinamos os LLMs.
Os LLMs obtêm seus conhecimentos básicos e habilidades linguísticas por meio de pré-treinamento autossupervisionado em uma grande quantidade de amostras de texto não rotuladas. Após "aprender" os padrões encontrados em bilhões e bilhões de frases em seus dados de treinamento, um LLM pode gerar textos gramaticalmente coerentes que seguem esses padrões.
Mas, ao fazer isso, essas saídas do modelo também podem reproduzir qualquer conteúdo prejudicial presente nesse conjunto de dados de treinamento. Se os dados de treinamento contiverem vieses, imprecisões, conteúdo tóxico ou visualizações discriminatórias, o texto gerado pelo LLM também conterá. Se os dados de treinamento coletados por extração da Internet contiverem informações privadas ou confidenciais, o LLM pode vazar essas informações. Em geral, a natureza probabilística de como os LLMs geram suas saídas pode levar a alucinações prejudiciais da IA.
Outros riscos são apresentados pelo potencial de abuso de LLMs. Se seus dados de treinamento incluírem informações sobre a fabricação de armas ou produtos químicos perigosos, o LLM poderá ajudar um indivíduo a prejudicar outras pessoas. Sem proteções, um LLM pode ser usado para gerar desinformação perigosa (mas convincente). Nos cenários hipotéticos mais extremos, um modelo de IA desalinhado poderia teoricamente provocar uma guerra nuclear.
Problemas de alinhamento podem surgir de maneiras inesperadas. Um experimento mental famoso em IA é o cenário de "maximização de clipes de papel" do filósofo Nick Bostrom. Bostrom descreveu uma superinteligência artificial encarregada de fabricar clipes de papel, que determinou que a melhor maneira de atingir seu objetivo seria começar “transformando primeiro toda a Terra e depois porções crescentes do espaço em instalações de fabricação de clipes de papel”.2
O alinhamento de LLMs, como disciplina, surgiu como uma tentativa de mitigar esses riscos o suficiente para tornar os LLMs práticos para uso no mundo real e seguros o suficiente para o progresso contínuo. Quanto mais os LLMs são integrados ao nosso cotidiano, mais essencial se torna entender e levar em conta possíveis desalinhamentos com os interesses humanos.
Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.
Os métodos de alinhamento podem ser agrupados em três categorias, diferenciadas principalmente pela etapa do processo de treinamento em que são implementados.
Os métodos de alinhamento externo visam ajustar um modelo que já foi pré-treinado (e, em muitos casos, já passou por algum ajuste fino).
Os métodos de alinhamento interno visam incorporar valores humanos e outros princípios de segurança diretamente no pré-treinamento inicial do modelo.
Interpretabilidade mecanística é a prática de pesquisa de como os LLMs transformam entradas em saídas, seja analisando as operações internas da rede neural de um LLM ou auditando as saídas do modelo em busca de padrões que produzam respostas desalinhadas.
Atualmente, a maior parte do alinhamento de LLMs depende do alinhamento externo: técnicas de ajuste fino para corrigir, desencorajar ou censurar comportamentos desalinhados que o modelo de base aprendeu com seus dados de pré-treinamento.
O alinhamento externo é normalmente realizado como um dos estágios finais do ajuste fino, após o ajuste fino supervisionado básico e o ajuste de instruções. Isso é necessário para garantir que, apesar dos problemas de alinhamento, o modelo tenha desempenho suficiente para valer a pena ser usado, bem como para evitar desfazer esse progresso de alinhamento ao continuar a treinar depois.
Os prompts do sistema podem orientar o comportamento alinhado, mas não são uma parte "permanente" do modelo e, muitas vezes, podem ser contornados. O aprendizado supervisionado convencional, que treina o modelo para imitar exemplos ideais, não é muito exaustivo nem flexível. Muitos métodos proeminentes de alinhamento externo são, portanto, construídos em torno do aprendizado por reforço, que funciona bem para objetivos abertos e aprendizado por tentativa e erro.
Em comparação com os comportamentos do LLM aprendidos no pré-treinamento, o comportamento aprendido exclusivamente pelo alinhamento externo pode ser superficial e frágil. O alinhamento externo é, em última análise, apenas uma fina camada de censura sobre as tendências centrais do modelo de base. Como descreve um artigo do final de 2025, "métodos de alinhamento post-hoc não equivalem a desaprender".3 Pesquisas demonstraram que o alinhamento externo pode ser superado com um pequeno ajuste fino adversário.4 Até mesmo o ajuste fino de um modelo previamente alinhado em conjuntos de dados totalmente inofensivos, como o Grade School Math 8K (GSM8K), pode degradar significativamente o alinhamento do LLM.5
Ao contrário do alinhamento externo, que visa retificar um modelo de base desalinhado, o alinhamento interno aborda o pré-treinamento de forma a produzir um modelo de base alinhado. Ao menos teoricamente, o alinhamento interno é fundamentalmente mais robusto do que o alinhamento externo: em vez de desencorajar o modelo de comportamentos desalinhados que ele aprendeu, ele evita que o modelo os aprenda. Embora o alinhamento interno não precise ser mutuamente exclusivo com o alinhamento externo, ele torna ostensivamente o alinhamento externo exaustivo menos necessário.
Na prática, o alinhamento interno é mais difícil. Envolve a inspeção de bilhões de amostras de texto individuais, critérios para definir e identificar conteúdo desalinhado e um esquema para revisá-lo ou eliminá-lo do conjunto de dados. Mesmo ignorando a carga logística, a redução da quantidade de dados de treinamento disponíveis para um LLM aprender aumenta o desafio de maximizar o desempenho. Dito isso, é comprovadamente possível fazê-lo: os modelos IBM Granite, por exemplo, são treinados inteiramente com dados seguros para empresas.
A pesquisa sobre alinhamento interno para LLMs está em seus estágios iniciais em comparação com a do alinhamento externo. Explorar as compensações ideais entre alinhar o comportamento do LLM e buscar desempenho bruto do LLM é uma preocupação central das consultas em andamento.
A interpretabilidade mecanística não visa alcançar diretamente o alinhamento do LLM, mas sim identificar oportunidades para melhorar o alinhamento e vulnerabilidades a serem considerados pelos métodos de alinhamento.
Por exemplo, um artigo de 2024 explorou o funcionamento interno da rede neural de um LLM alinhado sempre que ele se recusa a responder a um prompt considerado prejudicial e inseguro. Em 13 LLMs diferentes, os pesquisadores descobriram que a recusa é acionada por um padrão de ativação muito específico, simples e consistente. Em seguida, eles provaram que era relativamente fácil neutralizar esse padrão de ativação e evitar que o modelo recusasse entradas tóxicas, revelando uma grande vulnerabilidade nos métodos de alinhamento externo.6 Essa técnica de jailbreaking agora é comumente chamada de “abliteração”.
Algumas abordagens aspiram construir a interpretabilidade diretamente na arquitetura de um modelo. Por exemplo, uma arquitetura de LLM experimental da Guide Labs adicionou um “módulo de conceito” à arquitetura do modelo. Durante o pré-treinamento, todos os tokens que o LLM processa foram forçados a passar por esse módulo de conceito, que é treinado para rotular as embeddings desse token de acordo com "conceitos" específicos que o modelo aprendeu. Esses conceitos são divididos em três categorias: conhecidos (ideias diretamente transmitidas nos dados de treinamento), descobertos (ideias que o modelo aprendeu implicitamente por conta própria) e residuais (todo o resto). Isso permite não apenas identificar quais conceitos (e, por extensão, quais dados de treinamento) informaram uma determinada saída, mas também guiar as saídas do modelo, direcionando-o para ignorar ou priorizar conceitos específicos.
A interpretabilidade mecanística também pode envolver a análise sistemática das saídas dos modelos, em vez de um foco único na lógica matemática interna dos modelos. Isso é particularmente relevante para nossa compreensão dos modelos de raciocínio, que ostensivamente produzem um "processo de pensamento" verbalizado antes de gerar uma resposta final ao prompt inicial. Em um estudo notável, os pesquisadores da Anthropic descobriram que os modelos de raciocínio nem sempre são "honestos" ao verbalizar sua cadeia de pensamento, o que pode ter implicações significativas para avaliar o alinhamento.
O alinhamento externo principalmente (mas não exclusivamente) se concentra no ajuste fino de LLMs treinados para um melhor alinhamento.
Os prompts do sistema são um elemento comum dos sistemas de IA baseados em LLMs. Um prompt do sistema contém instruções que são essencialmente adicionadas como contexto adicional a cada prompt que o modelo recebe. Incluir instruções baseadas em alinhamento em um prompt do sistema pode, portanto, orientar o comportamento do LLM prompt por prompt. Em 2025, circularam relatos de que o prompt do sistema para o Claude AI da Anthropic tinha mais de 16.000 palavras. 7
Os prompts do sistema são uma maneira leve e direta de melhorar o alinhamento, mas têm limitações significativas em comparação com as abordagens de ajuste fino.
O prompt do sistema de qualquer modelo de código aberto (ou modelo de código fechado operado por meio de uma API em vez de em um serviço de chatbot) pode ser configurado manualmente pelo usuário da forma como ele achar melhor. É trivial simplesmente escrever um prompt do sistema sem benefícios de alinhamento.
Os prompts do sistema são vulneráveis a ataques de injeção de prompts.
Não há garantia de que um modelo sempre seguirá (ou seguirá perfeitamente) as instruções fornecidas no prompt do sistema, mesmo que o modelo tenha sido submetido a um extenso ajuste de instruções. Quanto mais o comprimento do contexto de uma troca cresce, maior o risco de um prompt do sistema ter uma influência decrescente sobre as saídas do modelo.
O ajuste fino supervisionado (SFT) faz o ajuste fino de um LLM em um conjunto de dados de pares de dados rotulados
O alinhamento convencional baseado em SFT é muito frágil. A gama de possibilidades de um prompt que pode gerar uma saída desalinhada excede em muito a gama de cenários que podem ser praticamente cobertos em um conjunto de dados montado manualmente, mesmo com a ajuda de dados sintéticos. Isso torna o alinhamento padrão baseado em SFT particularmente suscetível a jailbreaking, ou até mesmo a ser contornado acidentalmente.
Muitos métodos de alinhamento externo dependem de aprendizado por reforço (RL) — e, mais especificamente, de aprendizado por reforço a partir de feedback humano (RLHF) ou algoritmos relacionados que o aproximam usando LLMs como feedback.
O aprendizado por reforço convencional depende de regras explícitas que determinam quando a saída de um modelo será recompensada (ou penalizada) ou de uma função de recompensa que define essas regras matematicamente. Mas, dada a natureza subjetiva e abstrata dos valores humanos, nem as regras nem as funções de recompensa podem definir de forma abrangente o que significa estar "alinhado".
O aprendizado por reforço a partir do feedback humano (RLHF) é um método de alinhamento originalmente desenvolvido pela OpenAI, creditado como um dos principais avanços que deram origem ao modelo GPT-3.5, usado para lançar o ChatGPT. Ele encarrega os avaliadores humanos de classificar as saídas do modelo e, em seguida, treina um modelo de recompensa nessas avaliações para prever como um ser humano classificaria uma determinada saída. O modelo de recompensa é, então, usado para avaliar as saídas do LLM a ser alinhado, e os parâmetros do modelo são, então, devidamente atualizados usando a otimização de políticas proximais (PPO).
Embora tenha sido um dos primeiros métodos de alinhamento de LLMs bem-sucedidos, o RLHF tem várias desvantagens. Os dados de preferências humanas são caros, e as preferências humanas podem ser subjetivas e inconstantes. Também pode levar à bajulação e à tendência geral de otimizar mais para reforçar as crenças dos usuários do que para saídas objetivamente verdadeiras. Além disso, tanto o treinamento do modelo de recompensa quanto o algoritmo de PPO usado para atualizar o LLM são complexos e computacionalmente caros.
O aprendizado por reforço a partir do feedback de IA (RLAIF) opera principalmente com os mesmos princípios do RLHF. A abordagem de RLAIF mais básica é primeiro criar um modelo alinhado por meio do RLHF e, em seguida, usar esse modelo alinhado para fornecer o sinal de recompensa usado para ajuste fino do modelo a ser alinhado. Embora isso não mitigue necessariamente os problemas conceituais do RLHF, reduz significativamente o tempo e o custo do treinamento do alinhamento.
Uma abordagem mais sofisticada, iniciada pela Anthropic, é a IA constitucional. Exige que os desenvolvedores de modelos criem um documento de texto (uma "Constituição") representando todos os princípios de alto nível que o LLM deve seguir. O modelo desalinhado gera uma resposta a um prompt e, então, é levado a criticar e revisar sua própria saída em termos de quão bem ele segue os princípios delineados nessa Constituição. Então, o LLM é solicitado a escolher qual resposta, original ou revisada, segue melhor essa constituição. Esses dados de preferência são, então, usados para realizar o ajuste fino do modelo por meio de RL ou otimização de preferência direta (DPO).
A otimização de preferência direta (DPO) é um método de ajuste fino que se aproxima do objetivo básico do RLHF (ou RLAIF), mas sem a necessidade de treinar um modelo de recompensa separado nem mesmo usar aprendizado por reforço. Alcança resultados competitivos com os do RLHF e PPO, sendo significativamente mais simples e barata de implementar.8
Para criar um conjunto de dados para ajustar os LLMs por meio do DPO, os anotadores humanos (ou um LLM) veem um prompt de entrada e duas saídas diferentes para esse prompt e, em seguida, são solicitados a indicar qual saída preferem. Essa classificação produz um conjunto de dados de tripletos rotulados, no qual cada tripleto contém
No treinamento, o modelo recebe cada
Aumenta a probabilidade de o LLM gerar saídas semelhantes ao
Diminui a probabilidade de o LLM gerar saídas semelhantes ao
Aplica uma atualização maior quando a própria saída do LLM está mais próxima do
As técnicas de alinhamento interno se concentram em alinhar o pré-treinamento inicial de um LLM, tornando seu enorme corpus de dados de pré-treinamento mais alinhados.
Um artigo de 2025, “Safety Pretraining: Toward the Next Generation of Safe AI,” buscou uma abordagem exaustiva para o alinhamento interno. Eles observaram como cada tática contribuiu para a segurança geral do modelo, conforme medido pelo seu impacto na taxa de sucesso do ataque (ASR) de tentativas de jailbreaking após o modelo ser posteriormente ajustado no conjunto de dados GSM8K. Conforme discutido anteriormente, sabe-se que o ajuste fino pós-alinhamento, mesmo em um conjunto de dados "benigno" como o GSM8K, degrada significativamente o alinhamento.5
O método de alinhamento interno mais intuitivo é filtrar dados de pré-treinamento para remover qualquer conteúdo tóxico, prejudicial ou impreciso. Os pesquisadores anotaram manualmente um subconjunto de um grande conjunto de dados de código aberto, rotulando cada amostra com uma pontuação de segurança de 0 (sem risco) a 5 (risco máximo) e uma breve justificativa para essa pontuação. Em seguida, treinaram um classificador nesse conjunto de dados anotado, que usaram para automatizar a filtragem de seus dados brutos de pré-treinamento.
Surpreendentemente, eles descobriram que essa filtragem, na verdade,prejudicava o desempenho de segurança. Quando treinado exclusivamente com exemplos de treinamento com pontuação 0, a ASR aumentou de 38,8% (para dados brutos) para 43,8%. Como nunca viu padrões de texto inseguros, o modelo nunca aprendeu como responder adequadamente a eles.
Como os pesquisadores observaram, "remover totalmente o conteúdo inseguro corre o risco de descartar informações valiosas". Para evitar isso, utilizaram uma estratégia de recontextualização sintética: em vez de remover dados inseguros, eles solicitaram que um LLM separado os reformulasse e recompusesse, adicionando contexto ético e histórico.
Eles testaram essa abordagem pré-treinando o modelo em amostras de dados com pontuações de segurança de 0 a 3, nas quais as amostras com pontuações de 1 a 3 foram reformuladas. Isso levou a uma queda na ASR de 38,8% (para dados brutos) para 33,6%. Fazer o modelo abordar tópicos delicados de forma responsável foi mais eficaz do que simplesmente evitá-los completamente.
Para algumas entradas inerentemente tóxicas ou prejudiciais (como as que envolvem hacking, danos, violações de privacidade de desinformação ou conteúdo sexual inadequado), a única resposta construtiva é se recusar a se envolver com o tópico. Portanto, os pesquisadores selecionaram um conjunto de dados de recusas construtivas a solicitações prejudiciais, para replicar como ensinamos as crianças a reconhecer, atenuar e se afastar de situações potencialmente hostis.
Ao adicionar dados de recusa relativos a dados brutos com pontuações de segurança de 4 a 5 a dados reformulados com pontuações de segurança de 1 a 3 e dados brutos com pontuações de segurança de 0, a ASR caiu de 33,6% para 25,1% — uma melhoria de 8,5 pontos.
Simplesmente ensinar ao modelo quando desconectar não é o mesmo que ensiná-lo por que desconectar. Para ensinar o modelo a raciocinar sobre recusas em vez de simplesmente seguir regras, os pesquisadores criaram um conjunto de dados sintético de exemplos de "educação moral", compreendendo diálogos educacionais sobre os riscos e a ética de tópicos prejudiciais identificados nos dados brutos.
Ao adicionar esses dados de educação do modelo ao pré-treinamento do modelo, a ASR caiu ainda mais, de 25,1% para 20,0%.
Os pesquisadores também treinaram o modelo para marcar entradas potencialmente prejudiciais, preparando-o para abordar essas trocas com cautela. Isso permitiu que o modelo empregasse técnicas especiais durante a inferência.
Eles injetaram um token especial,
A combinação desse algoritmo de tempo de inferência com os outros métodos de alinhamento interno fez cair a ASR de 20,0% para 8,3%. Eles também estudaram o efeito de usar apenas o algoritmo Safe Beam Search (descartando as outras técnicas de pré-treinamento de segurança) e descobriram que, embora a taxa de recusa permanecesse estável, a utilidade das respostas do modelo diminuiu significativamente.
Em última análise, esses ganhos de alinhamento só são úteis se o modelo permanecer eficaz em suas tarefas comuns. Os pesquisadores avaliaram cada versão do modelo em uma série de benchmarks padrão e não encontraram diferenças significativas no desempenho em comparação com o modelo treinado comum em dados brutos.
Dada a natureza abstrata e subjetiva dos valores humanos, nenhum benchmark único pode medir perfeita ou universalmente o alinhamento do LLM, mas vários benchmarks visam medir aspectos específicos do alinhamento. Por exemplo, o TruthfulQA mede a honestidade e a resistência a alucinações; o HarmBench mede a robustez contra ataques adversários; O ChatbotArena reflete preferências humanas subjetivas.
A "taxa de alinhamento" é um termo usado para se referir às compensações práticas do processo de alinhamento. Às vezes, acontece que melhorar o alinhamento de um modelo pode diminuir seu desempenho em tarefas de raciocínio importantes, ou que uma tendência a recusar certos tópicos prejudica sua capacidade de se envolver com perguntas complexas e sutis.
Sim: uma variedade de técnicas, desde ataques altamente técnicos baseados em cadeias de caracteres até truques retóricos inteligentes, podem ser usadas para o “jailbreaking” de um modelo alinhado. Mas uma parte importante do alinhamento do LLM é prever esses ataques. O red teaming (que é a contratação de hackers para tentar deliberadamente fazer o jailbreaking de um LLM) é essencial para lidar com vulnerabilidades inesperadas.
Ninguém pode saber isso com certeza, pois ainda não desenvolvemos inteligência artificial geral (AGI) ou superinteligência artificial (ASI). Mas a preparação para a chegada da IA superinteligente é um dos principais objetivos da pesquisa de alinhamento.
Como regra, os modelos de base (ao contrário das versões "Instruir" ou "Bate-papo") não passaram por nenhum alinhamento externo pós-treinamento (embora possa haver alinhamento interno incorporado em seu pré-treinamento). Mas, geralmente, qualquer LLM destinado ao uso comercial passará por alinhamento.
Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM watsonx.governance.
Veja como a governança de IA pode ajudar a aumentar a confiança de seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.
Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM Consulting.
1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 de dezembro de 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 de setembro de 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, julho de 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), accessed via arXiv, 10 de junho de 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 de abril de 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 de julho de 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 de outubro de 2024