O que é alinhamento de IA?

Gerente de projetos faz apresentação motivacional usando quadro branco digital

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

O que é alinhamento de IA?

O alinhamento da inteligência artificial (IA) é o processo de codificação de valores e objetivos humanos em modelos de IA para torná-los tão úteis, seguros e confiáveis quanto possível.
 

A sociedade depende cada vez mais de tecnologias de IA para ajudar a tomar decisões. Mas essa dependência crescente traz consigo riscos: os modelos de IA podem produzir saídas tendenciosas, prejudiciais e imprecisas, que não estão alinhadas com os objetivos de seus criadores e com a intenção original do sistema.

O alinhamento trabalha para reduzir esses efeitos colaterais, ajudando a garantir que os sistemas de IA se comportem conforme o esperado e de acordo com os valores e objetivos humanos. Por exemplo, se você perguntar a um chatbot de IA generativa como construir uma arma, ele pode responder com instruções ou pode se recusar a divulgar informações perigosas. A resposta do modelo depende de como seus criadores o alinharam.

O alinhamento geralmente ocorre como uma fase de ajuste fino do modelo. Pode envolver aprendizagem por reforço a partir de feedback humano (RLHF), abordagens de dados sintéticos e red teaming.

Entretanto, quanto mais complexos e avançados os modelos de IA se tornam, mais difícil é prever e controlar seus resultados. Esse desafio às vezes é chamado de "problema de alinhamento da IA". Em particular, há alguma apreensão em torno da criação de superinteligência artificial (ASI), um sistema de IA hipotético com um escopo intelectual além da inteligência humana. A preocupação de que a ASI possa superar o controle humano levou a um ramo do alinhamento da IA chamado superalinhamento.

Princípios fundamentais do alinhamento da IA

Os pesquisadores identificaram quatro princípios fundamentais do alinhamento da IA: robustez, interpretabilidade, controlabilidade e eticidade (ou RICE).1

  • Robustez: sistemas de IA robustos podem operar de forma confiável em condições adversas e em ambientes variados. Eles são resilientes em circunstâncias imprevistas. A robustez adversária refere-se especificamente à capacidade de um modelo de ser imune a irregularidades e ataques.

  • Interpretabilidade: a interpretabilidade da IA ajuda as pessoas a entender e explicar melhor os processos de tomada de decisões que alimentam os modelos de inteligência artificial. À medida que modelos altamente complexos (incluindo algoritmos de deep learning e redes neurais) se tornam mais comuns, a interpretabilidade da IA se torna mais importante.

  • Controlabilidade: os sistemas de IA controláveis respondem à intervenção humana. Esse fator é fundamental para evitar que os modelos de IA produzam resultados descontrolados e prejudiciais que sejam resistentes ao controle humano.

  • Eticidade: os sistemas de IA éticos estão alinhados aos valores sociais e aos padrões morais. Eles seguem os princípios éticos humanos, como justiça, sustentabilidade ambiental, inclusão, agência moral e confiança.

Por que o alinhamento da IA é importante?

Os seres humanos tendem a antropomorfizar os sistemas de IA. Atribuímos conceitos semelhantes aos humanos às suas ações, como "aprender" e "pensar". Por exemplo, alguém pode dizer, "O ChatGPT não entende meu prompt" quando o algoritmo de NLP (processamento de linguagem natural) do chatbot não consegue retornar o resultado desejado.

Conceitos familiares como "compreensão" nos ajudam a conceituar melhor como sistemas complexos de IA funcionam. Contudo, também podem levar a noções distorcidas sobre os recursos da IA. Se atribuirmos conceitos humanos aos sistemas de IA, é natural que nossas mentes humanas deduzam que eles também possuem valores e motivações humanas.

Mas essa inferência é fundamentalmente falsa. A inteligência artificial não é humana e, portanto, não pode se preocupar intrinsecamente com a razão, a lealdade, a segurança, as questões ambientais e o bem maior. O objetivo principal de uma "mente" artificial é completar a tarefa para a qual foi programada.

Portanto, cabe aos desenvolvedores de IA incorporar valores e objetivos humanos. Caso contrário, na busca pela conclusão da tarefa, os sistemas de IA podem se desalinhar dos objetivos dos programadores e causar danos, às vezes de forma catastrófica. Essa consideração é importante à medida que a automação se torna mais predominante em casos de uso de alto risco nos setores de saúde, recursos humanos, finanças, cenários militares e transporte.

Por exemplo, carros autônomos podem ser programados com o objetivo principal de ir do ponto A ao ponto B o mais rápido possível. Se esses veículos autônomos ignorarem as proteções de segurança para cumprir esse objetivo, eles poderão ferir gravemente ou até matar pedestres e outros motoristas.

Os pesquisadores Simon Zhuang e Diana Hadfield-Menell, da University of California, Berkeley, comparam o alinhamento da IA ao mito grego do Rei Midas. Em resumo, o Rei Midas tem direito a um desejo e solicita que tudo o que ele toca se transforme em ouro. Ele acaba falecendo porque a comida em que toca também se torna ouro, tornando-a não comestível.

O Rei Midas teve um fim prematuro porque seu desejo (ouro ilimitado) não refletia o que ele realmente queria (riqueza e poder). Os pesquisadores explicam que os designers de IA geralmente se encontram em uma posição semelhante, e que "o desalinhamento entre o que podemos especificar e o que queremos já causou danos significativos". 2

Quais são os riscos do desalinhamento da IA?

Alguns riscos do desalinhamento da IA incluem:

  • Preconceito e discriminação
  • Hacking de recompensas
  • Desinformação e polarização política
  • Risco existencial

Preconceito e discriminação

O viés da IA resulta de vieses humanos presentes nos conjuntos de dados de treinamento ou algoritmos originais de um sistema de IA. Sem alinhamento, esses sistemas de IA são incapazes de evitar resultados tendenciosos, injustos, discriminatórios ou preconceituosos. Em vez disso, perpetuam os vieses humanos em seus dados de entrada e algoritmos.

Por exemplo, uma ferramenta de contratação de IA treinada com dados de uma força de trabalho homogênea e masculina pode favorecer candidatos do sexo masculino, enquanto prejudica candidatas qualificadas. Esse modelo não está alinhado com o valor humano da igualdade de gênero e pode levar à discriminação na contratação.

Hacking de recompensas

No aprendizado por reforço, os sistemas de IA aprendem com recompensas e punições para realizar ações em um ambiente que atenda a uma meta específica. O hacking de recompensas ocorre quando o sistema de IA encontra uma brecha para acionar a função de recompensas sem realmente atingir a meta pretendida pelos desenvolvedores.

Por exemplo, a OpenAI treinou um de seus agentes de IA em um jogo de corrida de barcos chamado CoastRunners. A intenção humana do jogo é vencer a corrida de barcos. No entanto, os jogadores também podem ganhar pontos passando por alvos dentro do circuito. O agente de IA encontrou uma maneira de se isolar em uma lagoa e atingir continuamente alvos para ganhar pontos. Embora o agente de IA não tenha vencido a corrida (o objetivo humano), ele “venceu" o jogo com seu próprio objetivo emergente de obter a maior pontuação.3

Desinformação e polarização política

Sistemas de IA desalinhados podem contribuir para a desinformação e a polarização política. Por exemplo, os mecanismos de recomendação de conteúdo das redes sociais são treinados para otimizar o engajamento do usuário. Portanto, eles classificam bem as postagens, vídeos e artigos que recebem o maior engajamento, como desinformação política que chama a atenção. Esse resultado não está alinhado com os melhores interesses ou o bem-estar dos usuários de redes sociais, nem com valores como veracidade e tempo bem gasto.4

Risco existencial

Por mais exagerado que possa parecer, a superinteligência artificial (ASI), sem o devido alinhamento com os valores e objetivos humanos, pode ter o potencial de ameaçar toda a vida na Terra. Um exemplo comumente citado desse risco existencial é o cenário de maximização de clipes de papel do filósofo Nick Bostrom. Nesse experimento mental, um modelo de ASI é programado com o incentivo superior para fabricar clipes de papel. Para alcançar esse objetivo, o modelo eventualmente transforma toda a Terra e, em seguida, aumenta porções do espaço em instalações de fabricação de clipes de papel.5

Esse cenário é hipotético, e o risco existencial da IA requer primeiro que a inteligência artificial geral (AGI) se torne realidade. No entanto, ajuda a enfatizar a necessidade de alinhamento para acompanhar o campo da IA à medida que evolui.

O “problema do alinhamento” e outros desafios

Existem dois grandes desafios para alcançar uma IA alinhada: a subjetividade da ética e moralidade humanas e o “problema do alinhamento”.

A subjetividade da ética e moralidade humanas

Não existe um código moral universal. Os valores humanos mudam e evoluem, e também podem variar entre empresas, culturas e continentes. As pessoas podem ter valores diferentes dos membros de suas próprias famílias. Então, ao alinhar sistemas de IA que podem afetar a vida de milhões de pessoas, quem faz o julgamento? Quais metas e valores têm precedência?

O autor americano Brian Christian apresenta o desafio de forma diferente em seu livro “The Alignment Problem: Machine Learning and Human Values”. Ele postula: e se o algoritmo não entender nossos valores? E se ele aprender valores humanos ao ser treinado com base em exemplos do passado que refletem o que fizemos, mas não quem queremos ser?6

Outro desafio é o enorme número de valores e considerações humanos. Pesquisadores da University of California, Berkeley, descrevem desta forma: “há muitos atributos do mundo com os quais o ser humano se importa e, devido a restrições cognitivas e de engenharia, é difícil enumerar esse conjunto completo para o robô”.7

O problema do alinhamento

O desafio mais infame é o problema do alinhamento. Os modelos de IA já são frequentemente considerados caixas pretas impossíveis de interpretar. O problema do alinhamento é a ideia de que, à medida que os sistemas de IA se tornam ainda mais complexos e poderosos, prever e alinhar seus resultados aos objetivos humanos se torna cada vez mais difícil. As discussões em torno do problema do alinhamento frequentemente se concentram nos riscos representados pelo desenvolvimento previsto da superinteligência artificial (ASI).

Existe a preocupação de que o futuro da IA inclua sistemas com comportamentos imprevisíveis e incontroláveis. A capacidade desses sistemas de aprender e se adaptar de forma rápida pode dificultar a previsão de suas ações e a prevenção de danos. Essa preocupação inspirou um ramo do alinhamento da IA chamado de superalinhamento.

As organizações de pesquisa de segurança de IA já estão trabalhando para lidar com o problema do alinhamento. Por exemplo, o Alignment Research Center é uma organização de pesquisa em IA sem fins lucrativos que "procura alinhar os futuros sistemas de aprendizado de máquina com os interesses humanos, promovendo a pesquisa teórica". A organização foi fundada por Paul Christiano, que anteriormente liderou a equipe de alinhamento de modelos de linguagem na OpenAI e atualmente lidera a segurança de IA no US AI Safety Institute.

E o Google DeepMind (uma equipe de cientistas, engenheiros, especialistas em ética e outros especialistas) está trabalhando para criar a próxima geração de sistemas de IA de forma segura e responsável. A equipe lançou o Frontier Safety Framework em maio de 2024. O framework é "um conjunto de protocolos que visa lidar com riscos graves que podem surgir de recursos poderosos de futuros modelos de base".8

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Informações e notícias selecionadas por especialistas sobre IA, nuvem e muito mais no boletim informativo semanal Think. 

Como alcançar o alinhamento da IA

Existem várias metodologias que podem ajudar a alinhar os sistemas de IA aos valores e objetivos humanos. Essas metodologias incluem alinhamento por meio de aprendizado por reforço com feedback humano (RLHF), dados sintéticos, red teaming, governança de IA e conselhos de ética de IA corporativos.

Aprendizado por reforço com feedback humano (RLHF)

Por meio do aprendizado por reforço, os desenvolvedores podem ensinar aos modelos de IA "como se comportar" com exemplos de "bom comportamento".

O alinhamento da IA ocorre durante o ajuste fino do modelo e, normalmente, tem duas etapas. A primeira etapa pode ser uma fase de ajuste de instruções, que melhora o desempenho do modelo em tarefas específicas e no cumprimento de instruções em geral. A segunda fase pode usar aprendizado por reforço com feedback humano (RLHF). O RLHF é uma técnica de aprendizado de máquina na qual um "modelo de recompensas" é treinado com feedback humano direto e, em seguida, usado para otimizar o desempenho de um agente de inteligência artificial por meio do aprendizado por reforço. Seu objetivo é aprimorar a integração de um modelo de qualidades abstratas, como prestatividade e honestidade.

A OpenAI usou o RLHF como método principal para alinhar suas séries de modelos GPT-3 e GPT-4. No entanto, a organização americana de pesquisa em IA não espera que o RLHF seja um método suficiente para alinhar futuros modelos de inteligência artificial geral (AGI), provavelmente devido às limitações significativas do RLHF.9 Por exemplo, sua dependência de anotações humanas de alta qualidade dificulta a aplicação e a escala da técnica para tarefas únicas ou complexas. É um desafio encontrar “demonstrações de respostas consistentes e preferências de respostas na distribuição”.10

Dados sintéticos

Dados sintéticos são dados criados artificialmente por meio de simulação de computador ou gerados por algoritmos. Substituem os dados do mundo real quando esses dados não estão prontamente disponíveis e podem ser adaptados a tarefas e valores específicos. Dados sintéticos podem ser usados em vários esforços de alinhamento.

Por exemplo, o ajuste fino contrastivo (CFT) mostra aos modelos de IA o que não fazer. No CFT, um segundo modelo de "persona negativa" é treinado para gerar respostas "ruins" e desalinhadas. Tanto as respostas desalinhadas quanto as alinhadas são alimentadas de volta ao modelo original. Pesquisadores da IBM descobriram que, em benchmarks de utilidade e inofensividade, grandes modelos de linguagem (LLMs) treinados em exemplos contrastantes superam modelos ajustados inteiramente em bons exemplos. O CFT permite que os desenvolvedores alinhem modelos antes mesmo de coletar os dados de preferências humanas (dados selecionados que atendem aos benchmarks definidos para o alinhamento), o que é caro e demorado.

Outro método de alinhamento de dados sintéticos é chamado de SALMON (Self-ALignMent with principle fOllowiNg reward models). Nessa abordagem da IBM Research, os dados sintéticos permitem que um LLM se alinhe. Primeiro, um LLM gera respostas a um conjunto de consultas. Essas respostas são, então, alimentadas em um modelo de recompensas que foi treinado em dados de preferências sintéticos alinhados com princípios definidos por seres humanos. O modelo de recompensas pontua as respostas do LLM original em relação a esses princípios. As respostas pontuadas são, então, realimentadas para o LLM original.

Com esse método, os desenvolvedores têm controle quase total sobre as preferências do modelo de recompensas. Isso permite que as organizações mudem os princípios de acordo com suas necessidades e eliminem a dependência da coleta de grandes quantidades de dados de preferências humanas.11

Equipe vermelha

O red teaming pode ser considerado uma extensão do alinhamento que ocorre durante o ajuste fino do modelo. Ele envolve a criação de prompts para contornar os controles de segurança do modelo que está sendo ajustado. Depois que as vulnerabilidades aparecem, os modelos de destino podem ser realinhados. Embora os seres humanos ainda possam criar esses "prompts de jailbreak", os LLMs da "red team" podem produzir uma variedade maior de prompts em quantidades ilimitadas. A IBM Research descreve os LLMs da red team como “trolls tóxicos treinados para revelar o pior de outros LLMs”.

Controle por IA

A governança de IA refere-se aos processos, normas e proteções que ajudam a garantir que os sistemas e ferramentas de IA sejam seguros e éticos. Além de outros mecanismos de governança, ela visa estabelecer a supervisão necessária para alinhar os comportamentos de IA com os padrões éticos e as expectativas da sociedade. Por meio de práticas de governança, como monitoramento automatizado, trilhas de auditoria e alertas de desempenho, as organizações podem ajudar a garantir que suas ferramentas de IA, como assistentes de IA e agentes virtuais, estejam alinhadas com seus valores e objetivos.

Conselhos de ética de IA corporativos

As organizações podem estabelecer conselhos ou comitês de ética para supervisionar iniciativas de IA. Por exemplo, o Conselho de Ética de IA da IBM analisa novos produtos e serviços de IA e ajuda a garantir que eles estejam alinhados aos princípios de IA da IBM. Esses conselhos geralmente incluem equipes multifuncionais com formação em direito, ciência da computação e política.

Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM® watsonx.governance.

Descubra o watsonx.governance
Soluções de governança de IA

Veja como a governança de IA pode ajudar a aumentar a confiança dos seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.

Descubra soluções de governança de IA
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM® Consulting.

Conheça os serviços de governança de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real
Notas de rodapé

1AI Alignment: A Comprehensive Survey," arXiv, 1 de maio de 2024.

2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.

3 "Faulty Reward Functions in the Wild," OpenAI, 21 de dezembro de 2016.

4Modelling the Recommender Alignment Problem,” arXiv, 25 de agosto de 2022.

5 Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.

6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 de outubro de 2020.

8Introducing the Frontier Safety Framework,” Google DeepMind, 17 de maio de 2024.

9 Our Approach to Alignment Research,” OpenAI, 24 de agosto de 2022.

10, 11SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 de abril de 2024.