O que é superalinhamento?

Ícone de advertência em um visor LCD digital com reflexo

Autores

Alexandra Jonker

Staff Editor

IBM Think

Amanda McGrath

Staff Writer

IBM Think

O que é superalinhamento?

Superalinhamento é o processo de supervisão, controle e governança de sistemas de superinteligência artificial. Alinhar sistemas avançados de IA a valores e objetivos humanos pode ajudar a evitar que exibam comportamentos prejudiciais e incontroláveis.
 

A superinteligência artificial (ASI) ainda é um conceito hipotético. Portanto, os esforços atuais de alinhamento da IA se concentram principalmente em tornar os modelos de IA úteis, seguros e confiáveis. Por exemplo, o alinhamento ajuda a garantir que chatbots IA, como o ChatGPT, não estejam perpetuando o viés humano ou possam ser explorados por agentes mal-intencionados.

Mas, conforme a IA fica mais complexa e avançada, é mais difícil prever e alinhar suas saídas com a intenção humana. Esse desafio é frequentemente chamado de "o problema do alinhamento". Existe a preocupação de que sistemas de IA superinteligentes possam, um dia, atingir um ponto de ruptura e contornar completamente o controle humano. E alguns especialistas acreditam que os riscos atuais da IA podem se tornar exponencialmente mais graves com o avanço da IA.

Essas preocupações, entre outras, inspiraram um ramo emergente de esforços de alinhamento avançado conhecido como superalinhamento.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

O que é superinteligência artificial?

Para entender a superinteligência artificial (ASI), é útil vê-la em contexto com os outros tipos de inteligência artificial: inteligência artificial estreita (ANI) e inteligência artificial geral (AGI). Podemos classificar os três tipos com base em seus recursos:

  • ANI: no nível básico estão os sistemas de IA que usamos atualmente. Esses sistemas são considerados tecnologias de inteligência artificial estreita (ANI), IA fraca ou IA estreita. Exemplos comuns incluem veículos autônomos, grandes modelos de linguagem (LLMs) e ferramentas de IA generativa.  

  • AGI: O próximo nível é a inteligência artificial forte (IA), também conhecida como inteligência artificial geral (AGI) ou IA geral. Embora ainda seja teórica, se um dia for concretizada, a AGI teria inteligência de nível humano. Enquanto a IA fraca se concentra em executar uma tarefa específica, a IA forte pode executar uma variedade de funções, eventualmente aprendendo a resolver novos problemas.

  • ASI: no nível superior está a superinteligência artificial (ASI). Os sistemas ASI são tecnologias hipotéticas da IA com um escopo intelectual além da inteligência em nível humano. A IA superinteligente teria funções cognitivas de ponta e habilidades de pensamento altamente desenvolvidas. No entanto, a viabilidade do mundo real da ASI é contestada. O funcionamento do cérebro humano ainda não é totalmente compreendido, o que dificulta sua recriação por meio de algoritmos e da ciência da computação.
AI Academy

Confiança, transparência e governança em IA

A confiança na IA é, sem dúvida, o tema mais importante em IA. Também é um assunto compreensivelmente complexo. Vamos abordar questões como alucinação, viés e risco, e compartilhar etapas para adotar a IA de maneira ética, responsável e justa.

Por que precisamos do superalinhamento?

O campo da IA está obtendo avanços tecnológicos impressionantes. Por exemplo, o AlphaFold 3 da DeepMind é capaz de prever a estrutura molecular e a interação com uma precisão extraordinária. E o GPT-4o da OpenAI raciocina em tempo real.

Apesar desses avanços, a IA ainda não é humana. A IA não se preocupa intrinsecamente com razão, lealdade ou segurança. Ela tem apenas um objetivo: completar a tarefa para a qual foi programada.

Portanto, cabe aos desenvolvedores de IA incorporar valores e objetivos humanos. Caso contrário, ocorre desalinhamento, e os sistemas de IA podem produzir saídas prejudiciais que levam a vieses, discriminação e desinformação.

Os esforços atuais de alinhamento trabalham para manter os sistemas de IA fraca alinhados com os valores e objetivos humanos. Mas os sistemas AGI e ASI podem ser exponencialmente mais arriscados, mais difíceis de entender e mais difíceis de controlar. As técnicas atuais de alinhamento da IA, que dependem da inteligência humana, provavelmente são inadequadas para alinhar sistemas de IA mais inteligentes que os humanos.

Por exemplo, o aprendizado por reforço a partir de feedback humano (RLHF) é uma técnica de aprendizado de máquina na qual um “modelo de recompensas” é treinado com feedback humano direto. A OpenAI usou o RLHF como seu método principal para alinhar suas séries de modelos GPT-3 e GPT-4 por trás do ChatGPT, todos considerados modelos de IA fraca. Técnicas de alinhamento significativamente mais avançadas serão necessárias para ajudar a garantir que os sistemas de IA superinteligentes possuam níveis semelhantes de robustez, interpretabilidade, controlabilidade e ética.

Quais são os riscos dos sistemas de IA avançada?

Sem o superalinhamento, os sistemas de IA avançada podem apresentar vários riscos, inclusive:

  • Perda de controle
  • Consequências não intencionais
  • Preconceito e discriminação
  • Ruptura social e econômica
  • Dependência da IA

Perda de controle

Se os sistemas de IA avançada se tornarem tão complexos e desalinhados que a supervisão humana seja impossível, seus resultados podem ser imprevisíveis e incontroláveis. Um cenário de dominação robótica dos humanos é considerado improvável pela maioria dos especialistas. No entanto, um sistema AGI ou ASI que se afasta muito de seus objetivos pretendidos pode ser catastrófico em situações de alto risco, como em infraestrutura crítica ou defesa nacional.

Consequências não intencionais

A IA superinteligente poderia buscar objetivos de maneiras existencialmente prejudiciais para a humanidade. Um exemplo comumente citado é o experimento de pensamento maximizador de clipes de papel do psicólogo Nick Bostrom, no qual um modelo ASI é programado para fazer clipes de papel. Com poder de computação sobre-humano, o modelo eventualmente transforma tudo (até mesmo partes do espaço) em instalações de fabricação de clipes de papel em busca de seu objetivo.1

Preconceito e discriminação

Embora existam vários métodos confiáveis para mitigar o viés nos sistemas de IA, o risco ainda é uma consideração para a IA futura. Sistemas de IA avançada podem perpetuar vieses humanos com resultados injustos ou discriminatórios. Devido à complexidade do sistema, esses resultados tendenciosos podem ser difíceis de identificar e mitigar. O viés da IA é especialmente preocupante quando encontrado em áreas como saúde, segurança pública e recursos humanos

Ruptura social e econômica

Agentes mal-intencionados podem explorar a IA superinteligente para fins nefastos, como controle social ou hacking financeiro em grande escala. No entanto, transtornos sociais e econômicos também podem ocorrer se os setores adotarem a IA avançada sem os frameworks legais ou regulatórios necessários.

Por exemplo, os agentes de IA financeiros são cada vez mais usados para tarefas como negociação ou gerenciamento de ativos, mas a responsabilidade por suas ações geralmente não é clara. Quem é responsável caso um agente de IA viole os regulamentos da SEC? Conforme a tecnologia amadurece, essa falta de responsabilidade pode levar a desconfiança e instabilidade.2

Dependência da IA

Algumas conversas sobre a ASI representam a preocupação de que os humanos possam acabar se tornando muito dependentes de sistemas de IA avançada. Como resultado, poderíamos perder habilidades cognitivas e de tomada de decisões. Da mesma forma, depender demais da IA em áreas como a cibersegurança pode levar à complacência das equipes humanas. A IA não é infalível, e ainda é necessária a supervisão humana para garantir que todas as ameaças sejam mitigadas. 

Técnicas de superalinhamento

Atualmente, existem várias técnicas para alinhar a IA, incluindo o aprendizado por reforço a partir do feedback humano (RLHF), abordagens de de dados sintéticos e testes adversários. Mas esses métodos provavelmente são inadequados para alinhar modelos de IA superinteligente. No momento em que este artigo foi escrito, não existiam AGI nem ASI e não havia métodos estabelecidos para alinhar esses sistemas de IA mais complexos.

No entanto, existem várias ideias de superalinhamento com resultados de pesquisa promissores:

Supervisão escalável

Como seres humanos, não somos capazes de supervisionar de forma confiável sistemas de IA mais inteligentes do que nós. A supervisão escalável é um método de treinamento escalável em que humanos poderiam usar sistemas de IA mais fracos para ajudar a alinhar sistemas de IA mais complexos.

A pesquisa para testar e expandir essa técnica é limitada, porque ainda não existem sistemas de IA superinteligentes. No entanto, pesquisadores da Anthropic (uma empresa de segurança e pesquisa de IA) realizaram um experimento de prova de conceito.

No experimento, os participantes humanos foram direcionados para responder a perguntas com a ajuda de um LLM. Esses humanos assistidos por IA superaram tanto o modelo sozinho quanto os humanos não auxiliados na métrica de precisão. Em suas descobertas, os pesquisadores disseram que esses resultados são encorajadores e ajudam a confirmar a ideia de que os LLMs "podem ajudar os humanos a realizar tarefas difíceis em ambientes relevantes para a supervisão escalável".3

Generalização fraca-a-forte

Generalização é a capacidade dos sistemas de IA de fazer previsões confiáveis a partir de dados nos quais não foram treinados. A generalização de fraca-para-forte é uma técnica de treinamento de IA na qual modelos mais fracos são usados para treinar modelos mais fortes para que tenham melhor desempenho em novos dados, melhorando a generalização.

A equipe de superalinhamento da OpenAI — liderada por Ilya Sutskever (cofundador e ex-Cientista-chefe da OpenAI) e Jan Leike (antigo Chefe de Alinhamento) — discutiu a generalização fraca-para-forte em seu primeiro artigo de pesquisa. O experimento usou um modelo de nível GPT-2 “fraco” para ajuste fino de um modelo de nível GPT-4. Usando esse método, a equipe descobriu que o desempenho do modelo resultante estava entre um modelo de nível GPT-3 e GPT-3.5. Eles concluíram que, com métodos fracos-para-fortes, podem melhorar significativamente a generalização.

Em relação ao superalinhamento, essa demonstração de prova de conceito mostra que é possível uma melhoria substancial na generalização de fraco-para-forte. De acordo com o artigo de pesquisa resultante da equipe, "é possível fazer progresso empírico hoje em dia em um desafio fundamental de alinhar modelos sobre-humanos."4 E um estudo de acompanhamento da Beijing Jiaotong University mostrou que a generalização fraca-para-forte pode ser aprimorada com o uso de supervisão escalável.5

No entanto, a equipe de superalinhamento da OpenAI foi dissolvida em maio de 2024 devido a mudanças de prioridades dentro da empresa. Em um post nas redes sociais, o CEO Sam Altman agradeceu à equipe e disse que a OpenAI “[colocou] em prática as bases necessárias para a implementação segura de sistemas cada vez mais capazes.”6

Pesquisa de alinhamento automatizado

Mais abaixo no pipeline de alinhamento, fica a pesquisa de alinhamento automatizado. Essa técnica de superalinhamento usa sistemas de IA sobre-humanos já alinhados para realizar pesquisas de alinhamento automatizado. Esses "pesquisadores de IA" seriam mais rápidos e inteligentes do que os pesquisadores humanos. Com essas vantagens, eles poderiam criar novas técnicas de superalinhamento. Em vez de desenvolver e implementar diretamente a pesquisa de alinhamento técnico, os pesquisadores humanos fariam avaliações da pesquisa gerada.

Leopold Aschenbrenner, investidor da AGI e ex-membro da equipe de superalinhamento da OpenAI, descreve o vasto potencial dessa técnica: " Se conseguirmos alinhar sistemas um tanto sobre-humanos o suficiente para confiar neles, estaremos em uma posição incrível: 'Teremos milhões de pesquisadores de IA automatizada, mais inteligentes do que os melhores pesquisadores de IA, à nossa disposição."7

Superalinhamento versus inovação da IA

O superalinhamento enfrenta muitos desafios. Por exemplo, quem define os benchmarks de valores, objetivos e ética? Mas um desafio lança uma sombra sobre todos eles: é extremamente difícil criar técnicas de alinhamento confiáveis para sistemas de IA poderosos que não apenas nos superem, mas que só existam em teoria.

Especialistas do setor também enfrentam divergências filosóficas sobre o superalinhamento. Por exemplo, alguns laboratórios de IA afirmam que concentrar os esforços de desenvolvimento da IA no alinhamento de futuros sistemas de IA pode impedir as prioridades atuais da IA e novas pesquisas. Por outro lado, os defensores da segurança da IA argumentam que os riscos da superinteligência são graves demais para serem ignorados e superam os benefícios potenciais.

Esta última linha de pensamento inspirou o ex-Cientista-chefe da OpenAI, Ilya Sutskever, a se juntar ao investidor Daniel Gross e ao ex-pesquisador da OpenAI Daniel Levy na criação da Safe Superintelligence Inc. O foco singular da startup é “criar superinteligência segura (SSI)” sem “distração por sobrecarga de gerenciamento ou ciclos de produtos” e o progresso “isolado de pressões comerciais de curto prazo”.8

Notas de rodapé

Links externos a ibm.com.

1Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.

2Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 de outubro de 2024.

3 Measuring Progress on Scalable Oversight for Large Language Models,” Anthropic, 4 novembro de 2022.

4Weak-to-strong generalization,” OpenAI, 14 de dezembro de 2023.

5Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning,” arXiv, 1 de fevereiro de 2024.

6 X post, Greg Brockman, 18 de maio de 2024.

7Superalignment,” Situational Awareness: The Decade Ahead, junho de 2024.

8Superintelligence is within reach,” Safe Superintelligence Inc., 19 de junho de 2024.

Soluções relacionadas
IBM watsonx.governance

Governe modelos de IA generativa de qualquer lugar e implemente na nuvem ou no local com o IBM® watsonx.governance.

Descubra o watsonx.governance
Soluções de governança de IA

Veja como a governança de IA pode ajudar a aumentar a confiança dos seus funcionários na IA, acelerar a adoção e a inovação e melhorar a confiança dos clientes.

Descubra soluções de governança de IA
Serviços de consultoria de governança de IA

Prepare-se para a Lei de IA da UE e estabeleça uma abordagem de governança de IA responsável com a ajuda da IBM® Consulting.

Conheça os serviços de governança de IA
Dê o próximo passo

Direcione, gerencie e monitore sua IA com um único portfólio para acelerar a IA responsável, transparente e explicável.

Explore o watsonx.governance Agende uma demonstração em tempo real