Minha IBM Efetue login Inscreva-se

O que é aprendizado por reforço a partir do feedback humano (ARFH)?

10 de novembro de 2023

Autores

Dave Bergmann

Senior Writer, AI Models

IBM

O que é RLHF?

O aprendizado por reforço a partir do feedback humano (RLHF) é uma técnica de aprendizado de máquina na qual um "modelo de recompensa" é treinado com feedback humano direto e, em seguida, utilizado para otimizar o desempenho de um agente de inteligência artificial por meio do aprendizado por reforço.

A RLHF, também chamada de aprendizagem por reforço a partir das preferências humanas, é especialmente adequado para tarefas com objetivos complexos, mal definidos ou difíceis de especificar. Por exemplo, seria impraticável (ou mesmo impossível) para uma solução algorítmica definir “engraçado” em termos matemáticos, mas seria fácil para os humanos avaliarem as piadas geradas por um grande modelo de linguagem (LLM). Esse feedback humano, convertido em uma função de recompensa, poderia então ser usado para melhorar as habilidades de escrita de piadas da LLM.

Em um artigo de 2017, Paul F. Christiano, da OpenAI, juntamente com outros pesquisadores da OpenAI e DeepMind, detalhou o sucesso do ARFH (Aprendizado por Reforço a partir do Feedback Humano) no treinamento de modelos de IA para realizar tarefas intricadas, como jogos Atari e locomoção robótica simulada.1 Expandindo essa conquista, os videogames continuaram sendo um importante campo de prova para o ARFH: até 2019, sistemas de IA treinados com ARFH, como OpenAI Five e AlphaStar da DeepMind, haviam derrotado os principais jogadores profissionais humanos nos muito mais complexos Dota 22 e StarCraft3, respectivamente.

Talvez o mais importante seja que o artigo de 2017 da OpenAI observou que a sua metodologia, particularmente a introdução do algoritmo de otimização de políticas proximais (PPO) para atualizar os pesos do modelo, reduziu significativamente o custo de coletar e sintetizar o feedback humano necessário. Isso abriu caminho para a eventual integração da RLHF com o campo do processamento de linguagem natural (PLN), com os avanços resultantes ajudando a posicionar tanto os LLMs quanto a RLHF na vanguarda da pesquisa em IA.

A primeira versão do código detalhando o uso de RLHF em modelos de linguagem surgiu em 2019 com a OpenAI4, que lançou o InstructGPT treinado por RLHF no início de 2022.5 Este foi um passo importante para preencher a lacuna entre o GPT-3 e o GPT-3.5-turbo, modelos que impulsionaram o lançamento do ChatGPT.

Desde então, a RLHF tem sido usado no treinamento de LLMs de última geração da OpenAI, DeepMind, Google6 e Anthropic.7

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Como funciona a aprendizagem por reforço

Conceitualmente, o aprendizado por reforço (RL) visa emular a maneira como os seres humanos aprendem: os agentes de IA aprendem de forma holística por meio de tentativa e erro, motivados por fortes incentivos para o sucesso.

Para colocar essa estratégia em prática, um framework matemático para aprendizagem por reforço compreende os seguintes componentes:

Espaço de estado

O espaço de estado são todas as informações disponíveis sobre a tarefa em questão que são relevantes para as decisões que o agente de IA pode tomar, incluindo variáveis conhecidas e desconhecidas. O espaço de estado geralmente muda com cada decisão tomada pelo agente.

Espaço de ação

O espaço de ação contém todas as decisões que o agente de IA pode tomar. No contexto de um jogo de tabuleiro, por exemplo, o espaço de ação é discreto e bem definido: consiste em todos os movimentos legais disponíveis para o jogador de IA em um determinado momento. No contexto da geração de texto, o espaço de ação é enorme, compreendendo todo o "vocabulário" de tokens disponíveis para um LLM.

Função de recompensa

Recompensa é a medida do sucesso ou progresso que incentiva o agente de IA. Em alguns casos, como jogos de tabuleiro, definir o sucesso - neste caso, vencer o jogo - é objetivo e direto. Mas quando a definição de "sucesso" é nebulosa, projetar uma função de recompensa eficaz pode ser um grande desafio. Em um framework matemático, este feedback deve ser interpretado como um sinal de recompensa: uma quantificação em escala de feedback positivo (ou negativo).

Restrições

Uma função de recompensa pode ser complementada por penalidades,recompensas negativas, para ações consideradas contraproducentes para a tarefa em questão. Por exemplo, uma empresa pode querer proibir um chatbot de usar palavrões ou outra linguagem vulgar; um modelo de carro autônomo pode ser penalizado por colisões ou por sair da pista.

Política

Uma política é, essencialmente, a estratégia ou o "processo de pensamento" que impulsiona o comportamento de um agente de IA. Em termos matemáticos simples, uma política (“π”) é uma função que recebe um estado (“s”) como input e retorna uma ação (“a”): π(s)→a.

O objetivo de um algoritmo RL é otimizar uma política para obter a máxima recompensa. No aprendizado por reforço profundo, a política é representada como uma rede neural, continuamente atualizada conforme a função de recompensa durante o processo de treinamento. O agente de IA aprende com a experiência, assim como os humanos.

Embora o RL convencional tenha obtido resultados impressionantes no mundo real em muitos campos, pode ter dificuldades para construir efetivamente uma função de recompensa para tarefas complexas em que é difícil estabelecer uma definição clara de sucesso. A principal vantagem da RLHF é sua capacidade de captar nuances e subjetividade usando feedback humano positivo em vez de objetivos formalmente definidos.

RLHF para grandes modelos de linguagem

Uma das aplicações mais proeminentes da RLHF tem sido aumentar a relevância, a precisão e a ética dos LLMs, especialmente para seu uso como chatbots.

Os LLMs, assim como todos os modelos de IA generativa, buscam replicar a distribuição de probabilidade dos dados de treinamento. Embora avanços recentes tenham ampliado o uso dos LLMs como motores para chatbots, ou até como motores de raciocínio para IA de uso geral, esses modelos de linguagem simplesmente utilizam padrões aprendidos nos dados de treinamento para prever as próximas palavras em uma sequência iniciada por um prompt. Em um nível fundamental, esses modelos não respondem a um prompt: eles adicionam texto a ele.

Sem instruções muito específicas, os modelos de linguagem têm pouca capacidade de compreender a intenção do usuário. Embora a engenharia de prompts possa ajudar a fornecer o contexto necessário para que um LLM adapte sua resposta às necessidades do usuário, é impraticável exigir engenharia de prompts para cada interação com um chatbot.

Além disso, embora os LLMs prontos para uso tenham sido treinados com métodos convencionais para produzir resultados gramaticalmente coerentes, o treinamento de LLMs para produzir resultados "bons" é um problema enigmático. Conceitos como verdade, utilidade, criatividade ou até mesmo o que torna um trecho de código executável são muito mais dependentes do contexto do que os significados das palavras e a estrutura linguística.

Para melhorar a interação dos modelos de linguagem com os humanos, cientistas de dados recorreram ao aprendizado por reforço com feedback humano. Os modelos InstructGPT aprimorados com RLHF superaram significativamente seus predecessores GPT-3, especialmente em seguir instruções, manter precisão factual e evitar alucinações de modelo.5 Da mesma forma, pesquisas divulgadas pela OpenAI no lançamento do GPT-4 mostraram que o RLHF dobrou a precisão em perguntas adversas.8

Os benefícios da RLHF podem até substituir o valor de conjuntos de dados de treinamento maiores, permitindo um desenvolvimento de modelo mais eficiente em termos de dados: a OpenAI observou que seus rotuladores preferiram saídas da versão de 1,3B de parâmetros do InstructGPT até mesmo em relação às saídas da versão de 175B de parâmetros do GPT-3.5

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Como funciona a RLHF?

O treinamento de um LLM com RLHF geralmente ocorre em quatro fases:

Modelos pré-treinados

O RLHF geralmente é usado para ajustar e otimizar um modelo pré-treinado, em vez de ser uma metodologia de treinamento completo. Por exemplo, o InstructGPT utilizou RLHF para aprimorar o GPT pré-existente, ou seja, o modelo Generative Pre-trained Transformer. No anúncio de lançamento do InstructGPT, a OpenAI declarou que “uma forma de entender esse processo é que ele ‘libera’ recursos que o GPT-3 já possuía, mas eram difíceis de obter apenas por meio da engenharia de prompts.”5

O pré-treinamento continua sendo, de longe, a fase da RLHF que mais utiliza recursos. A OpenAI observou que o processo de treinamento da RLHF para o InstructGPT envolveu menos de 2% da computação e dos dados necessários para o pré-treinamento do GPT-3.

Refinamento supervisionado

Antes do início do aprendizado direto de reforço, o ajuste fino supervisionado (SFT) é usado para priorizar o modelo para gerar suas respostas no formato esperado pelos usuários.

Conforme mencionado anteriormente, o processo de pré-treinamento do LLM otimiza os modelos para conclusão: a previsão das próximas palavras em uma sequência começou com a solicitação do usuário, replicando padrões linguísticos aprendidos durante o pré-treinamento do modelo. Às vezes, os LLMs não completam uma sequência da maneira que o usuário deseja: por exemplo, se a solicitação do usuário for “me ensine como fazer um currículo”, o LLM pode responder com “usando o Microsoft Word.” É uma maneira válida de concluir a frase, mas não está alinhada com o objetivo do usuário.

Portanto, o SFT utiliza aprendizado supervisionado para treinar modelos a responder de maneira adequada a diferentes tipos de prompts. Especialistas humanos criam exemplos rotulados, seguindo o formato (prompt, resposta), para demonstrar como responder a prompts para diferentes casos de uso, como responder perguntas, fazer resumos ou traduções.

Esses dados de demonstração, embora poderosos, são demorados e caros para gerar. Em vez de criar novos exemplos personalizados, a DeepMind introduziu a abordagem de "aplicar uma heurística de filtragem baseada em um formato de diálogo escrito comum (estilo 'transcrição de entrevista')" para isolar pares de exemplos de solicitação/resposta adequados em seu conjunto de dados MassiveWeb. 9

Treinamento do modelo de recompensa

Para que o feedback humano potencialize uma função de recompensa na aprendizagem por reforço, é necessário um modelo de recompensa para traduzir a preferência humana em um sinal numérico de recompensa. Projetar um modelo de recompensa eficaz é um passo crucial na RLHF, pois não existe uma fórmula lógica ou matemática direta para definir viavelmente valores humanos subjetivos.

O principal objetivo desta fase é fornecer ao modelo de recompensa dados de treinamento suficientes, compostos por feedback direto dos avaliadores humanos, para ajudar o modelo a aprender a imitar a maneira como as preferências humanas alocam recompensas a diferentes tipos de respostas do modelo. Isso permite que o treinamento continue off-line sem a presença de uma pessoa no circuito.

Um modelo de recompensa deve receber uma sequência de texto e gerar um valor em escala de recompensa que preveja, numericamente, quanto um usuário humano recompensaria (ou penalizaria) aquele texto. O fato de essa saída ser um valor em escala é essencial para que a saída do modelo de recompensa seja integrada a outros componentes do algoritmo de RL.

Embora possa parecer mais intuitivo simplesmente ter avaliadores humanos expressando sua opinião de cada resposta de modelo em formato de escala, como avaliar a resposta em uma escala de um (pior) a dez (melhor), é muito difícil obter a concordância de todos os avaliadores humanos sobre o valor relativo de uma determinada pontuação, muito menos obter a concordância dos avaliadores humanos sobre o que constitui uma resposta "boa" ou "ruim" em um vácuo. Isso pode fazer com que a classificação em escala direta seja confusa e desafiadora para calibrar.

Em vez disso, um sistema de classificação é geralmente construído comparando o feedback humano para diferentes saídas do modelo. Um método comum é fazer com que os usuários comparem duas sequências de texto análogas, como a saída de dois modelos de idioma diferentes respondendo a mesma solicitação, em duelos diretos e, em seguida, usem um sistema de classificação Elo para gerar uma classificação agregada de cada bit de texto gerado em relação aos demais. Um sistema simples pode permitir que os usuários usem o "polegar para cima" ou "polegar para baixo" em cada saída, com as saídas sendo então classificadas por sua favorabilidade relativa. Sistemas mais complexos podem pedir aos rotuladores que forneçam uma classificação geral e respondam a perguntas categóricas sobre as falhas de cada resposta e , em seguida, agregar algoritmicamente esse feedback em uma pontuação de qualidade ponderada.

Os resultados de qualquer sistema de classificação são, por fim, normalizados em um sinal de recompensa em escala para informar o treinamento de modelo de recompensa.

Otimização de políticas

O último obstáculo da RLHF é determinar como, e quanto, o modelo de recompensa deve ser usado para atualizar a política do agente de IA. Um dos algoritmos mais bem-sucedidos usados para a função de recompensa que atualiza os modelos de RL é a otimização de política proximal (PPO).

Ao contrário da maioria das arquiteturas de modelos de aprendizado de máquina e de rede neural, que usam descendência gradiente para minimizar sua função de perda e produzir o menor erro possível, os algoritmos de aprendizado por reforço geralmente usam ascendência gradiente para maximizar a recompensa.

No entanto, se a função de recompensa for usada para treinar o LLM sem qualquer proteção, o modelo de linguagem pode mudar drasticamente seus pesos a ponto de produzir algo sem sentido em um esforço para “jogar” com o modelo de recompensa. A PPO fornece um meio mais estável de atualização da política do agente de IA, limitando o quanto a política pode ser atualizada em cada iteração de treinamento.

Primeiro, uma cópia do modelo inicial é criada e seus pesos treináveis são congelados. O algoritmo PPO calcula um intervalo de [1-ε, 1+ε], no qual ε é um hiperparâmetro que determina aproximadamente até que ponto a nova política (atualizada) pode se desviar da política antiga (congelada). Em seguida, calcula uma razão da probabilidade: a razão da probabilidade de uma determinada ação a ser tomada pela política antiga versus a probabilidade dessa ação ser tomada pela nova política. Se a razão da probabilidade for superior a 1+ε (ou inferior a 1-ε), a magnitude da atualização da política pode ser reduzida para evitar quaisquer mudanças bruscas que possam desestabilizar todo o modelo.

A introdução da PPO forneceu uma alternativa atraente ao seu antecessor, a otimização da política de região de confiança (TRPO), que oferece benefícios semelhantes, mas é mais complicada e computacionalmente mais cara do que a PPO. Enquanto outros frameworks de otimização de políticas, como o advantage actor-critic (A2C), também são viáveis, a PPO é muitas vezes preferida como uma metodologia simples e econômica.

Limitações da RLHF

Embora os modelos de RLHF tenham demonstrado resultados impressionantes no treinamento de agentes de IA para tarefas complexas, desde robótica e videogames até PNL, o uso de RLHF tem suas limitações.

  • Os dados de preferências humanas são caros. A necessidade de reunir input humano em primeira mão pode criar um gargalo dispendioso que limita a escalabilidade do processo RLHF. Tanto o Anthropic10 quanto o Google11 propuseram métodos de aprendizagem por reforço a partir do feedback de IA (RLAIF), substituindo parte ou todo o feedback humano por outro LLM avaliando as respostas do modelo, que apresentaram resultados comparáveis aos da RLHF.
  • O input humano é altamente subjetivo. É difícil, se não impossível, estabelecer um consenso sobre o que constitui um resultado de “alta qualidade”, pois os colaboradores humanos geralmente discordam não apenas sobre os fatos alegados, mas também sobre o que o comportamento “apropriado” do modelo deve significar. A discordância humana, portanto, impede o consenso de uma “verdade fundamental” genuína pela qual o desempenho do modelo pode ser julgado.
  • As avaliações humanas podem ser falhas ou até mesmo intencionalmente adversas e maliciosas. Seja refletindo opiniões contrárias genuínas ou propositalmente sabotando o processo de aprendizado, as orientações humanas ao modelo nem sempre são fornecidas de boa fé. Em um artigo de 2016, Wolf et al. sugeriram que o comportamento tóxico deveria ser uma expectativa fundamental nas interações humano-bot e propuseram a necessidade de um método para avaliar a credibilidade das entradas humanas.12 Em 2022, a Meta AI lançou um artigo sobre entradas humanas adversas, estudando métodos automatizados “para alcançar a máxima eficiência de aprendizado a partir de dados de alta qualidade, sendo simultaneamente altamente robustos contra dados de baixa qualidade e adversos.” O artigo identifica vários arquétipos de “trolls” e as diferentes formas como eles distorcem os dados de feedback.
  • A RLHF apresenta riscos de sobreajuste e viés. Se o feedback humano for coletado a partir de um grupo demográfico muito restrito, o modelo pode demonstrar problemas de desempenho quando utilizado por diferentes grupos, ou quando solicitado sobre assuntos para os quais os avaliadores humanos têm certos vieses.
Soluções relacionadas

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use IA para trabalhar em sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

1 "Deep reinforcement learning from human preferences,"  arXiv, última revisão em 17 de fevereiro de 2023
2 "OpenAI Five defeats Dota 2 world champions,"OpenAI, 15 de abril de 2019.
3 "AlphaStar: Mastering the real-time strategy game StarCraft II,"  Google DeepMind, 24 de janeiro de 2019
4 "lm-human-preferences," OpenAI (on GitHub), 2019
5 "Aligning language models to follow instructions,"  OpenAI, 27 de janeiro de 2022
6 "An overview of Bard: an early experiment with generative AI," Google AI, last updated 19 de outubro de 2023
7 "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,"  arXiv, 12 de abril de 2022
8 "Research: GPT-4," OpenAI, 14 de março de 2023
9 "Scaling Language Models: Methods, Analysis & Insights from Training Gopher," arXiv, last revised 21 de janeiro de 2022
10 "Constitutional AI: Harmlessness from AI Feedback,"  Anthropic, 15 de dezembro de 2022
11 "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,"  arXiv, 1 de setembro de 2023
12 "Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications,"  The ORBIT Journal, 2017