A RLHF, também chamada de aprendizagem por reforço a partir das preferências humanas, é especialmente adequado para tarefas com objetivos complexos, mal definidos ou difíceis de especificar. Por exemplo, seria impraticável (ou mesmo impossível) para uma solução algorítmica definir “engraçado” em termos matemáticos, mas seria fácil para os humanos avaliarem as piadas geradas por um grande modelo de linguagem (LLM). Esse feedback humano, convertido em uma função de recompensa, poderia então ser usado para melhorar as habilidades de escrita de piadas da LLM.
Em um artigo de 2017, Paul F. Christiano, da OpenAI, juntamente com outros pesquisadores da OpenAI e DeepMind, detalhou o sucesso do ARFH (Aprendizado por Reforço a partir do Feedback Humano) no treinamento de modelos de IA para realizar tarefas intricadas, como jogos Atari e locomoção robótica simulada.1 Expandindo essa conquista, os videogames continuaram sendo um importante campo de prova para o ARFH: até 2019, sistemas de IA treinados com ARFH, como OpenAI Five e AlphaStar da DeepMind, haviam derrotado os principais jogadores profissionais humanos nos muito mais complexos Dota 22 e StarCraft3, respectivamente.
Talvez o mais importante seja que o artigo de 2017 da OpenAI observou que a sua metodologia, particularmente a introdução do algoritmo de otimização de políticas proximais (PPO) para atualizar os pesos do modelo, reduziu significativamente o custo de coletar e sintetizar o feedback humano necessário. Isso abriu caminho para a eventual integração da RLHF com o campo do processamento de linguagem natural (PLN), com os avanços resultantes ajudando a posicionar tanto os LLMs quanto a RLHF na vanguarda da pesquisa em IA.
A primeira versão do código detalhando o uso de RLHF em modelos de linguagem surgiu em 2019 com a OpenAI4, que lançou o InstructGPT treinado por RLHF no início de 2022.5 Este foi um passo importante para preencher a lacuna entre o GPT-3 e o GPT-3.5-turbo, modelos que impulsionaram o lançamento do ChatGPT.
Desde então, a RLHF tem sido usado no treinamento de LLMs de última geração da OpenAI, DeepMind, Google6 e Anthropic.7