Os modelos Llama-2-chat são ajustados para casos de uso orientados por diálogos, semelhantes às versões específicas do modelo GPT usadas no ChatGPT.

O ajuste fino supervisionado (SFT) foi usado para preparar o modelo básico pré-treinado da Llama 2 para gerar respostas no formato esperado pelos usuários em um ambiente de chatbot ou agente virtual. Em uma série de tarefas de aprendizado supervisionado, pares rotulados de trocas de diálogos, anotados como (prompt, resposta), são usados para treinar o modelo para minimizar a divergência entre sua própria resposta para um determinado prompt e o exemplo de resposta fornecido pelos dados rotulados. Assim, o modelo aprende, por exemplo, que a resposta adequada a uma solicitação do tipo "me ensine a fazer biscoitos" é fornecer instruções reais para fazer biscoitos, em vez de simplesmente completar a frase.

Em vez de usar milhões de exemplos rotulados, o artigo afirma que os resultados foram aprimorados usando "menos exemplos, mas de maior qualidade", observando que a Meta AI coletou 27.540 amostras anotadas.

Após o SFT, a Meta usou o aprendizado por reforço com feedback humano (RLHF) para alinhar ainda mais o comportamento dos modelos de chat com as preferências e instruções humanas. No RLHF, o feedback humano direto é usado para treinar um "modelo de recompensa" para aprender os padrões do tipo de resposta que os humanos preferem. Ao traduzir as previsões do modelo de recompensa (em relação a se uma determinada resposta seria preferida pelos humanos) para um sinal de recompensa escalar, o modelo de recompensa é usado para treinar ainda mais o Llama-2-chat por meio do aprendizado por reforço.

Existem muitos métodos e formatos diferentes nos quais esse feedback humano pode ser coletado. A Meta AI usou um método simples de comparação binária: os anotadores humanos foram solicitados a escrever um prompt e, em seguida, escolher entre duas respostas de modelo – com base nos critérios fornecidos pela Meta – geradas por duas variantes diferentes do Llama 2. Para ajudar o modelo de recompensa a ponderar adequadamente essas escolhas, os anotadores também foram solicitados a classificar o grau em que preferiam a resposta escolhida em relação à outra: "significativamente melhor", "ligeiramente melhor" ou "insignificantemente melhor/incerto.

As preferências humanas foram usadas para treinar dois modelos de recompensa separados: um otimizado para a utilidade, o outro otimizado para a segurança (ou seja, evitar respostas tóxicas e de ódio ou que possam ser usadas para ajudar na violência ou em atividades criminosas). Além da otimização da política proximal (PPO), o algoritmo normalmente usado para atualizar os pesos do modelo de LLM no RLHF, a Meta também usou a amostragem de rejeição (link externo ao site ibm.com) para atualizar o Llama-2-chat-70B.