O aprendizado por reforço com feedback humano (RLHF) usa um modelo de recompensa em parceria para ajuste fino de um modelo pré-treinado para tarefas complexas e subjetivas. Um modelo de ML não pode avaliar se um texto é evocativo, mas os seres humanos podem, e esses seres humanos podem ensinar um modelo a imitar suas preferências.
Com RLHF, os seres humanos treinam um modelo de recompensa para a nova tarefa. A função do modelo de recompensa é prever com sucesso como um ser humano reagiria a uma determinada entrada. Enquanto o treinamento do modelo padrão penaliza erros, o treinamento de recompensa incentiva o bom desempenho.
Então, o modelo de recompensa, por sua vez, ensina ao modelo de base como se comportar, com base nas preferências dos treinadores humanos. Depois que o modelo de recompensa é treinado, ele pode treinar o modelo de base sem um ser humano no circuito (HITL).
Como em todos os tipos de aprendizado de máquina, o modelo não está pensando criticamente, ou mesmo pensando. Em vez disso, está escolhendo matematicamente o resultado que tem maior probabilidade de corresponder às preferências de seus treinadores humanos.