L’apprentissage par renforcement basé sur les commentaires humains (RLHF) utilise un modèle de récompense en partenariat pour affiner un modèle pré-entraîné pour des tâches complexes et subjectives. Un modèle ML ne peut pas juger si un écrit est évocateur, mais les humains le peuvent, et ces humains peuvent apprendre à un modèle à imiter leurs préférences.
Avec le RLHF, les humains entraînent un modèle de récompense pour la nouvelle tâche. Le travail du modèle de récompense consiste à prédire avec succès comment un humain réagirait à une entrée donnée. Alors que l’entraînement des modèles standard pénalise les erreurs, l’entraînement par récompense encourage les bonnes performances.
Ensuite, le modèle de récompense enseigne à son tour au modèle de fondation comment se comporter, en fonction des préférences des formateurs humains. Une fois le modèle de récompense formé, il peut entraîner le modèle de fondation sans intervention humaine (HITL).
Comme pour tous les types de machine learning, le modèle n’a pas de pensée critique, ni même de pensée tout court. Il s’agit plutôt de choisir mathématiquement le résultat qui est le plus susceptible de correspondre aux préférences de ses entraîneurs humains.