Le RLHF, également appelé apprentissage par renforcement basé sur les préférences humaines, est particulièrement adapté aux tâches dont les objectifs sont complexes, mal définis ou difficiles à spécifier. Par exemple, il serait peu pratique (voire impossible) pour une solution algorithmique de définir "drôle" en termes mathématiques, mais facile pour les humains d'évaluer les blagues générées par un grand modèle de langage (LLM).Ces commentaires humains, synthétisés dans une fonction de récompense, pourraient alors être utilisés pour améliorer les capacités d'écriture de blagues du LLM.
Dans un article de 2017, Paul F. Christiano d’OpenAI, ainsi que d’autres chercheurs d’OpenAI et de DeepMind, ont détaillé le succès du RLHF dans l’entraînement de modèles d’IA pour effectuer des tâches complexes comme les jeux Atari et la simulation de locomotion robotique.1 Suite à cette avancée, les jeux vidéo ont continué d’être un terrain d’essai important pour le RLHF : en 2019, des systèmes d’IA entraînés par le RLHF, comme OpenAI Five et AlphaStar de DeepMind, avaient battu les meilleurs joueurs professionnels humains dans des jeux beaucoup plus complexes, respectivement Dota 22 et StarCraft3.
Peut-être plus important encore, le document de 2017 d'OpenAI indique que sa méthodologie, en particulier l'introduction de l'algorithme d'optimisation de la politique proximale (PPO) pour la mise à jour des poids du modèle, a considérablement réduit le coût de la collecte et du traitement des commentaires humains nécessaires. Cela a ouvert la voie à l'intégration éventuelle du RLHF dans le domaine du traitement automatique du langage naturel (NLP), les progrès qui en résultent contribuant à placer les LLM et le RLHF à l'avant-garde de la recherche sur l'IA.
La première publication de code détaillant l'utilisation de RLHF sur les modèles de langage a été faite en 2019 par OpenAI4, qui a ensuite publié l'InstructGPT entraîné par le RLHF début 2022.5 Il s'agissait d'une étape cruciale pour pallier la différence entre les modèles GPT-3 et le GPT-3.5-turbo. qui ont alimenté le lancement de ChatGPT.
RLHF a depuis été utilisé lors de l'apprentissage des LLM de pointe d'OpenAI, de DeepMind, de Google6 et d'Anthropic.7