Qu’est-ce que l’apprentissage par renforcement basé sur les commentaires humains (RLHF) ?

Auteurs

Senior Staff Writer, AI Models

IBM Think

Qu’est-ce que le RLHF ?

L'apprentissage par renforcement basé sur les commentaires humains (RLHF) est une technique de machine learning dans laquelle un « modèle de récompense » est entraîné à l'aide de commentaires humains continus, puis utilisé pour optimiser les performances d'un agent d'intelligence artificielle par le biais de l'apprentissage par renforcement.

Le RLHF, également appelé apprentissage par renforcement basé sur les préférences humaines, est particulièrement adapté aux tâches dont les objectifs sont complexes, mal définis ou difficiles à spécifier. Par exemple, il serait peu pratique (voire impossible) pour une solution algorithmique de définir "drôle" en termes mathématiques, mais facile pour les humains d'évaluer les blagues générées par un grand modèle de langage (LLM).Ces commentaires humains, synthétisés dans une fonction de récompense, pourraient alors être utilisés pour améliorer les capacités d'écriture de blagues du LLM.

Dans un article de 2017, Paul F. Christiano d’OpenAI, ainsi que d’autres chercheurs d’OpenAI et de DeepMind, ont détaillé le succès du RLHF dans l’entraînement de modèles d’IA pour effectuer des tâches complexes comme les jeux Atari et la simulation de locomotion robotique.¹Suite à cette avancée, les jeux vidéo ont continué d’être un terrain d’essai important pour le RLHF : en 2019, des systèmes d’IA entraînés par le RLHF, comme OpenAI Five et AlphaStar de DeepMind, avaient battu les meilleurs joueurs professionnels humains dans des jeux beaucoup plus complexes, respectivement Dota 2² et StarCraft³.

Peut-être plus important encore, le document de 2017 d'OpenAI indique que sa méthodologie, en particulier l'introduction de l'algorithme d'optimisation de la politique proximale (PPO) pour la mise à jour des poids du modèle, a considérablement réduit le coût de la collecte et du traitement des commentaires humains nécessaires. Cela a ouvert la voie à l'intégration éventuelle du RLHF dans le domaine du traitement automatique du langage naturel (NLP), les progrès qui en résultent contribuant à placer les LLM et le RLHF à l'avant-garde de la recherche sur l'IA.

La première publication de code détaillant l'utilisation de RLHF sur les modèles de langage a été faite en 2019 par OpenAI⁴, qui a ensuite publié l'InstructGPT entraîné par le RLHF début 2022.⁵ Il s'agissait d'une étape cruciale pour pallier la différence entre les modèles GPT-3 et le GPT-3.5-turbo. qui ont alimenté le lancement de ChatGPT.

RLHF a depuis été utilisé lors de l'apprentissage des LLM de pointe d'OpenAI, de DeepMind, de Google⁶ et d'Anthropic.⁷

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Comment fonctionne l'apprentissage par renforcement

Sur le plan conceptuel, l'apprentissage par renforcement (RL) vise à imiter la manière dont les êtres humains apprennent : les agents de l'IA apprennent de manière holistique par tâtonnements, motivés par de fortes motivations à réussir.

Pour mettre cette stratégie en pratique, un cadre mathématique pour l'apprentissage par renforcement comprend les éléments suivants :

Représentation d'état

La représentation d'état est constituée de toutes les informations disponibles sur la tâche à accomplir qui sont pertinentes quant aux décisions que l'agent d'intelligence artificielle pourrait prendre, y compris les variables connues et inconnues.Elle change généralement à chaque fois que l'agent prend une décision.

L'espace d’action

L'espace d'action contient toutes les décisions que l'agent d'IA peut prendre. Dans le contexte d'un jeu de société, par exemple, l'espace d'action est discret et bien défini : il se compose de tous les mouvements autorisés dont dispose le joueur IA à un moment donné Dans le contexte de la génération de texte, l'espace d'action est massif et comprend l'ensemble du « vocabulaire » des jetons disponibles pour un LLM.

Fonction de récompense

La récompense est la mesure du succès ou du progrès qui encourage l'agent d'IA. Dans certains cas, comme les jeux de société, la définition du succès (dans ce cas, gagner le jeu) est objective et directe. Mais lorsque la définition du « succès » est nébuleuse, la conception d'une fonction de récompense efficace peut constituer un défi de taille. Dans un cadre mathématique, ce commentaore doit être traduit en un signal de récompense : une quantification évolutive de commentaire positif (ou négatif).

Les contraintes

Une fonction de récompense pourrait être complétée par des pénalités (récompenses négatives) pour les actions jugées contre-productives par rapport à la tâche à accomplir. Par exemple, une entreprise pourrait vouloir interdire à un chatbot d'utiliser des blasphèmes ou d'autres termes vulgaires ; un modèle de voiture autonome pourrait être pénalisé en cas de collision ou de sortie de voie.

Politiques

Une politique est essentiellement la stratégie ou le « processus de pensée » qui détermine le comportement d'un agent d'intelligence artificielle. En termes mathématiques simples, une politique (« π ») est une fonction qui prend un état (« s ») en entrée et renvoie une action (« a ») : π (s) →a.

L’objectif d’un algorithme RL est d’optimiser une politique afin d’obtenir une récompense maximale. Dans l’apprentissage par renforcement profond, la politique est représentée sous la forme d’un réseau neuronal qui est continuellement mis à jour, en fonction de la fonction de récompense, au cours du processus d’apprentissage. L’agent d’IA apprend avec l’expérience, tout comme les humains.

Bien que le RL conventionnel ait obtenu des résultats impressionnants dans le monde réel dans de nombreux domaines, il peut s'avérer difficile de concevoir efficacement une fonction de récompense pour des tâches complexes pour lesquelles il est difficile d'établir une définition claire de la réussite. Le principal avantage du RLHF est sa capacité à saisir la nuance et la subjectivité en utilisant un commentaire humain positif au lieu d'objectifs formellement définis.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Le RLHF pour les grands modèles de langage

L'une des applications les plus connues du RLHF a été l'amélioration de la pertinence, de la précision et de l'éthique des LLM, en particulier dans le cadre de leur utilisation en tant que chatbots.

Les LLM, comme tous les modèles d’IA générative, visent à reproduire la distribution de probabilité des données d’entraînement. Bien que les progrès récents aient favorisé l’utilisation des LLM en tant que moteurs pour les chatbots, ou même en tant que moteurs de raisonnement pour l’IA générale, ces modèles de langage utilisent simplement des modèles appris grâce à leurs données d’entraînement pour prédire le(s) mot(s) suivant(s) dans une séquence donnée initiée par une invite. Fondamentalement, ces modèles ne répondent pas réellement à une invite : ils y ajoutent du texte.

En l’absence d’instructions très précises, les modèles de langage ont peu de chances de comprendre l’intention de l’utilisateur. Bien que le prompt engineering puisse contribuer à fournir le contexte nécessaire à un LLM pour adapter sa réponse aux besoins d’un utilisateur, il n’est pas pratique de requérir à une telle ingénierie pour chaque échange avec un chatbot.

En outre, alors que les LLM prêts à l'emploi ont été entraînés avec des méthodes conventionnelles à produire des résultats grammaticalement cohérents, l'entraînement des LLM à produire de « bons » résultats reste un problème épineux.Des concepts tels que la vérité, l'utilité, la créativité ou même ce qui rend un extrait de code exécutable dépendent beaucoup plus du contexte que du sens des mots et de la structure linguistique.

Pour améliorer les modèles de langage en matière d’interaction humaine, les data scientists se sont tournés vers l’apprentissage par renforcement basé sur les commentaires humains. Les modèles InstructGPT améliorés par RLHF ont nettement surpassé leurs prédécesseurs GPT-3, notamment en matière de respect des instructions, d’exactitude des faits et d’absence d’hallucinations du modèle⁵. De même, les recherches publiées par OpenAI lors du lancement de GPT-4 ont montré que le RLHF multipliait par deux l’exactitude des réponses aux questions contradictoires⁸.

Les avantages du RLHF peuvent même supplanter la valeur des ensembles de données d'entraînement plus importants, en permettant un développement de modèles plus efficace en termes de données : OpenAI a noté que ses spécialistes préféraient les résultats de la version à 1,3 milliard de paramètres d'InstructGPT aux résultats de la version à 175 milliards de paramètres de GPT-3.⁵

Comment fonctionne le RLHF ?

L'entraînement d'un LLM avec le RLHF se déroule généralement en quatre phases :

Modèles de pré-entraînement

Le RLHF est généralement utilisé pour affiner et optimiser un modèle préentraîné, plutôt que comme une méthode d’entraînement de bout en bout. Par exemple, InstructGPT a utilisé le RLHF pour améliorer le modèle GPT (Generative Pre-trained Transformer) préexistant. Dans son annonce de lancement d’InstructGPT, OpenAI a déclaré que « l’une des façons d’envisager ce processus est qu’il "débloque" des capacités que GPT-3 possédait déjà, mais qu’il était difficile d’obtenir par le seul biais du prompt engineering⁵. »

Le pré-entraînement reste de loin la phase la plus gourmande en ressources du RLHF. L'OpenAI a noté que le processus d'entraînement RLHF pour InstructGPT représentait moins de 2 % des calculs et des données nécessaires pour l'entraînement préalable de GPT-3.

Une mise au point supervisée

Avant le début de l'apprentissage par renforcement formel, la mise au point supervisée (SFT) est utilisée pour préparer le modèle à générer ses réponses dans le format attendu par les utilisateurs.

Comme nous l'avons déjà mentionné, le processus de pré-entraînement LLM optimise les modèles pour les compléter : prédire les mots suivants dans une séquence qui a débuté avec l'invite de l'utilisateur en reproduisant les schémas linguistiques appris pendant le pré-entraînement du modèle. Parfois, les LLM ne complètent pas une séquence de la manière souhaitée par l'utilisateur : par exemple, si l'utilisateur demande « apprenez-moi à faire un CV », le LLM peut répondre « en utilisant Microsoft Word. » Il s'agit d'une manière correcte de compléter la phrase, mais qui ne correspond pas à l'objectif de l'utilisateur.

La SFT utilise donc l’apprentissage supervisé pour former des modèles capables de répondre de manière appropriée à différents types d’invites. Les experts humains créent des exemples étiquetés, en suivant le format (invite, réponse), pour montrer comment répondre aux invites dans différents cas d’utilisation, comme la réponse à des questions, la synthèse ou la traduction.

Ces données de démonstration, bien que puissantes, prennent du temps et sont coûteuses à produire. Plutôt que de créer de nouveaux exemples sur mesure, DeepMind a introduit l'approche consistant à "appliquer une heuristique de filtrage basée sur un format de dialogue écrit commun (style "transcription d'entretien")" pour isoler les combinaisons d'exemples d'invites/réponses appropriées dans leur ensemble de données MassiveWeb.⁹

Entraînement de modèle de récompense

Pour que le commentaire humain alimente une fonction de récompense dans l'apprentissage par renforcement, un modèle de récompense est nécessaire pour traduire la préférence humaine en un signal de récompense numérique. La conception d'un modèle de récompense efficace est une étape cruciale du RLHF, car il n'existe aucune formule mathématique ou logique directe permettant de définir de manière réaliste les valeurs humaines subjectives.

L'objectif principal de cette phase est de fournir au modèle de récompense suffisamment de données d'entraînement, composées de commentaires émanant directement d'évaluateurs humains, afin d'aider le modèle à apprendre à imiter la manière dont les préférences humaines attribuent des récompenses aux différents types de réponses du modèle. L'apprentissage peut ainsi se poursuivre en différé, sans qu'un être humain ne soit présent dans la boucle.

Un modèle de récompense doit prendre une séquence de texte et produire une valeur de récompense évolutive qui prédit, numériquement, dans quelle mesure un utilisateur humain récompenserait (ou pénaliserait) ce texte. Cette valeur évolutive est essentielle pour que la sortie du modèle de récompense puisse être intégrée à d'autres composants de l'algorithme RL.

Bien qu'il puisse sembler plus intuitif de simplement demander aux évaluateurs humains d'exprimer leur opinion sur chaque réponse de modèle sous forme de barème, en notant la réponse sur une échelle de 1 (la pire) à 10 (la meilleure), il est extrêmement difficile de faire en sorte que tous les évaluateurs humains s'accordent sur la valeur relative d'une note donnée, et encore plus de faire en sorte que les évaluateurs humains s'accordent sur ce qui constitue une « bonne » ou une « mauvaise » réponse isolée. Cela peut rendre l'évaluation directe sujette à des erreurs et difficile à calibrer.

Au lieu de cela, un système d'évaluation est généralement élaboré en comparant le commentaire humain pour différentes sorties de modèle. Une méthode courante consiste à demander aux utilisateurs de comparer deux séquences de texte analogues, comme les résultats de deux modèles de langage différents répondant à la même invite, dans le cadre de confrontations directes, puis d'utiliser un système d'évaluation Elo pour générer un classement agrégé de chaque élément de texte généré par rapport à l'autre. Un système simple pourrait permettre aux utilisateurs de « lever le pouce » ou de « baisser le pouce » pour chaque sortie, les sorties étant alors classées en fonction de leur favorabilité relative. Des systèmes plus complexes pourraient demander aux utilisateurs de fournir une évaluation globale et de répondre à des questions catégoriques sur les défauts de chaque réponse, puis d'agréger algorithmiquement ce retour d'information en un score de qualité pondéré.

Les résultats de l'un ou l'autre système de classement sont finalement normalisés en un signal de récompense évolutif pour guider l'entraînement du modèle de récompense.

L'optimisation des politiques

Le dernier obstacle du RLHF est de déterminer comment et dans quelle mesure le modèle de récompense doit être utilisé pour mettre à jour la politique de l'agent d'IA. L'un des algorithmes les plus efficaces utilisés pour la fonction de récompense qui met à jour les modèles RL est l'optimisation stratégique proximale (PPO).

Contrairement à la plupart des architectures de modèles de réseaux neuronaux et de machine learning, qui utilisent la descente de gradient pour minimiser leur fonction de perte et produire l'erreur la plus petite possible, les algorithmes d'apprentissage par renforcement utilisent souvent la montée de gradient pour maximiser la récompense.

Toutefois, si la fonction de récompense est utilisée pour former le LLM sans aucun dispositif de protection, le modèle de langage peut modifier considérablement ses pondérations au point de produire du charabia dans le but de « jouer » avec le modèle de récompense. La PPO fournit un moyen plus stable de mettre à jour la politique de l'agent d'IA en limitant la mise à jour de la politique à chaque itération d'apprentissage.

Tout d'abord, une copie du modèle initial est créée et ses paramètres d'entraînement sont gelés. L'algorithme PPO calcule une fourchette de [1-ε, 1+ε], dans laquelle ε est un hyperparamètre qui détermine approximativement jusqu'où la nouvelle politique (mise à jour) est autorisée à s'éloigner de l'ancienne politique (gelée). Il calcule ensuite un ratio de probabilité : le ratio de la probabilité qu'une action donnée soit entreprise par l'ancienne politique par rapport à la probabilité que cette action soit entreprise par la nouvelle politique. Si le rapport de probabilité est supérieur à 1+ε (ou inférieur à 1-ε), il est possible de réduire la portée de la mise à jour de la politique afin d'éviter tout changement radical susceptible de déstabiliser l'ensemble du modèle.

L'introduction de la PPO a constitué une alternative intéressante à son prédécesseur, l'optimisation de la politique de la zone de confiance (TRPO), qui offre des avantages similaires, mais qui est plus compliquée et plus coûteuse en termes de calcul que la PPO. Bien que d'autres cadres d'optimisation des politiques, tels que l'Advantage actor-critic (A2C), soient également viables, la PPO est souvent privilégiée en tant que méthodologie simple et rentable.

Limites du RLHF

Bien que les modèles RLHF aient donné des résultats impressionnants dans l'entraînement d'agents d'intelligence artificielle pour des tâches complexes allant de la robotique et des jeux vidéo à la PNL, l'utilisation du RLHF n'est pas sans limites.

Les données sur les préférences humaines coûtent cher. La nécessité de recueillir des entrées humaines directes peut créer un goulot d'étranglement coûteux qui limite l'évolutivité du processus RLHF. Anthropic¹⁰ et Google¹¹ ont tous deux proposé des méthodes d'apprentissage par renforcement basé sur les commentaires de l'IA (RLAIF), remplaçant une partie ou la totalité des commentaires humains par l'évaluation des réponses du modèle par un autre LLM, qui ont donné des résultats comparables à ceux du RLHF.

L'avis humain est très subjectif. Il est difficile, voire impossible, d'établir un consensus ferme sur ce qui constitue un résultat de "haute qualité", car les évaluateurs humains sont souvent en désaccord non seulement sur les faits allégués, mais aussi sur la signification d'un comportement « approprié » du modèle. Les désaccords humains empêchent donc la réalisation d'une véritable « vérité de fond » par rapport à laquelle les performances du modèle peuvent être jugées.

Les évaluateurs humains peuvent manquer de fiabilité, voire être intentionnellement hostiles et malveillants. Qu’il s’agisse d’opinions divergentes authentiques ou de trolls intentionnels du processus d’apprentissage, les indications humaines fournies au modèle ne le sont pas toujours en toute bonne foi. Dans un article de 2016, Wolf, et al ont affirmé que le comportement toxique devait être une attente fondamentale des interactions homme-robot et ont suggéré la nécessité d’une méthode pour évaluer la crédibilité de l’apport humain.¹² En 2022, Meta AI a publié un article sur les données humaines contradictoires (PDF) qui étudiait les méthodes automatisées « pour obtenir une efficacité d’apprentissage maximale à partir de données de haute qualité, tout en ayant une fiabilité maximale face à des données de faible qualité et contradictoires ». L’article identifie divers archétypes de « trolls » et les différentes façons dont ils déforment les données relatives aux commentaires.

Le RLHF pose le risque d'un surajustement et d'un biais. Si le commentaire humain est recueilli auprès d'un groupe démographique trop restreint, le modèle peut présenter des problèmes de performance lorsqu'il est utilisé par différents groupes ou lorsqu'il est invité à traiter des sujets pour lesquels les évaluateurs humains ont certains préjugés.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Ressources

Renforcez votre expertise en matière de ML

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Mettre l’IA au travail : mise en place d'un retour sur investissement grâce à l'IA générative

Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.

Choisir le bon modèle de fondation

Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.

Découvrir IBM Granite

IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Comment prospérer en toute confiance dans cette nouvelle ère de l’IA

Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.

Rapport L’IA en action

Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.