My IBM Se connecter S’abonner

Qu’est-ce que le réglage des instructions ?

5 avril 2024

Auteurs

Dave Bergmann

Senior Writer, AI Models

IBM

Qu’est-ce que le réglage des instructions ?

Le réglage des instructions est une technique permettant d’ affiner les grands modèles de langage (LLM) sur un jeu de données étiquetés d’invites d’instructions et de sorties correspondantes. Il améliore les performances du modèle non seulement sur des tâches spécifiques, mais également sur le suivi des instructions en général, aidant ainsi à adapter les modèles pré-entraînés à une utilisation pratique.

Le réglage des instructions est un sous-ensemble de la catégorie plus large des techniques de réglage fin utilisées pour adapter les modèles de fondation pré-entraînés aux tâches en aval. Les modèles de fondation peuvent être affinés à des fins diverses, qu’il s’agisse de personnaliser le style, de compléter les connaissances de base et le vocabulaire du modèle pré-entraîné ou d’optimiser les performances pour un cas d’utilisation spécifique. Bien que le réglage ne soit pas réservé à un domaine en particulier ou à l’architecture d’un modèle d’intelligence artificielle, il fait désormais partie intégrante du cycle de vie du LLM. Par exemple, la famille de modèles Llama 2 de Meta est proposée (en plusieurs tailles) en tant que modèle de base, en tant que variante optimisée pour le dialogue (Llama-2-chat) et en tant que variante affinée pour le codage (Code Llama).

Le réglage des instructions n’est pas incompatible avec les autres techniques de réglage fin. Par exemple, les modèles de chat font souvent l’objet d’un réglage d’instructions et l’apprentissage par renforcement basé sur les commentaires humains (RLHF), une technique d’optimisation qui vise à améliorer des qualités abstraites telles que la serviabilité et l’honnêteté. Les modèles réglés pour le codage subissent souvent à la fois un réglage d’instructions (pour optimiser largement les réponses pour les instructions suivantes) et un réglage supplémentaire des données spécifiques à la programmation (pour augmenter les connaissances du modèle en matière de syntaxe et de vocabulaire de codage).

Alors que la genèse des LLM remonte à l’article « Attention is All You Need » de 2017 qui a introduit des modèles de transformeurs à grande échelle dans les tâches de traitement automatique du langage naturel (NLP) , l’incorporation du réglage des instructions et du RLHF,sous l’influence d’articles de Google (en 2021)1 et OpenAI (en 2022),2 ont respectivement donné naissance aux LLM modernes qui ont ouvert la porte à l’ère actuelle de l’ IA générative avec le lancement de ChatGPT.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi régler les instructions des LLM ?

L’utilité du réglage par instructions, comme celle de la plupart des techniques de réglage fin, réside dans le fait que les LLM pré-entraînés ne sont pas optimisés pour les conversations ou le suivi d’instructions. Au sens littéral, les LLM ne répondent pas à une invite : ils ne font qu’y ajouter du texte. Le réglage des instructions permet de rendre ce texte ajouté plus utile.

Le processus de pré-entraînement des modèles de langage autorégressifs (LLM utilisés pour générer du texte, comme Llama 2 de Meta, GPT d’OpenAI, Gemini de Google ou Granite d’IBM) optimise ces LLM pour prédire simplement le ou les mots suivants dans une séquence donnée, jusqu’à ce qu’elle soit complète.

Les LLM sont pré-entraînés à l’aide d’un apprentissage auto-supervisé sur un corpus massif de contenu écrit. Lors du pré-entraînement, les modèles autorégressifs reçoivent le début d’un échantillon de texte et sont répétitivement chargés de prédire le mot suivant dans la séquence jusqu’à la fin de l’extrait. Pour chaque prédiction, le mot suivant de la phrase d’exemple originale sert de « vérité terrain ». Grâce à des algorithmes d’optimisation comme la descente de gradient qui ajustent de manière itérative les paramètres du modèle (les poids et les biais variables appliqués aux opérations mathématiques effectuées à chaque nœud d’un réseau neuronal) de manière à rapprocher les prédictions du texte d’origine, le modèle « apprend » les schémas linguistiques dans ses données d’entraînement (et, par extension, les « connaissances véhiculées dans ces modèles linguistiques »).

Bien que ce processus de pré-entraînement permette de générer des textes linguistiquement cohérents, il ne est pas nécessaire d’aligner les performances du modèle sur les besoins pratiques des utilisateurs humains. Sans réglage fin, un modèle de base pourrait répondre à une invite du type « apprends-moi à faire du pain » par « dans un four maison ».C’est une manière grammaticalement correcte de compléter la phrase, mais pas ce que l’utilisateur souhaitait.

Néanmoins, le pré-entraînement d’un LLM à une fin spécifique (comme suivre des instructions) n’est pas pratique. Le terme « grand » de « grands modèles de langage » fait référence au fait que ces modèles ont souvent des milliards de paramètres : l’apprentissage de ces énormes modèles à partir de zéro nécessite une énorme quantité d’énergie, de temps, de ressources informatiques et de données d’apprentissage. En revanche, le réglage fin d’un LLM déjà entraîné nécessite beaucoup moins de données et, en particulier lors de l’utilisation de méthodes de réglage fin efficace des paramètres (PEFT) comme le réglage fin partiel ou l’adaptation à faible rang(LoRA), avec seulement une fraction des demandes de calcul.

Bien que le réglage fin puisse être réalisé à l’aide de presque tous les paradigmes de machine learning, y compris l’apprentissage par renforcement, l’apprentissage semi-supervisé ou l’apprentissage auto-supervisé, le réglage des instructions implique un apprentissage supervisé sur des paires étiquetées (entrée, sortie). Ce qui distingue le réglage des instructions des autres formes de réglage fin supervisé (SFT), c’est que les échantillons d’entrée d’un jeu de données d’instructions sont entièrement constitués de tâches qui ressemblent aux demandes que les utilisateurs pourraient formuler dans leurs invites ; les sorties démontrent les réponses souhaitables à ces demandes. En ajustant les pondérations du modèle pour que les sorties du LLM ressemblent aux exemples du jeu de données d’instructions, le LLM « apprend » à répondre à une invite du type « apprends-moi à faire du pain » en ajoutant un texte qui contient des conseils concrets pour faire du pain.

Le réglage des instructions permet donc de combler le fossé entre l’objectif fondamental du modèle, la prédiction du mot suivant, et l’objectif de l’utilisateur, qui est de faire en sorte que le modèle suive des instructions et effectue des tâches spécifiques. Cela rend le comportement du modèle plus utile et prévisible.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Comment fonctionne le réglage des instructions ?

Le réglage fin des LLM sur un jeu de données étiquetés de tâches variées suivant des instructions permet de mieux suivre les instructions en général, réduisant ainsi la quantité d’informations contextuelles nécessaires à l’obtention d’invites efficaces. Les jeux de données d’instructions peuvent être soit créés par l’humain, soit générés par un autre LLM.

Comme indiqué dans l’article publié par Google Research en 2022, « Finetuned Language Models are Zero-Shot Learners », l’objectif du réglage des instructions est d’améliorer la capacité des LLM à répondre aux instructions du NLP. Pour ce faire, le réglage de l’instruction « combine des aspects attrayants des paradigmes de pré-entraînement et de réglage et des paradigmes d’invite ». Fondamentalement, en intégrant de manière organique les principes du prompt engineering dans le réglage fin supervisé, le réglage des instructions réduit la quantité de prompt engineering et d’exemples few-shot nécessaires pour obtenir une réponse utile et précise du modèle finement réglé.1

Chaque échantillon d’entraînement dans un jeu de données d’instruction comprend trois éléments :

  • Une instruction : une entrée de texte en langage naturel spécifiant une tâche donnée. Par exemple, « traduire cette phrase de l’anglais vers l’espagnol ».
  • Informations supplémentaires : informations additionnelles et facultatives qui fournissent un contexte pertinent pour la tâche à accomplir. Par exemple, une entrée pour une tâche de compréhension de texte peut inclure un passage bref (et ensuite demander au modèle de répondre à une question donnée à ce sujet).
  • Sortie souhaitée : la sortie cible (la réponse) pour l’invite donnée, conformément aux instructions et au contexte fournis. Cela servira de vérité terrain par rapport à laquelle les prédictions du modèle sont évaluées et optimisées.

L’article de Google indique que la variante optimisée par les instructions de son modèle LaMDA-PT, baptisée FLAN (pour Finetuned Language Net), a bénéficié de très grandes améliorations au niveau des tâches naturellement articulées sous forme d’instructions, comme la traduction, la réponse aux questions, la compréhension de la lecture et l’inférence en langage naturel (NLI), c’est-à-dire la tâche consistant à déterminer si une « hypothèse » donnée suit logiquement une « prémisse » donnée.

Pour expliquer cela, le document FLAN note une observation faite par Brown et al dans le document de recherche publié pour le modèle GPT-3 original en 2020 : une explication de la raison pour laquelle les LLM pré-entraînés (sans réglage fin supplémentaire) ont des difficultés avec des tâches telles que la NLI est que les passages ressemblant à une tâche NLI typique sont peu susceptibles de se produire naturellement dans le corpus de données non étiquetées utilisé pour le pré-entraînement auto-supervisé.3 En revanche, pour les tâches qui ressemblent davantage à l’objectif de modélisation de langage simple du pré-entraînement, comme les tâches de raisonnement logique qui nécessitent finalement que le modèle complète une phrase correctement, les instructions sont largement redondantes (et donc le réglage des instructions est moins avantageux).

Peut-être plus important encore, l’article a démontré que l’ajout de tâches supplémentaires au jeu de données de réglage des instructions améliorait les performances du modèle réglé selon les instructions, même pour de nouvelles tâches qui n’étaient pas représentées dans le jeu de données d’instructions. C’est là que réside l’avantage fondamental du réglage des instructions : une amélioration globale de la capacité du modèle à suivre les instructions en général.

Réglage des instructions ou réglage fin multitâche

L’article FLAN comprenait également une étude d’ablation visant à déterminer si les avantages apparents du réglage des instructions étaient dus à l’instruction elle-même ou simplement à l’amélioration du modèle pour plusieurs tâches du NLP. Pour examiner le rôle des instructions dans la mise au point, l’étude d’ablation a affiné le modèle de base selon trois configurations différentes :

  • Pas de modèle : seules les entrées et les sorties ont été données au modèle. Par exemple, l’entrée d’une tâche de traduction serait « the dog runs » et la sortie cible serait « le chien court ».
  • Nom du jeu de données : chaque entrée était précédée par le nom de la tâche et du jeu de données. Dans notre exemple de traduction, l’entrée, tirée de la collection de jeux de données WMT 20144 serait « [traduction : WMT 14 vers le français] le chien court. »
  • Instructions FLAN : les entrées ont suivi les principes de réglage des instructions. Pour cet exemple de traduction, l’entrée serait « Please translate this sentence to French: ‘The dog runs.’  »

L’étude sur l’ablation a ensuite mesuré les résultats de chaque modèle de langage affiné sur une série de tâches zero-shot suivant des instructions. Le modèle adapté aux instructions a obtenu une précision supérieure de plus de 18 % à celle « sans modèle » et de plus de 8 % par rapport à la précision du modèle « nom du jeu de données ». Cela indique que l’entraînement avec les instructions elles-mêmes est essentiel pour améliorer les performances zero-shot sur des tâches invisibles.

Réglage fin de la Chaîne de pensée (CoT)

Les instructions de la Chaîne de pensée (CoT) demande à un LLM de répondre à une question, mais aussi de générer une logique quant à la manière dont il est parvenu à une réponse. Cet objectif peut être atteint grâce à l’apprentissage few-shot accompagné d’exemples de raisonnement séquentiel, ou en ajoutant simplement le terme « penser étape par étape » à la fin d’une invite. Les recherches ont démontré que l’apprentissage CoT améliore considérablement les capacités zero-shot des grands modèles dans diverses tâches de raisonnement arithmétique, symbolique et d’autres tâches de raisonnement logique.5 Wei et al. ont constaté qu’un réglage d’instructions qui n’inclut pas de tâches CoT dans le jeu de données d’instructions dégrade de manière significative la performance du modèle sur les évaluations CoT, mais que l’ajout de jeux de données CoT améliore la performance de toutes les évaluations.6

En outre, leurs recherches ont montré que le réglage fin des instructions sur les tâches CoT, à la fois avec et sans exemples few-shot, augmentait la capacité d’un modèle au niveau du raisonnement CoT dans un contexte zero-shot. Une compréhension intuitive de cet avantage serait que les modèles apprennent à mieux produire et appliquer leurs propres capacités de raisonnement via un réglage fin pour résoudre un problème par étapes logiques plutôt que de produire directement une réponse qui semble simplement cohérente d'un point de vue linguistique.

Jeux de données de réglage des instructions

Il existe un certain nombre de jeux de données dans le but de régler les LLM d’instructions, dont beaucoup sont disponibles en open source. Ces jeux de données peuvent comprendre des paires de langage naturel (instruction, sortie) directement écrites (ou collectées), utiliser des modèles pour convertir des jeux de données annotés existants en instructions ou même utiliser d’autres LLM pour générer des exemples.

Jeux de données créés par l’humain

Bien que la création directe de paires (instruction, sortie) soit simple, il s’agit d’un processus très laborieux qui entraîne en fin de compte beaucoup de temps et d’argent. Différentes méthodes ont été proposées pour transformer les jeux de données en langage naturel en instructions, généralement en appliquant des modèles. La publication de multiples jeux de données open source créés par l’homme a permis de réduire les coûts d’optimisation des données organiques.

Les jeux de données d’instructions open source créées par l’humain les plus populaires sont les suivants :

  • Flan : a d’abord été utilisé pour affiner le modèle LaMDA-PT de Google, donnant ainsi naissance au modèle FLAN original. Depuis, le jeu de données Flan a été affiné et utilisé pour affiner un certain nombre de LLM. Parmi les principaux modèles affinés sur Flan, citons le FLAN-T5, le Flan-UL2 et le Flan-PaLM 540B (également appelé FLAN-T5-XXL).
  • OpenAssistant : OpenAssistant Conversations est un corpus de conversations multilingues créées par l’humain et axées sur les échanges de dialogue de type assistant. Il se compose de 91 829 prompts utilisateur et de 69 614 réponses d’assistant, tirés de 66 497 arbres conversationnels dans 35 langues différentes.
  • Dolly : Dolly est un jeu de données en anglais de 15 000 conversations générées par l’homme, conçu pour permettre aux LLM d’interagir avec les utilisateurs selon des modèles de dialogue similaires à ChatGPT. Il couvre un large éventail de tâches et de comportements humains, notamment la synthèse, l’extraction d’informations, le brainstorming, l’écriture créative, la classification et la réponse aux questions.

Jeux de données générés par LLM

Motivés par les coûts prohibitifs des charges et de la main-d’œuvre, nécessaires pour générer manuellement des instructions et des sorties cibles, de nombreux jeux de données d’instructions utilisent les réponses de LLM plus grands pour générer des invites, des sorties ou les deux. L’utilisation de jeux de données générés par le LLM a souvent pour effet supplémentaire d’enseigner à des modèles plus petits à imiter le comportement de modèles plus grands, parfois dans le cadre d’une dynamique délibérée enseignant/apprenant.

  • Self-Instruct : Self-Instruct a été créé à l’aide d’InstructGPT, qui est lui-même une version de GPT-3 adaptée aux instructions. Les auteurs ont fourni des « tâches de départ » en langage naturel et ont demandé à InstructGPT de générer des exemples supplémentaires, créant 52 000 instructions d’entraînement. Une méthode Self-Instruct modifiée a été utilisée par des chercheurs de Stanford pour générer des données d’entraînement pour Alpaca, la première variante de LLaMA réglée sur la base d’instructions. Alpaca a notamment légèrement dépassé les benchmarks d’InstructGPT sur le jeu de données Self-Instruct7.
  • Evol-Instruct : comme son nom l’indique, Evol-Instruct propose une évolution de la méthodologie Self-Instruct, en réécrivant les instructions à l’aide de stratégies approfondies et étendues. La première fait évoluer les instructions pour en accroître la complexité grâce à des mesures telles que l’ajout de contraintes, l’augmentation des étapes de raisonnement et la complexité de l’entrée. L’autre « transforme » les instructions précédentes pour accroître la diversité du jeu de données et la couverture thématique. Evol-Instruct a été introduit dans le document de recherche pour WizardLM, qui détaille comment Evol-Instruct a été utilisé pour affiner LLaMA.8
  • ShareGPT : ShareGPT.com contient un référentiel des échanges généré par les utilisateurs avec ChatGPT. Les chercheurs à l’origine de Vicuna, une adaptation notable à réglage fin de LLaMA, ont utilisé 70 000 enregistrements conversationnels provenant de ShareGPT et ont adapté leurs sélections pour les conversations en plusieurs étapes9.
  • OpenOrca : OpenOrca est un ensemble de données Flan Collection augmentées (lien externe à ibm.com). Il vise à reproduire le jeu de données utilisé par Microsoft pour entraîner Orca, qui a exploré une méthodologie qui se concentre explicitement sur l’optimisation de l’utilisation de modèles plus grands pour affiner des LLM plus petits grâce à l’apprentissage par imitation.10

À mesure que la puissance des LLM augmente, l’utilité des jeux de données de réglage d’instructions générés par les LLM a également augmenté. Un article publié en 2023 reproduisait le paradigme de réglage fin d’Alpaca, qui a affiné LLaMA sur les instructions générées par InstructGPT, tout en répétant le processus en parallèle à l’aide de GPT-4 pour générer des instructions. Le modèle qui en a résulté, baptisé LlaMA-GPT4, a nettement surpassé les scores de « serviabilité » de son équivalent Alpaca et a presque égalé GPT-4 lui-même en termes de « serviabilité », d’« honnêteté » et d’« innocuité »11.

Défis et limites du réglage des instructions

Bien que les techniques de réglage des instructions aient permis des avancées importantes dans le domaine des LLM, le travail reste à faire pour diversifier les jeux de données de réglage des instructions et clarifier pleinement ses avantages.

L’un des principaux défis du réglage des instructions est la création d’instructions de haute qualité à utiliser pour le réglage fin. Les ressources nécessaires pour créer un jeu de données d’instructions suffisamment volumineux ont permis de centraliser les instructions vers une poignée de jeux de données open source, ce qui peut avoir pour effet de réduire la diversité des modèles. Bien que l’utilisation de LLM propriétaires plus grands pour générer des instructions ait contribué à réduire les coûts, cela pourrait avoir pour inconvénient de renforcer les biais et les lacunes de ces LLM propriétaires dans l’ensemble des LLM open source. Ce problème est aggravé par le fait que les modèles propriétaires cherchent souvent à contourner le préjugé intrinsèque des chercheurs humains et à évaluer les performances des modèles plus petits.

Sur le plan technique, certains chercheurs craignent que l’utilisation de modèles plus grands pour améliorer les modèles plus petits n’aide les plus petits à imiter le style des modèles plus grands, mais pas leurs fonctionnalités réelles. Une étude empirique réalisée en 2023 suggère que la plupart des gains de performance impressionnants obtenus grâce à l’ajustement des instructions peuvent provenir de la détection de modèles superficiels, plutôt que d’une véritable amélioration du raisonnement logique.12

De même, d’autres chercheurs ont avancé l'idée que certaines améliorations signalées pouvaient dépendre en quelque sorte de l’évaluation des performances des modèles réglés par instructions sur des tâches trop étroitement liées à celles des jeux de données d’entraînement des instructions. Grâce à des tests plus ciblés des modèles d’instruction réglés de cette manière, Gudibande et al. ont conclu que « l’action la plus efficace pour améliorer les modèles open source consiste à relever le délicat défi consistant à développer de meilleurs [modèles linguistiques] de base, plutôt que de prendre le raccourci visant imiter les systèmes propriétaires »13.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Services d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

REMARQUE : tous les liens sont externes à ibm.com.
1
 « Finetuned Language Models Are Zero-Shot Learners », Google (via arXiv), 3 septembre 2021 (dernière révision le 8 février 2022).
2 « Aligning language models to follow instructions », OpenAI, 27 janvier 2022.
3 « Language Models are Few-Shot Learners », arXiv, 22 juillet 2020.
« WMT 2014 », Papers With Code, 27 juin 2014.
5 « Language Models are Zero-Shot Reasoners », arXiv, 24 mai 2022 (dernière révision le 29 janvier 2023).
6 « Scaling Instruction-Finetuned Language Models », Google (via arXiv), 6 décembre 2022.
7 « Alpaca : A Strong, Replicable Instruction-Following Model », Stanford Center for Research on Foundation Models, 13 mars 2023.
8 « WizardLM : Empowering Large Language Models to Follow Complex Instructions », arXiv, 10 juin 2023.
9 « Vicuna : An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality », LMSYS Org, 30 mars 2023.
10 « Orca : Progressive Learning from Complex Explanation Traces of GPT-4 », Microsoft, juin 2023.
11 « Instruction Tuning with GPT-4 », arXiv, 6 avril 2023.
12 « Do Models Really Learn to Follow Instructions ? An Empirical Study of Instruction Tuning », arXiv, 19 mai 2023.
13 « The False Promise of Imitating Proprietary LLMs », arXiv, 25 mai 2023.