Le réglage des instructions est une technique permettant d’ affiner les grands modèles de langage (LLM) sur un jeu de données étiquetés d’invites d’instructions et de sorties correspondantes. Il améliore les performances du modèle non seulement sur des tâches spécifiques, mais également sur le suivi des instructions en général, aidant ainsi à adapter les modèles pré-entraînés à une utilisation pratique.
Le réglage des instructions est un sous-ensemble de la catégorie plus large des techniques de réglage fin utilisées pour adapter les modèles de fondation pré-entraînés aux tâches en aval. Les modèles de fondation peuvent être affinés à des fins diverses, qu’il s’agisse de personnaliser le style, de compléter les connaissances de base et le vocabulaire du modèle pré-entraîné ou d’optimiser les performances pour un cas d’utilisation spécifique. Bien que le réglage ne soit pas réservé à un domaine en particulier ou à l’architecture d’un modèle d’intelligence artificielle, il fait désormais partie intégrante du cycle de vie du LLM. Par exemple, la famille de modèles Llama 2 de Meta est proposée (en plusieurs tailles) en tant que modèle de base, en tant que variante optimisée pour le dialogue (Llama-2-chat) et en tant que variante affinée pour le codage (Code Llama).
Le réglage des instructions n’est pas incompatible avec les autres techniques de réglage fin. Par exemple, les modèles de chat font souvent l’objet d’un réglage d’instructions et l’apprentissage par renforcement basé sur les commentaires humains (RLHF), une technique d’optimisation qui vise à améliorer des qualités abstraites telles que la serviabilité et l’honnêteté. Les modèles réglés pour le codage subissent souvent à la fois un réglage d’instructions (pour optimiser largement les réponses pour les instructions suivantes) et un réglage supplémentaire des données spécifiques à la programmation (pour augmenter les connaissances du modèle en matière de syntaxe et de vocabulaire de codage).
Alors que la genèse des LLM remonte à l’article « Attention is All You Need » de 2017 qui a introduit des modèles de transformeurs à grande échelle dans les tâches de traitement automatique du langage naturel (NLP) , l’incorporation du réglage des instructions et du RLHF,sous l’influence d’articles de Google (en 2021)1 et OpenAI (en 2022),2 ont respectivement donné naissance aux LLM modernes qui ont ouvert la porte à l’ère actuelle de l’ IA générative avec le lancement de ChatGPT.
L’utilité du réglage par instructions, comme celle de la plupart des techniques de réglage fin, réside dans le fait que les LLM pré-entraînés ne sont pas optimisés pour les conversations ou le suivi d’instructions. Au sens littéral, les LLM ne répondent pas à une invite : ils ne font qu’y ajouter du texte. Le réglage des instructions permet de rendre ce texte ajouté plus utile.
Le processus de pré-entraînement des modèles de langage autorégressifs (LLM utilisés pour générer du texte, comme Llama 2 de Meta, GPT d’OpenAI, Gemini de Google ou Granite d’IBM) optimise ces LLM pour prédire simplement le ou les mots suivants dans une séquence donnée, jusqu’à ce qu’elle soit complète.
Les LLM sont pré-entraînés à l’aide d’un apprentissage auto-supervisé sur un corpus massif de contenu écrit. Lors du pré-entraînement, les modèles autorégressifs reçoivent le début d’un échantillon de texte et sont répétitivement chargés de prédire le mot suivant dans la séquence jusqu’à la fin de l’extrait. Pour chaque prédiction, le mot suivant de la phrase d’exemple originale sert de « vérité terrain ». Grâce à des algorithmes d’optimisation comme la descente de gradient qui ajustent de manière itérative les paramètres du modèle (les poids et les biais variables appliqués aux opérations mathématiques effectuées à chaque nœud d’un réseau neuronal) de manière à rapprocher les prédictions du texte d’origine, le modèle « apprend » les schémas linguistiques dans ses données d’entraînement (et, par extension, les « connaissances véhiculées dans ces modèles linguistiques »).
Bien que ce processus de pré-entraînement permette de générer des textes linguistiquement cohérents, il ne est pas nécessaire d’aligner les performances du modèle sur les besoins pratiques des utilisateurs humains. Sans réglage fin, un modèle de base pourrait répondre à une invite du type « apprends-moi à faire du pain » par « dans un four maison ».C’est une manière grammaticalement correcte de compléter la phrase, mais pas ce que l’utilisateur souhaitait.
Néanmoins, le pré-entraînement d’un LLM à une fin spécifique (comme suivre des instructions) n’est pas pratique. Le terme « grand » de « grands modèles de langage » fait référence au fait que ces modèles ont souvent des milliards de paramètres : l’apprentissage de ces énormes modèles à partir de zéro nécessite une énorme quantité d’énergie, de temps, de ressources informatiques et de données d’apprentissage. En revanche, le réglage fin d’un LLM déjà entraîné nécessite beaucoup moins de données et, en particulier lors de l’utilisation de méthodes de réglage fin efficace des paramètres (PEFT) comme le réglage fin partiel ou l’adaptation à faible rang(LoRA), avec seulement une fraction des demandes de calcul.
Bien que le réglage fin puisse être réalisé à l’aide de presque tous les paradigmes de machine learning, y compris l’apprentissage par renforcement, l’apprentissage semi-supervisé ou l’apprentissage auto-supervisé, le réglage des instructions implique un apprentissage supervisé sur des paires étiquetées (entrée, sortie). Ce qui distingue le réglage des instructions des autres formes de réglage fin supervisé (SFT), c’est que les échantillons d’entrée d’un jeu de données d’instructions sont entièrement constitués de tâches qui ressemblent aux demandes que les utilisateurs pourraient formuler dans leurs invites ; les sorties démontrent les réponses souhaitables à ces demandes. En ajustant les pondérations du modèle pour que les sorties du LLM ressemblent aux exemples du jeu de données d’instructions, le LLM « apprend » à répondre à une invite du type « apprends-moi à faire du pain » en ajoutant un texte qui contient des conseils concrets pour faire du pain.
Le réglage des instructions permet donc de combler le fossé entre l’objectif fondamental du modèle, la prédiction du mot suivant, et l’objectif de l’utilisateur, qui est de faire en sorte que le modèle suive des instructions et effectue des tâches spécifiques. Cela rend le comportement du modèle plus utile et prévisible.
Le réglage fin des LLM sur un jeu de données étiquetés de tâches variées suivant des instructions permet de mieux suivre les instructions en général, réduisant ainsi la quantité d’informations contextuelles nécessaires à l’obtention d’invites efficaces. Les jeux de données d’instructions peuvent être soit créés par l’humain, soit générés par un autre LLM.
Comme indiqué dans l’article publié par Google Research en 2022, « Finetuned Language Models are Zero-Shot Learners », l’objectif du réglage des instructions est d’améliorer la capacité des LLM à répondre aux instructions du NLP. Pour ce faire, le réglage de l’instruction « combine des aspects attrayants des paradigmes de pré-entraînement et de réglage et des paradigmes d’invite ». Fondamentalement, en intégrant de manière organique les principes du prompt engineering dans le réglage fin supervisé, le réglage des instructions réduit la quantité de prompt engineering et d’exemples few-shot nécessaires pour obtenir une réponse utile et précise du modèle finement réglé.1
Chaque échantillon d’entraînement dans un jeu de données d’instruction comprend trois éléments :
L’article de Google indique que la variante optimisée par les instructions de son modèle LaMDA-PT, baptisée FLAN (pour Finetuned Language Net), a bénéficié de très grandes améliorations au niveau des tâches naturellement articulées sous forme d’instructions, comme la traduction, la réponse aux questions, la compréhension de la lecture et l’inférence en langage naturel (NLI), c’est-à-dire la tâche consistant à déterminer si une « hypothèse » donnée suit logiquement une « prémisse » donnée.
Pour expliquer cela, le document FLAN note une observation faite par Brown et al dans le document de recherche publié pour le modèle GPT-3 original en 2020 : une explication de la raison pour laquelle les LLM pré-entraînés (sans réglage fin supplémentaire) ont des difficultés avec des tâches telles que la NLI est que les passages ressemblant à une tâche NLI typique sont peu susceptibles de se produire naturellement dans le corpus de données non étiquetées utilisé pour le pré-entraînement auto-supervisé.3 En revanche, pour les tâches qui ressemblent davantage à l’objectif de modélisation de langage simple du pré-entraînement, comme les tâches de raisonnement logique qui nécessitent finalement que le modèle complète une phrase correctement, les instructions sont largement redondantes (et donc le réglage des instructions est moins avantageux).
Peut-être plus important encore, l’article a démontré que l’ajout de tâches supplémentaires au jeu de données de réglage des instructions améliorait les performances du modèle réglé selon les instructions, même pour de nouvelles tâches qui n’étaient pas représentées dans le jeu de données d’instructions. C’est là que réside l’avantage fondamental du réglage des instructions : une amélioration globale de la capacité du modèle à suivre les instructions en général.
L’article FLAN comprenait également une étude d’ablation visant à déterminer si les avantages apparents du réglage des instructions étaient dus à l’instruction elle-même ou simplement à l’amélioration du modèle pour plusieurs tâches du NLP. Pour examiner le rôle des instructions dans la mise au point, l’étude d’ablation a affiné le modèle de base selon trois configurations différentes :
L’étude sur l’ablation a ensuite mesuré les résultats de chaque modèle de langage affiné sur une série de tâches zero-shot suivant des instructions. Le modèle adapté aux instructions a obtenu une précision supérieure de plus de 18 % à celle « sans modèle » et de plus de 8 % par rapport à la précision du modèle « nom du jeu de données ». Cela indique que l’entraînement avec les instructions elles-mêmes est essentiel pour améliorer les performances zero-shot sur des tâches invisibles.
Les instructions de la Chaîne de pensée (CoT) demande à un LLM de répondre à une question, mais aussi de générer une logique quant à la manière dont il est parvenu à une réponse. Cet objectif peut être atteint grâce à l’apprentissage few-shot accompagné d’exemples de raisonnement séquentiel, ou en ajoutant simplement le terme « penser étape par étape » à la fin d’une invite. Les recherches ont démontré que l’apprentissage CoT améliore considérablement les capacités zero-shot des grands modèles dans diverses tâches de raisonnement arithmétique, symbolique et d’autres tâches de raisonnement logique.5 Wei et al. ont constaté qu’un réglage d’instructions qui n’inclut pas de tâches CoT dans le jeu de données d’instructions dégrade de manière significative la performance du modèle sur les évaluations CoT, mais que l’ajout de jeux de données CoT améliore la performance de toutes les évaluations.6
En outre, leurs recherches ont montré que le réglage fin des instructions sur les tâches CoT, à la fois avec et sans exemples few-shot, augmentait la capacité d’un modèle au niveau du raisonnement CoT dans un contexte zero-shot. Une compréhension intuitive de cet avantage serait que les modèles apprennent à mieux produire et appliquer leurs propres capacités de raisonnement via un réglage fin pour résoudre un problème par étapes logiques plutôt que de produire directement une réponse qui semble simplement cohérente d'un point de vue linguistique.
Il existe un certain nombre de jeux de données dans le but de régler les LLM d’instructions, dont beaucoup sont disponibles en open source. Ces jeux de données peuvent comprendre des paires de langage naturel (instruction, sortie) directement écrites (ou collectées), utiliser des modèles pour convertir des jeux de données annotés existants en instructions ou même utiliser d’autres LLM pour générer des exemples.
Bien que la création directe de paires (instruction, sortie) soit simple, il s’agit d’un processus très laborieux qui entraîne en fin de compte beaucoup de temps et d’argent. Différentes méthodes ont été proposées pour transformer les jeux de données en langage naturel en instructions, généralement en appliquant des modèles. La publication de multiples jeux de données open source créés par l’homme a permis de réduire les coûts d’optimisation des données organiques.
Les jeux de données d’instructions open source créées par l’humain les plus populaires sont les suivants :
Motivés par les coûts prohibitifs des charges et de la main-d’œuvre, nécessaires pour générer manuellement des instructions et des sorties cibles, de nombreux jeux de données d’instructions utilisent les réponses de LLM plus grands pour générer des invites, des sorties ou les deux. L’utilisation de jeux de données générés par le LLM a souvent pour effet supplémentaire d’enseigner à des modèles plus petits à imiter le comportement de modèles plus grands, parfois dans le cadre d’une dynamique délibérée enseignant/apprenant.
À mesure que la puissance des LLM augmente, l’utilité des jeux de données de réglage d’instructions générés par les LLM a également augmenté. Un article publié en 2023 reproduisait le paradigme de réglage fin d’Alpaca, qui a affiné LLaMA sur les instructions générées par InstructGPT, tout en répétant le processus en parallèle à l’aide de GPT-4 pour générer des instructions. Le modèle qui en a résulté, baptisé LlaMA-GPT4, a nettement surpassé les scores de « serviabilité » de son équivalent Alpaca et a presque égalé GPT-4 lui-même en termes de « serviabilité », d’« honnêteté » et d’« innocuité »11.
Bien que les techniques de réglage des instructions aient permis des avancées importantes dans le domaine des LLM, le travail reste à faire pour diversifier les jeux de données de réglage des instructions et clarifier pleinement ses avantages.
L’un des principaux défis du réglage des instructions est la création d’instructions de haute qualité à utiliser pour le réglage fin. Les ressources nécessaires pour créer un jeu de données d’instructions suffisamment volumineux ont permis de centraliser les instructions vers une poignée de jeux de données open source, ce qui peut avoir pour effet de réduire la diversité des modèles. Bien que l’utilisation de LLM propriétaires plus grands pour générer des instructions ait contribué à réduire les coûts, cela pourrait avoir pour inconvénient de renforcer les biais et les lacunes de ces LLM propriétaires dans l’ensemble des LLM open source. Ce problème est aggravé par le fait que les modèles propriétaires cherchent souvent à contourner le préjugé intrinsèque des chercheurs humains et à évaluer les performances des modèles plus petits.
Sur le plan technique, certains chercheurs craignent que l’utilisation de modèles plus grands pour améliorer les modèles plus petits n’aide les plus petits à imiter le style des modèles plus grands, mais pas leurs fonctionnalités réelles. Une étude empirique réalisée en 2023 suggère que la plupart des gains de performance impressionnants obtenus grâce à l’ajustement des instructions peuvent provenir de la détection de modèles superficiels, plutôt que d’une véritable amélioration du raisonnement logique.12
De même, d’autres chercheurs ont avancé l'idée que certaines améliorations signalées pouvaient dépendre en quelque sorte de l’évaluation des performances des modèles réglés par instructions sur des tâches trop étroitement liées à celles des jeux de données d’entraînement des instructions. Grâce à des tests plus ciblés des modèles d’instruction réglés de cette manière, Gudibande et al. ont conclu que « l’action la plus efficace pour améliorer les modèles open source consiste à relever le délicat défi consistant à développer de meilleurs [modèles linguistiques] de base, plutôt que de prendre le raccourci visant imiter les systèmes propriétaires »13.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Découvrez comment les PDG peuvent trouver un équilibre entre la valeur que l’IA générative peut créer, l’investissement qu’elle exige et les risques qu’elle introduit.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
REMARQUE : tous les liens sont externes à ibm.com.
1 « Finetuned Language Models Are Zero-Shot Learners », Google (via arXiv), 3 septembre 2021 (dernière révision le 8 février 2022).
2 « Aligning language models to follow instructions », OpenAI, 27 janvier 2022.
3 « Language Models are Few-Shot Learners », arXiv, 22 juillet 2020.
4 « WMT 2014 », Papers With Code, 27 juin 2014.
5 « Language Models are Zero-Shot Reasoners », arXiv, 24 mai 2022 (dernière révision le 29 janvier 2023).
6 « Scaling Instruction-Finetuned Language Models », Google (via arXiv), 6 décembre 2022.
7 « Alpaca : A Strong, Replicable Instruction-Following Model », Stanford Center for Research on Foundation Models, 13 mars 2023.
8 « WizardLM : Empowering Large Language Models to Follow Complex Instructions », arXiv, 10 juin 2023.
9 « Vicuna : An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality », LMSYS Org, 30 mars 2023.
10 « Orca : Progressive Learning from Complex Explanation Traces of GPT-4 », Microsoft, juin 2023.
11 « Instruction Tuning with GPT-4 », arXiv, 6 avril 2023.
12 « Do Models Really Learn to Follow Instructions ? An Empirical Study of Instruction Tuning », arXiv, 19 mai 2023.
13 « The False Promise of Imitating Proprietary LLMs », arXiv, 25 mai 2023.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com