L’utilité du réglage par instructions, comme celle de la plupart des techniques de réglage fin, réside dans le fait que les LLM pré-entraînés ne sont pas optimisés pour les conversations ou le suivi d’instructions. Au sens littéral, les LLM ne répondent pas à une invite : ils ne font qu’y ajouter du texte. Le réglage des instructions permet de rendre ce texte ajouté plus utile.
Le processus de pré-entraînement des modèles de langage autorégressifs (LLM utilisés pour générer du texte, comme Llama 2 de Meta, GPT d’OpenAI, Gemini de Google ou Granite d’IBM) optimise ces LLM pour prédire simplement le ou les mots suivants dans une séquence donnée, jusqu’à ce qu’elle soit complète.
Les LLM sont pré-entraînés à l’aide d’un apprentissage auto-supervisé sur un corpus massif de contenu écrit. Lors du pré-entraînement, les modèles autorégressifs reçoivent le début d’un échantillon de texte et sont répétitivement chargés de prédire le mot suivant dans la séquence jusqu’à la fin de l’extrait. Pour chaque prédiction, le mot suivant de la phrase d’exemple originale sert de « vérité terrain ». Grâce à des algorithmes d’optimisation comme la descente de gradient qui ajustent de manière itérative les paramètres du modèle (les poids et les biais variables appliqués aux opérations mathématiques effectuées à chaque nœud d’un réseau neuronal) de manière à rapprocher les prédictions du texte d’origine, le modèle « apprend » les schémas linguistiques dans ses données d’entraînement (et, par extension, les « connaissances véhiculées dans ces modèles linguistiques »).
Bien que ce processus de pré-entraînement permette de générer des textes linguistiquement cohérents, il ne est pas nécessaire d’aligner les performances du modèle sur les besoins pratiques des utilisateurs humains. Sans réglage fin, un modèle de base pourrait répondre à une invite du type « apprends-moi à faire du pain » par « dans un four maison ».C’est une manière grammaticalement correcte de compléter la phrase, mais pas ce que l’utilisateur souhaitait.
Néanmoins, le pré-entraînement d’un LLM à une fin spécifique (comme suivre des instructions) n’est pas pratique. Le terme « grand » de « grands modèles de langage » fait référence au fait que ces modèles ont souvent des milliards de paramètres : l’apprentissage de ces énormes modèles à partir de zéro nécessite une énorme quantité d’énergie, de temps, de ressources informatiques et de données d’apprentissage. En revanche, le réglage fin d’un LLM déjà entraîné nécessite beaucoup moins de données et, en particulier lors de l’utilisation de méthodes de réglage fin efficace des paramètres (PEFT) comme le réglage fin partiel ou l’adaptation à faible rang(LoRA), avec seulement une fraction des demandes de calcul.
Bien que le réglage fin puisse être réalisé à l’aide de presque tous les paradigmes de machine learning, y compris l’apprentissage par renforcement, l’apprentissage semi-supervisé ou l’apprentissage auto-supervisé, le réglage des instructions implique un apprentissage supervisé sur des paires étiquetées (entrée, sortie). Ce qui distingue le réglage des instructions des autres formes de réglage fin supervisé (SFT), c’est que les échantillons d’entrée d’un jeu de données d’instructions sont entièrement constitués de tâches qui ressemblent aux demandes que les utilisateurs pourraient formuler dans leurs invites ; les sorties démontrent les réponses souhaitables à ces demandes. En ajustant les pondérations du modèle pour que les sorties du LLM ressemblent aux exemples du jeu de données d’instructions, le LLM « apprend » à répondre à une invite du type « apprends-moi à faire du pain » en ajoutant un texte qui contient des conseils concrets pour faire du pain.
Le réglage des instructions permet donc de combler le fossé entre l’objectif fondamental du modèle, la prédiction du mot suivant, et l’objectif de l’utilisateur, qui est de faire en sorte que le modèle suive des instructions et effectue des tâches spécifiques. Cela rend le comportement du modèle plus utile et prévisible.