Qu’est-ce que la personnalisation des LLM ?

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la personnalisation des LLM ?

La personnalisation du LLM, ou personnalisation d’un grand modèle linguistique, consiste à adapter un LLM préformé à des tâches spécifiques. Le processus de personnalisation du LLM implique la sélection d’un modèle pré-entraîné, également connu sous le nom de modèle de fondation, puis l’adaptation du modèle à son cas d’utilisation.

Le workflow de personnalisation LLM

La création d’un LLM personnalisé est conçue pour appliquer des modèles généralisés à des contextes plus spécifiques. Bien que diverses méthodes de personnalisation des LLM soient disponibles, le processus général suit généralement une série d’étapes similaires.

  1. Préparation des données : les performances optimales des modèles dépendent de données d’entraînement solides. Les créateurs de modèles et les data scientists doivent collecter et assembler un jeu de données d’entraînement spécifique au domaine qui est pertinent pour l’objectif du modèle. Avec une base de connaissances de données de haute qualité, les réponses du modèle sont plus susceptibles d’être précises et utiles.
     

  2. Sélection des modèles : la liste des LLM est aussi nombreuse que variée. Les modèles IA existent en plusieurs tailles, efficacités, utilisations des ressources et architectures, qui affectent tous la performance. Pour bien choisir son modèle, il faut bien comprendre à la fois les objectifs et les limites du projet de machine learning.
     

  3. Personnalisation du modèle : à ce moment-là, les spécialistes du machine learning transforment le modèle de fondation en un outil spécialisé. Les résultats du modèle seront adaptés à des tâches spécifiques en aval. Les développeurs doivent comprendre le fonctionnement du modèle de fondation et la méthode de personnalisation choisie pour optimiser avec succès le comportement du modèle.
     

  4. Itération : les algorithmes de ML fonctionnent mieux lorsqu’ils sont entraînés à l’aide de processus étape par étape, plutôt qu’en effectuant d’énormes ajustements. Les développeurs peuvent mesurer l’effet de la technique de personnalisation à chaque étape et utiliser ces résultats pour la prochaine itération.
     

  5. Test : une fois l’entraînement terminé, mais avant l’utilisation dans le monde réel, le modèle est testé pour s’assurer de la fiabilité de ses performances. Les développeurs s’assurent que leurs adaptations sont efficaces et que le modèle applique les connaissances spécifiques qu’il vient d’acquérir sans subir d’oubli catastrophique.
     

  6. Déploiement du modèle : le modèle personnalisé est déployé dans son environnement de production, tel qu’une application alimentée par l’IA ou une API, et rendu disponible pour des cas d’utilisation spécifiques dans le monde réel.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Techniques de personnalisation des LLM

En fonction du cas d’utilisation et du résultat souhaité, les développeurs et les spécialistes du machine learning choisissent parmi une série de méthodes de personnalisation du LLM. Tous les types de personnalisation des LLM peuvent adapter la performance d’un modèle d’IA générative à des tâches en aval spécifiques.

Les techniques de personnalisation LLM comprennent :

Génération augmentée par la récupération (RAG)

La génération augmentée de récupération (RAG) connecte un LLM à une source externe de données pour étendre sa base de connaissances. Lorsqu’un utilisateur envoie une requête, le système RAG recherche les informations pertinentes dans la base de données couplée, puis les combine avec la requête pour donner au LLM plus de contexte lors de la génération d’une réponse.

RAG utilise l’embedding pour transformer une base de données, une source de code ou d’autres informations en une base de données vectorielle consultable. Les embeddings tracent mathématiquement chaque point de données dans un espace vectoriel tridimensionnel. Pour trouver les données pertinentes, le modèle de recherche d’informations du système RAG convertit les requêtes des utilisateurs en embeddings et localise les embeddings similaires dans la base de données vectorielle.

Les systèmes RAG suivent généralement la même séquence standard :

  1. Invites : l’utilisateur soumet une invite dans l’interface utilisateur, telle qu’un chatbot alimenté par l’IA.

  2. Interrogation : un modèle de récupération d’informations convertit le prompt en embedding et interroge la base de données pour des données similaires.
     

  3. Récupération : le modèle d’extraction extrait les données pertinentes de la base de données.
     

  4. Génération : le système RAG combine les données récupérées avec la requête de l’utilisateur et les envoie au LLM, qui génère une réponse.
     

  5. Livraison : le système RAG renvoie la réponse générée à l’utilisateur.

RAG doit son nom à la manière dont les systèmes RAG récupèrent les données pertinentes et les utilisent pour compléter la réponse générée par le mécanisme d’apprentissage tout au long de la vie. Les systèmes RAG plus complexes introduisent des composants supplémentaires pour affiner le processus et améliorer encore la qualité de la réponse.

Avantages du RAG

Accorder au LLM l’accès aux connaissances spécifiques à un domaine lui permet d’intégrer ces données dans son processus de génération de réponses. Cela augmente la précision et la fiabilité des solutions d’IA sans investissement trop important, en particulier si les données externes sont déjà disponibles et prêtes à être utilisées pour le machine learning.

Par exemple, un modèle RAG conçu pour répondre à une question peut donner de meilleures réponses lorsqu’il est capable de trouver les réponses correctes dans sa base de connaissances associée.

L’utilisation de la méthode RAG avec des modèles plus petits peut les aider à atteindre un niveau de performance plus élevé. Les petits modèles de langage (SLM) offrent des exigences de calcul réduites, des temps d’entraînement plus rapides et une latence réduite dans l’inférence. La construction d’un système RAG autour d’un SLM préserve ces avantages tout en exploitant la plus grande précision spécifique au contexte qu’offre RAG.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Réglage fin

Le réglage fin d’un LLM implique de procéder à des ajustements itératifs des paramètres internes qui guident son comportement. Ces paramètres sont appelés paramètres ou pondérations de modèle, et ils contrôlent la façon dont le modèle traite et évalue les données.

Pendant l’entraînement, l’algorithme d’apprentissage d’un modèle ajuste les paramètres jusqu’à ce que la performance optimale soit atteinte. À ce moment-là, le processus d'entraînement est considéré comme terminé avec succès.

Les LLM Advanced, en particulier les transformateurs tels que GPT d’OpenAI et Llama 2 de Meta, peuvent avoir des milliards de paramètres. Étant donné la taille importante de ces modèles, un réglage fin et complet est souvent extrêmement coûteux et prend beaucoup de temps.

Les méthodes de réglage fin plus nuancées ajustent certains paramètres du modèle ou en ajoutent de nouveaux dans le but de préserver ses performances d’entraînement tout en améliorant la maîtrise de l’exécution de tâches spécifiques.

Les méthodes de réglage fin notables incluent :

Parameter-efficient fine-tuning (PEFT)

Le PEFT gèle la plupart des paramètres d’un modèle pré-entraîné et se concentre sur l’ajustement de ceux qui sont les plus pertinents pour la nouvelle tâche. Pour ce faire, il consomme beaucoup moins de ressources qu’un réglage complet. Le PEFT est un domaine très vaste qui comporte de nombreuses applications.

Apprentissage par transfert

L’apprentissage par transfert tire parti de la connaissance d’un modèle préentraîné pour de nouvelles tâches, en appliquant ce qu’il sait déjà dans un nouveau contexte. Cela fonctionne mieux lorsque la nouvelle tâche est liée à la tâche d’origine, par exemple lorsque vous utilisez un classificateur pour reconnaître et classer de nouvelles catégories ou de nouveaux types d’objets.

Dans cet exemple, le type d’apprentissage par transfert appliqué est connu sous le nom d’apprentissage multitâche : un modèle optimisé avec plusieurs tâches à la fois. Ici, ces nouvelles tâches sont la reconnaissance et la classification d’objets.

Adaptation de rang inférieur (LoRA)

L’adaptation de bas rang (LoRA) est une approche modulaire du réglage fin qui ajoute des paramètres supplémentaires à un modèle pré-entraîné. La LoRA gèle les paramètres du modèle pré-entraîné et ajoute un complément connu sous le nom de matrice de bas rang qui adapte les réponses du modèle pour répondre aux exigences d’un cas d’utilisation ou d’une tâche spécifique.

Imaginez la LoRA comme un ensemble de couvre-chefs magiques qui permettent à l’utilisateur d’effectuer une compétence associée. Posez la toque magique sur votre tête et préparez un repas cinq étoiles. Enfilez le casque magique et construisez une maison. Portez le casque de moto magique et remportez le Tourist Trophy de l’île de Man. Prenez une casquette de baseball magique et marquez.

Apprentissage par renforcement à partir des commentaires humains (RLHF)

L’apprentissage par renforcement basé sur les commentaires humains (RLHF) utilise un modèle de récompense en partenariat pour affiner un modèle pré-entraîné pour des tâches complexes et subjectives. Un modèle ML ne peut pas juger si un écrit est évocateur, mais les humains le peuvent, et ces humains peuvent apprendre à un modèle à imiter leurs préférences.

Avec le RLHF, les humains entraînent un modèle de récompense pour la nouvelle tâche. Le travail du modèle de récompense consiste à prédire avec succès comment un humain réagirait à une entrée donnée. Alors que l’entraînement des modèles standard pénalise les erreurs, l’entraînement par récompense encourage les bonnes performances.

Ensuite, le modèle de récompense enseigne à son tour au modèle de fondation comment se comporter, en fonction des préférences des formateurs humains. Une fois le modèle de récompense formé, il peut entraîner le modèle de fondation sans intervention humaine (HITL).

Comme pour tous les types de machine learning, le modèle n’a pas de pensée critique, ni même de pensée tout court. Il s’agit plutôt de choisir mathématiquement le résultat qui est le plus susceptible de correspondre aux préférences de ses entraîneurs humains.

Réglage fin continu (CFT)

Le réglage fin continu (CFT) est un type d’apprentissage continu qui adapte de manière séquentielle un modèle à de nouvelles tâches. Grâce au réglage des instructions, qui consiste à entraîner un modèle à l’aide de paires étiquetées d’entrées pédagogiques et de sorties associées, le modèle est adapté à un ensemble de données plus large pour les tâches en aval. La CFT apprend souvent aux modèles à effectuer la même tâche sur différentes distributions de données.

L’un des risques liés à tous les types d’apprentissage continu est l’oubli catastrophique : lorsqu’un modèle perd la capacité d’effectuer d’anciennes tâches après avoir été adapté à de nouvelles. Heureusement, les chercheurs en ML ont mis au point plusieurs techniques d’atténuation pour aider les développeurs à éviter l’oubli catastrophique dans la poursuite de l’apprentissage continu.

Avantages du réglage fin

Le réglage fin permet d’adapter les modèles à de nouveaux cas d’utilisation tout en évitant les coûts de développement de nouveaux modèles. De nombreux types de réglage fin augmentent encore l’efficacité en ajustant seulement un petit nombre de paramètres. Le réglage fin est également utile dans les situations où il n’y a pas assez de données pour entraîner un modèle à partir de zéro.

Prompt engineering

Également connue sous le nom d’apprentissage contextuel ou d’apprentissage rapide, l’ingénierie rapide inclut des informations pertinentes dans l’invite afin d’aider le LLM à obtenir de meilleures réponses. Lors de l’inférence, lorsque le modèle contient un prompt, l’utilisateur fournit généralement des instructions explicites et des exemples à suivre.

Par exemple, un modèle à qui l’on demande d’effectuer une synthèse de texte peut avoir un avantage d’une prompt qui lui montre comment formater son résumé, sous forme de liste à puces, par exemple. Des prompts plus complets aident le modèle à renvoyer le type de réponse que l’utilisateur s’attend à recevoir.

Les chercheurs en apprentissage profond ont développé de nombreux types de techniques de prompt engineering. Voici quelques développements marquants :

  • L’apprentissage few-shot : le modèle reçoit plusieurs exemples de sorties (appelés shots) après quoi il peut modéliser ses réponses. Le modèle peut suivre les exemples et baser sa réponse sur les images fournies par l’utilisateur dans le prompt.
     

  • Apprentissage chain-of-thought (CoT) : le prompt fournit une méthode de raisonnement étape par étape que le modèle doit suivre. Le modèle structure sa génération de réponses en fonction du CoT fourni par l’utilisateur. L’incitation CoT est une technique avancée qui nécessite une compréhension approfondie de la façon dont les LLM génèrent des réponses.

Avantages du prompt engineering

Contrairement à de nombreuses autres techniques de personnalisation LLM, le prompt engineering nécessite aucun codage ou développement supplémentaire. Au lieu de cela, les ingénieurs de prompt doivent bien maîtriser le contexte dans lequel le LLM doit être déployé afin de pouvoir créer des prompts efficaces et éclairés.

Lorsqu’il est correctement mis en œuvre, le prompt engineering est une technique précieuse de traitement automatique du langage naturel (NLP) qui permet à tout le monde, en particulier aux débutants en intelligence artificielle (IA), de personnaliser les LLM. Parallèlement à la disponibilité généralisée des LLM open source et des outils d’IA open source, le prompt engineering est une passerelle accessible vers le machine learning qui récompense l’expérimentation, la curiosité et la persévérance.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA