Qu’est-ce qu’un grand modèle de langage (LLM) ?

Auteur

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce qu’un LLM ?

Les grands modèles de langage (LLM) constituent une catégorie de modèles d’apprentissage profond de entraînés à l’aide d’immenses quantités de données pour comprendre et générer des textes en langage naturel, ainsi que d’autres types de contenus, afin d’accomplir un large éventail de tâches. Les LLM sont construits sur une architecture de réseaux de neurones appelée Transformer , qui excelle dans la gestion des séquences de mots et la capture des schémas dans le texte.

Les LLM fonctionnent comme des machines de prédiction statistique géantes qui prédisent à plusieurs reprises le mot suivant dans une séquence. Ils apprennent des schémas dans leur texte et génèrent un langage qui suit ces schémas.

Les LLM représentent un bond en avant majeur dans la façon dont les humains interagissent avec la technologie, car il s’agit du premier système d’IA capable de gérer le langage humain non structuré à l’échelle, qui permet une communication naturelle avec les machines. Là où les moteurs de recherche traditionnels et d’autres systèmes programmés utilisaient des algorithmes pour faire correspondre les mots clés, les LLM capturent le contexte, les nuances et le raisonnement plus profonds. Les LLM, une fois entraînés, peuvent s’adapter à de nombreuses applications qui impliquent l’interprétation de texte, comme la synthèse d’un article, le débogage de code ou la rédaction d’une clause juridique. Lorsqu’on leur confère des capacités agentiques, les LLM peuvent effectuer, avec divers degrés d’autonomie, diverses tâches qui seraient en temps normal exécutées par des humains.

Les LLM sont l’aboutissement de décennies de progrès dans le domaine du traitement automatique du langage naturel (NLP) et de la recherche en machine learning, et leur développement est en grande partie responsable de l’explosion des progrès de l’intelligence artificielle à la fin des années 2010 et dans les années 2020. Les LLM sont devenus des noms connus et ont placé l’IA générative au premier plan de l’intérêt du public. Les LLM sont également largement utilisés dans les entreprises, et ces dernières investissent massivement dans de nombreuses fonctions métier et dans de nombreux cas d’utilisation.

Les LLM sont facilement accessibles au public grâce à des interfaces telles que Claude d’Anthropic,ChatGPT d’Open AI, Copilot de Microsoft, les modèles Llama de Meta et l’assistant Gemini de Google, ainsi que ses modèles BERT et PaLM. IBM propose une série de modèles Granite sur la plateforme watsonx.ai, devenue l’épine dorsale de l’IA générative qui alimente d’autres produits d’IBM tels que watsonx Assistant et watsonx Orchestrate. 

Pré-entraînement des grands modèles de langage

L’entraînement commence avec une énorme quantité de donnée  : des milliards ou des trilliards de mots provenant de livres, d’articles, de sites web, de code et d’autres sources de texte. Les data scientists supervisent le nettoyage et le pré-traitement pour supprimer les erreurs, les doublons et le contenu indésirable.

Ce texte est décomposé en unités plus petites et lisibles par les machines, appelées « tokens », au cours du processus de « tokenisation ». Les tokens sont des unités plus petites comme les mots, les sous-mots ou les caractères. Cette opération normalise le langage afin que les mots rares et nouveaux puissent être traités de manière cohérente.

Les LLM sont initialement entraînés avec l’apprentissage auto-supervisé, une technique de machine learning qui utilise des données non étiquetées pour l’apprentissage supervisé. L’apprentissage auto-supervisé ne nécessite pas de jeux de données étiquetés, mais il est étroitement lié à l’apprentissage supervisé en ce sens qu’il optimise les performances par rapport à une « vérité de terrain ». Dans l’apprentissage auto-supervisé, les tâches sont conçues de sorte que la « vérité de terrain » puisse être déduite à partir de données non étiquetées. Au lieu de se voir dire quelle est la « sortie correcte » pour chaque entrée, comme dans l’apprentissage supervisé, le modèle essaie de trouver des schémas, des structures ou des relations dans les données par lui-même.

Auto-attention

Le modèle fait passer les tokens par un réseau de Transformers. Les modèles de Transformers, qui sont apparus en 2017, sont utiles en raison de leur mécanisme d’auto-attention, qui leur permet de « prêter attention à » différents tokens à différents moments. Cette technique est la pièce maîtresse du Transformer et représente son innovation phare. L’auto-attention est utile en partie parce qu’elle permet au modèle d’IA de calculer les relations et les dépendances entre les tokens, en particulier ceux qui sont éloignés les uns des autres dans le texte. Les architectures de Transformers permettent également la parallélisation, ce qui rend le processus beaucoup plus efficace que les méthodes précédentes. Ces qualités ont permis aux LLM de gérer des jeux de données d’une taille sans précédent.

Une fois le texte divisé en tokens, chaque token est mappé à un vecteur de nombres appelé un plongement. Les réseaux de neurones sont constitués de couches de neurones artificiels, où chaque neurone effectue une opération mathématique. Les Transformers sont composés de plusieurs couches et, à chacune, les plongements sont légèrement ajustés, devenant ainsi des représentations contextuelles plus riches d’une couche à l’autre.

L’objectif de ce processus est de permettre au modèle d’apprendre les associations sémantiques entre les mots, de sorte que le mot « bark » (aboyer) et le mot « dog » (chien) apparaissent plus près l’un de l’autre dans l’espace vectoriel d’un texte sur les chiens que le mot « bark » (écorce) et le mot « tree » (arbre), en se basant sur les mots environnants liés aux chiens dans l’essai. Les Transformers ajoutent également des encodages positionnels, qui fournissent à chaque token des informations sur sa place dans la séquence.

Pour calculer l’attention, chaque plongement est projeté dans trois vecteurs distincts à l’aide de matrices de poids apprises : une requête, une clé et une valeur. La requête représente ce qu’un token donné « recherche », la clé représente les informations que chaque token contient, et la valeur « renvoie » les informations de chaque vecteur clé, mise à l’échelle par son poids d’attention respectif.

Les scores d’alignement sont ensuite calculés en fonction de la similarité entre les requêtes et les clés. Ces scores, une fois normalisés en pondérations d’attention, déterminent la quantité de chaque vecteur de valeur qui circule dans la représentation du token actuel. Ce processus permet au modèle de se concentrer de manière flexible sur le contexte pertinent tout en ignorant les tokens moins importants (comme « arbre »).

L’auto-attention crée ainsi des connexions « pondérées » entre tous les tokens, de manière plus efficace que les architectures antérieures ne le pouvaient. Le modèle attribue une pondération à chaque relation entre les tokens. Les LLM peuvent avoir des milliards ou des trilliards de ces poids, qui sont un type de paramètre LLM, les variables de configuration internes d’un modèle de machine learning qui contrôlent la façon dont il traite les données et fait des prédictions. Le nombre de paramètres fait référence au nombre de ces variables qui existent dans un modèle, certains LLM contenant des milliards de paramètres. Les petits modèles de langage sont plus petits en échelle et en portée et incluent relativement peu de paramètres, ce qui les rend adaptés aux déploiements sur des appareils plus petits ou dans des environnements à ressources limitées.

Durant l’entraînement, le modèle effectue des prédictions sur des millions d’exemples tirés de ses données d’entraînement, et une fonction de perte quantifie l’erreur de chaque prédiction. Grâce à un cycle itératif de prédictions puis de mise à jour des poids du modèle par rétropropagation et descente de gradient, le modèle « apprend » les poids des couches qui produisent les vecteurs requête, clé et valeur.

Une fois que ces poids sont suffisamment optimisés, ils peuvent prendre en compte l’plongement de vecteur original de n’importe quel token et produire des vecteurs de requête, de clé et de valeur qui, en interagissant avec les vecteurs générés pour tous les autres tokens, donnent de meilleurs résultats d’alignement, qui se traduisent à leur tour par des pondérations d’attention qui aident le modèle à produire de meilleures productions. Le résultat final est un modèle qui a appris des schémas dans la grammaire, les faits, les structures de raisonnement, les styles d’écriture et plus encore.

Réglage fin des grands modèles de langage

Après l’entraînement (ou dans le contexte d’un entraînement supplémentaire, le « préentraînement »), les LLM peuvent être ajustés pour les rendre plus utiles dans certains contextes. Par exemple, un modèle fondamental formé sur un jeu de données de connaissances générales peut être affiné à partir d’un corpus de questions et réponses juridiques afin de créer un chatbot pour le domaine juridique.

Voici quelques-unes des formes les plus courantes de réglage fin. Les professionnels peuvent utiliser une méthode ou une combinaison de plusieurs méthodes.

Une mise au point supervisée

Le réglage fin se produit le plus souvent dans un contexte supervisé avec un jeu de données beaucoup plus petit et étiqueté. Le modèle met à jour ses pondérations pour mieux correspondre à la nouvelle vérité de terrain (dans ce cas, les données étiquetées).

Alors que le pré-entraînement vise à transmettre des connaissances générales au modèle, le réglage fin adapte un modèle à usage général à des tâches spécifiques telles que le récapitulatif, la classification ou le support client. Ces adaptations fonctionnelles représentent de nouveaux types de tâches. Le réglage fin supervisé permet d’obtenir des résultats plus proches des exemples fournis par les humains, et nécessite beaucoup moins de ressources que l’entraînement à partir de zéro.

Le réglage fin supervisé est également utile pour la personnalisation spécifique à un domaine, comme l’entraînement d’un modèle sur des documents médicaux, afin qu’il puisse répondre à des questions liées aux soins de santé. 

Apprentissage par renforcement basé sur la rétroaction humaine

Pour affiner les modèles, les data scientists ont souvent recours à l’apprentissage par renforcement à partir de rétroactions humaines (RLHF), une forme de réglage par laquelle les humains classent les productions du modèle et le modèle est entraîné à préférer les productions que les humains classent plus haut. Le RLHF est souvent utilisé dans l’alignement, un processus qui consiste à rendre les sorties du LLM utiles, sûres et cohérentes avec les valeurs humaines.

Le RLHF est également particulièrement utile pour l’alignement stylistique, grâce auquel un LLM peut être ajusté pour répondre d’une manière plus décontractée, amusante ou cohérente avec la marque. L’alignement stylistique implique un entraînement pour les mêmes types de tâches, mais la production de résultats dans un style spécifique.

Modèles de raisonnement

Le réglage fin purement supervisé apprend à un modèle à imiter des exemples, mais il n’encourage pas nécessairement un meilleur raisonnement, car il implique des processus abstraits à plusieurs étapes. Ces tâches ne disposent pas toujours de données étiquetées abondantes, c’est pourquoi l’apprentissage par renforcement est souvent utilisé dans la création de modèles de raisonnement, des LLM qui ont été affinés pour décomposer les problèmes complexes en étapes plus petites, souvent appelées « traces de raisonnement », avant de générer une sortie finale. Des moyens d’entraînement de plus en plus sophistiqués leur offrent un raisonnement par chaîne de pensée et d’autres stratégies de prise de décision à plusieurs étapes.

Réglage par instructions

Une autre forme de personnalisation des LLM est le réglage des instructions, un processus spécialement conçu pour améliorer la capacité d’un modèle à suivre des instructions humaines. Les échantillons d’entrée dans un jeu de données d’instructions sont entièrement constitués de tâches qui ressemblent à des requêtes que les utilisateurs pourraient effectuer dans leurs prompts ; les productions démontrent les réponses souhaitables à ces requêtes. Étant donné que les LLM préentraînés ne sont pas intrinsèquement optimisés pour suivre des instructions ou atteindre des objectifs conversationnels, le réglage des instructions permet de mieux aligner le modèle sur l’intention de l’utilisateur.

Utiliser des grands modèles de langage

Une fois entraînés, les grands modèles de langage répondent aux prompts en tokenisant le prompt, en le convertissant en plongements, et en utilisant son Transformer pour générer du texte un token à la fois, en calculant les probabilités pour tous les tokens suivants potentiels, et en produisant le plus probable. Ce processus, appelé inférence, est répété jusqu’à ce que la sortie soit complète. Le modèle ne « connaît » pas la réponse finale à l’avance ; il utilise toutes les relations statistiques qu’il a apprises lors de l’entraînement pour prédire un token à la fois, en faisant son meilleur choix à chaque étape.

Le moyen le plus simple et le plus rapide d’obtenir des connaissances spécifiques à un domaine à partir d’un LLM à usage général est de recourir au prompt engineering, qui ne nécessite pas de formation supplémentaire. Les utilisateurs peuvent modifier les invites de toutes sortes de façons. Par exemple, un prompt tel que « répondre à la manière d’un professionnel de la santé formé » pourrait donner des résultats plus pertinents (notez cependant qu’il est déconseillé d’utiliser les LLM pour des conseils d’ordre médical !).

Les LLM disposent d’autres stratégies pour contrôler leurs productions, telles que la température du LLM, qui contrôle le caractère aléatoire du texte généré par les LLM lors de l’inférence, ou l’échantillonnage top-k/top-p, qui limite l’ensemble des tokens considérés comme les plus probables, en équilibrant créativité et cohérence.

La fenêtre de contexte est le nombre maximum de tokens qu’un modèle peut « voir » et utiliser simultanément lors de la génération d’un texte. Les premiers LLM avaient des fenêtres courtes, mais les nouveaux LLM ont des centaines de milliers de tokens dans leur fenêtre contextuelle, ce qui permet des cas d’utilisation comme la synthèse d’articles de recherche entiers, l’assistance de code sur de grandes bases de code et la tenue de longues conversations continues avec les utilisateurs.

La génération augmentée de récupération (RAG) est une méthode qui permet de connecter un modèle préentraîné à des bases de connaissances externes, le but étant de fournir des réponses plus pertinentes avec un niveau de précision plus élevé. Les informations récupérées sont transmises à la fenêtre contextuelle du modèle, afin que ce dernier puisse les utiliser lors de la génération de réponses, sans avoir besoin de procéder à un nouvel entraînement. Par exemple, en connectant un LLM à une base de données de services météorologiques dynamiques, un LLM peut récupérer des informations pour un utilisateur sur le bulletin météo du jour.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Déploiement des LLM

Créer un LLM à partir de zéro est un processus complexe et gourmand en ressources. Les LLM les plus populaires sont le résultat d’immenses quantités de données, de GPU, d’énergie et d’expertise humaine, c’est pourquoi la plupart sont créés et entretenus par de grandes entreprises technologiques qui disposent de ressources considérables.

Cependant, bon nombre de ces modèles sont accessibles à tous les développeurs grâce aux API. Les développeurs peuvent utiliser des modèles pré-entraînés pour créer des chatbots, des systèmes de recherche de connaissances, des outils d’automatisation et plus encore. Pour plus de contrôle des données et de personnalisation, de nombreux modèles open source peuvent être déployés localement ou dans le cloud. Github, Hugging Face, Kaggle et d’autres plateformes rendent le développement de l’IA accessible à tous.

Les développeurs peuvent utiliser les LLM comme base pour toutes sortes d’applications d’IA. Le système agentique est l’un des développements les plus passionnants de l’IA. Les agents IA ne se contentent pas de réfléchir : ils agissent. À eux seuls, les LLM génèrent simplement du texte en fonction du contexte, mais ils peuvent être intégrés à une mémoire, à des API, à une logique de décision et à d’autres systèmes externes pour effectuer des tâches spécifiques, comme la réservation d’un vol ou le pilotage d’un véhicule autonome.

Cas d’utilisation des grands modèles de langage 

Polyvalents, les LLM redéfinissent les processus métier et ont prouvé leur efficacité dans une multitude de cas d’utilisation et de secteurs d’activité.

  • Génération de texte : les LLM peuvent effectuer toutes sortes de tâches de création de contenus, comme la rédaction d’e-mails, d’articles de blog ou de notes juridiques en réponse à des prompts.

  • Résumés de textes : les LLM peuvent résumer des articles longs, des reportages, des rapports de recherche, de la documentation d’entreprise et des historiques client pour en faire des textes détaillés, dont la longueur est adaptée à la production souhaitée.

  • Génération de code : les LLM aident les développeurs à créer des applications, à détecter les erreurs de codage et les problèmes de sécurité dans divers langages de programmation, et même à « traduire » d’un langage de programmation à un autre.

  • Analyse des sentiments : le ton du client est analysé afin de mieux comprendre les rétroactions des clients à grande échelle. 

  • Traduction : couverture linguistique et géographique plus importante, traduction fluide et capacités multilingues.

  • Raisonnement : les LLM peuvent résoudre des problèmes mathématiques, planifier des processus en plusieurs étapes et expliquer des concepts complexes en des termes plus simples.

Évaluation des LLM

Les LLM sont des outils puissants, mais ils présentent plusieurs limites. L’un des principaux écueils est la précision. Dans les cas d’hallucinations, le modèle génère des informations fausses ou trompeuses qui semblent plausibles. Les LLM peuvent également refléter et amplifier les biais présents dans leurs données d’entraînement et produire ainsi des sorties pouvant être ressenties comme injustes ou offensantes. De plus, leurs besoins en ressources sont importantes : l’entraînement et l’exécution des LLM nécessitent de grandes quantités d’énergie, ce qui augmente les coûts et les préoccupations environnementales.

Les praticiens peuvent atténuer ces aspects négatifs des LLM grâce à la gouvernance de l’IA, aux processus, aux normes et aux garde-fous, qui permettent de garantir la sécurité et l’éthique des systèmes et des outils d’IA. L’un des éléments clés de la gouvernance consiste à évaluer les modèles par rapport aux étalons de référence. Les étalons de référence des LLM fournissent des scores quantitatifs, ce qui facilite la comparaison des modèles. Les LLM étant des systèmes à usage général capables d’effectuer une grande variété de tâches, leur évaluation nécessite plusieurs dimensions plutôt qu’un seul étalon de référence. Les chercheurs et les spécialistes examinent des qualités telles que la précision, l’efficacité, la sécurité, l’équité et la robustesse pour déterminer les performances d’un modèle.

Les LLM sont également évalués sur la base de l’alignement et de la sécurité, avec des techniques comme le red-teaming, où les évaluateurs tentent de faire en sorte que le modèle produise des réponses dangereuses ou biaisées pour exposer les faiblesses. En effet, l’évaluation de l’équité et des biais peuvent permettre aux praticiens d’empêcher que les LLM ne reproduisent des stéréotypes nuisibles ou des informations erronées.

En général, les LLM sont également évalués sur la base de l’efficacité. La vitesse, la consommation d’énergie, le débit des tokens, l’encombrement et la capacité à gérer de longues fenêtres contextuelles font partie des indicateurs couramment utilisés pour évaluer l’efficacité avec laquelle les LLM produisent des sorties.

Bref historique des LLM

L’histoire des LLM remonte aux débuts de l’informatique et du traitement automatique du langage naturel, lorsque les chercheurs utilisaient des systèmes basés sur des règles et des méthodes statistiques pour modéliser des textes. Ces premières approches pouvaient capturer des schémas de mots locaux, mais ne comprenaient pas les dépendances à longue distance ou une sémantique plus profonde.

Un changement majeur s’est produit dans les années 2010 avec l’essor des réseaux neuronaux, avec des plongements comme Word2Vec et GloVe, qui représentaient les mots sous forme de vecteurs dans un espace continu, ce qui permettait aux modèles d’apprendre les relations sémantiques. Des modèles de séquence tels que les réseaux de neurones récurrents et les réseaux à mémoire à long et à court terme (LSTM) sont apparus pour mieux gérer les données séquentielles.

En 2017, Vaswani et al. a introduit l’architecture transformatrice encodeur-décodeur dans le document phare « Attention Is All You Need ». [1] Les Transformers permettent d’entraîner des modèles sur de grands jeux de données et marquent ainsi le début de l’ère moderne des LLM. Le BERT (2018) de Google, un Transformer encodeur uniquement, a démontré la puissance des Transformers pour comprendre le langage, tandis que la série des Generative Pretrained transformer (GPT) d’OpenAI, basée sur une variante décodeur uniquement, a montré comment le préentraînement génératif sur des textes à l’échelle de l’Internet pouvait donner une génération de langage remarquablement fluide. À l’époque, les modèles d’encodeurs-décodeurs comme le T5 de Google et le BART de Facebook ont démontré les forces de la conception séquence à séquence complète pour des tâches telles que la traduction et le résumé. Le GPT-2 (2019) a attiré l’attention pour sa capacité à générer des paragraphes cohérents, tandis que le GPT-3 (2020), avec 175 milliards de paramètres, a confirmé les LLM comme une force de transformation dans l’IA.

En outre, les nouvelles architectures remettent en question la popularité des Transformers dans les LLM. Les modèles Mamba fonctionnent en utilisant un modèle d’espace d’état avec des mises à jour sélectives qui filtrent et combinent efficacement les informations passées, ce qui leur permet de capturer des dépendances à longue distance. Les LLM de diffusion commencent par un bruit aléatoire qu’ils suppriment progressivement, guidés par un modèle appris, jusqu’à l’émergence d’un texte cohérent. Les deux architectures peuvent être beaucoup plus efficaces que les Transformers.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

1. « Attention is all you Need », Vaswani et al, arXiv, 12 juin 2017