Qu’est-ce qu’un grand modèle de langage (LLM) ?

2 novembre 2023

Qu’est-ce qu’un LLM ?

Les grands modèles de langage (LLM) constituent une catégorie de modèles de fondation entraînés à l’aide d’immenses quantités de données pour comprendre et générer des textes en langage naturel, ainsi que d’autres types de contenu, afin d’accomplir un large éventail de tâches.

Très connus pour avoir contribué à introduire l’IA générative auprès du grand public, les LLM présentent également un grand intérêt pour les entreprises qui cherchent à intégrer l’intelligence artificielle dans leurs fonctions et à multiplier les cas d’utilisation.

En dehors du contexte de l’entreprise, on pourrait croire que les LLM sont sortis de nulle part, en même temps que d’autres avancées en matière d’IA générative. Pourtant, cela fait des années que bon nombre d’entreprises, dont IBM, mettent en œuvre les LLM à différents niveaux pour améliorer la compréhension du langage naturel (NLU) et le traitement automatique du langage naturel (TAL). Parallèlement, d’autres avancées ont été réalisées : machine learning, modèles de machine learning, algorithmes, réseaux neuronaux et modèles de type « transformateur » qui fournissent l’architecture de ces systèmes d’IA.

Les LLM représentent une catégorie de modèles de fondation qui sont entraînés à l’aide de vastes quantités de données afin de fournir les fonctionnalités essentielles pour gérer une multitude de cas d’utilisation et d’applications, et accomplir un grand nombre de tâches. Cette approche est aux antipodes de celle qui consiste à créer et à entraîner des modèles spécifiques à chaque domaine, pour chaque cas d’utilisation, qui est à proscrire à bien des égards (principalement le coût et l’infrastructure), qui freine les synergies et peut même engendrer une baisse des performances.

Les LLM représentent une avancée majeure en matière de TAL et d’intelligence artificielle, et sont facilement accessibles au public grâce à des interfaces telles que Chat GPT-3 et GPT-4 d’Open AI, désormais intégrées par Microsoft. Parmi les autres exemples, citons les modèles Llama de Meta et les modèles BERT/RoBERTa (représentations d’encodeur bidirectionnel à partir de transformateurs) et PaLM de Google. IBM a récemment lancé sa série de modèles Granite sur la plateforme watsonx.ai, devenue l’épine dorsale de l’IA générative qui alimente d’autres produits IBM tels que watsonx Assistant et watsonx Orchestrate. 

En bref, les LLM sont conçus pour comprendre et générer des textes en langage humain, ainsi que d’autres formes de contenu, grâce aux énormes quantités de données utilisées pour les entraîner. Ils ont la capacité de saisir le contexte, de générer des réponses cohérentes et contextuellement pertinentes, de traduire en langues autres que l’anglais, de résumer un texte, de répondre à des questions (conversation générale et FAQ), et même d’accélérer l’écriture créative et les tâches de génération de code

Tout cela est possible grâce aux milliards de paramètres qui leur permettent de saisir des schémas linguistiques complexes et de réaliser un large éventail de tâches ayant trait au langage. Les LLM sont en train de révolutionner les applications dans divers domaines, des chatbots à la traduction en passant par les assistants virtuels, la production de contenu et la recherche.

Parce qu’ils ne cessent d’évoluer et de s’améliorer, les LLM promettent de changer notre façon d’interagir avec la technologie et d’accéder à l’information. Leur rôle dans le paysage numérique moderne est donc fondamental.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Comment fonctionnent les grands modèles de langage ? 

Les LLM s’appuient sur des techniques d’apprentissage profond et de grandes quantités de données textuelles. Ces modèles reposent généralement sur une architecture de type transformateur, comme le transformateur génératif pré-entraîné, qui excelle dans le traitement des données séquentielles telles que les entrées textuelles. Les LLM comportent plusieurs couches de réseaux neuronaux, dont les paramètres peuvent être réglés pendant l’entraînement, et auxquelles vient s’ajouter ce que l’on appelle le mécanisme d’attention. Composé de plusieurs couches, ce dernier se concentre uniquement sur certaines parties du jeu de données.

Pendant la phase d’entraînement, ces modèles apprennent à prédire le mot suivant dans une phrase en fonction du contexte fourni par les mots précédents. Pour ce faire, le modèle attribue un score de probabilité aux séquences de mots ayant fait l’objet d’une tokenisation (découpage en séquences de caractères plus courtes). Ces tokens sont ensuite utilisés pour obtenir des représentations vectorielles du contexte, appelées également embeddings.

Pour garantir leur exactitude, les LLM sont entraînés à l’aide d’un vaste corpus de textes (des milliards de pages). Ils apprennent ainsi grammaire, sémantique et relations conceptuelles grâce à un mécanisme d’apprentissage sans données de référence (« zero-shot learning ») et à l’apprentissage auto-supervisé. Une fois entraînés sur ces données, les LLM peuvent générer des textes en prédisant de manière autonome le mot suivant en fonction de l’entrée qu'ils reçoivent et en s’appuyant sur les modèles et les connaissances qu’ils ont acquis. Le texte ainsi généré est cohérent, pertinent dans le contexte donné et exploitable pour un large éventail de tâches de traitement automatique du langage naturel et de production de contenu.

La performance des modèles peut également être améliorée grâce à des techniques comme le prompt engineering (ou ingénierie des prompts), l’optimisation des prompts, le fine-tuning (ou réglage fin), ou encore l’apprentissage par renforcement avec rétroaction humaine (RLHF). Toutes ces pratiques permettent d’éliminer les biais, les propos haineux et les réponses factuellement incorrectes. Appelées « hallucinations », ces dernières sont souvent le résultat indésirable des entraînements réalisés sur une grande quantité de données non structurées. Il s’agit de l’un des aspects les plus importants à prendre en compte pour garantir que les LLM sont prêts à être utilisés, qu’ils n’exposent pas l’entreprise à des conséquences juridiques et qu’ils n’affectent pas sa réputation. 

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Cas d’utilisation des LLM

Polyvalents, les LLM redéfinissent un nombre croissant de processus métier, ayant prouvé leur efficacité dans une multitude de cas d'utilisation, de tâches et de secteurs d’activité. Ils optimisent les chatbots conversationnels et les assistants virtuels alimentés par l’IA (comme IBM watsonx Assistant et Google Bard). En fournissant des réponses contextuelles qui imitent les échanges humains, ils permettent d’améliorer l’interaction et d’offrir un service client d’exception

Les LLM excellent également dans la production de contenu grâce à leur capacité à automatiser les tâches de rédaction (articles de blog, textes commerciaux ou de marketing, etc.). Dans le domaine académique et la recherche, ils facilitent la synthèse et l’extraction d’informations à partir de vastes jeux de données afin d’accélérer la découverte de connaissances. Les LLM jouent également un rôle important dans la traduction : capables de traduire avec exactitude et pertinence, ils contribuent à faire tomber les barrières linguistiques. Ils peuvent même être utilisés pour écrire du code ou « traduire » d’un langage de programmation à un autre.

En outre, les LLM améliorent l’accessibilité grâce aux applications de synthèse vocale et à la production de contenu dans des formats accessibles aux personnes en situation de handicap. Les LLM rationalisent les processus, améliorent l’expérience client et optimisent la prise de décision axée sur les données, transformant tous les secteurs, de la santé à la finance.

Qui plus est, toutes ces fonctionnalités sont facilement accessibles : dans certains cas, une intégration d’API suffit.

Voici les principaux usages des LLM en entreprise :

  • Production de textes : rédaction d’e-mails, d’articles de blog ou de tout autre type de contenu de longueur moyenne à grande, en réponse à des prompts qui peuvent être réglés et peaufinés. La génération augmentée par récupération (RAG) en est un excellent exemple. 

  • Synthèse de texte : capacité à résumer des articles longs, des reportages, des rapports de recherche, la documentation d’entreprise et même l’historique client pour en faire des textes détaillés, dont la longueur est adaptée au format de sortie.

  • Assistants IA : chatbots conçus pour répondre aux questions des clients, accomplir des tâches back-end et fournir des informations détaillées en langage naturel, grâce à l’intégration d’une solution de service client en libre-service. 

  • Génération de code : les LLM aident les développeurs à créer des applications, à détecter les erreurs de codage et les problèmes de sécurité dans divers langages de programmation, et même à « traduire » d’un langage de programmation à un autre.

  • Analyse de sentiments : analyse de texte pour déterminer le ton employé par le client, comprendre son ressenti à l’échelle et aider les marques à optimiser la gestion de leur réputation. 

  • Traduction : couverture linguistique et géographique plus importante, traduction fluide et capacités multilingues.

Si les LLM promettent d’impacter tous les secteurs, de la finance à la santé en passant par l’assurance et les ressources humaines, c’est grâce à leur capacité à automatiser le service client en libre-service, à accélérer les temps de réponse associés à un nombre croissant de tâches, à améliorer la précision, l’acheminement et le recueil de contexte intelligent.

LLM et gouvernance

Les entreprises ont besoin d’une gouvernance solide pour exploiter pleinement le potentiel des modèles d’IA et révolutionner leur façon de travailler. Pour ce faire, elles doivent se doter de technologies et d’outils d’IA fiables, transparents, responsables et sécurisés. La gouvernance et la traçabilité de l’IA sont deux autres aspects fondamentaux des solutions qu’IBM propose à ses clients. Les activités qui intègrent l’IA sont efficacement gérées et surveillées pour garantir que les origines, les données et les modèles sont contrôlés de façon vérifiable et responsable

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA