Qu’est-ce qu’un petit modèle de langage ?

Auteurs

Rina Diane Caballar

Staff Writer

IBM Think

Qu’est-ce qu’un petit modèle de langage ?

Les petits modèles de langage (SLM) sont des modèles d’intelligence artificielle (IA) capables de traiter, de comprendre et de générer du contenu en langage naturel. Comme leur nom l’indique, les SLM sont plus petits que les grands modèles de langage (LLM) en termes d’échelle et de portée.

En termes de taille, les paramètres des SLM vont de quelques millions à quelques milliards, alors que les LLM en contiennent des centaines de milliards, voire de billions de paramètres. Les paramètres sont des variables internes, comme des poids et des biais, qu’un modèle apprend pendant l’entraînement. Ces paramètres influencent le comportement et les performances du modèle de machine learning.

Les petits modèles de langage sont plus compacts et plus efficaces que leurs homologues de grande taille. De ce fait, les SLM nécessitent moins de mémoire et de puissance de calcul, ce qui en fait une solution idéale pour les environnements où les ressources sont limitées, comme les dispositifs edge et les applications mobiles, ou même pour les scénarios dans lesquels l’inférence de l’IA (lorsqu’un modèle génère une réponse à la requête d’un utilisateur) doit être exécutée hors ligne sans réseau de données.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Comment fonctionnent les petits modèles de langage

Les LLM servent de base aux SLM. À l’instar des grands modèles de langage, les petits modèles utilisent une architecture basée sur des réseaux neuronaux que l’on appelle modèle de transformeur. Les transformeurs jouent un rôle fondamental dans le traitement automatique du langage naturel (NLP) et servent de composants de base aux modèles tels que GPT (Generative Pre-trained Transformer, transformeur génératif pré-entraîné).

Voici un bref aperçu de l’architecture transformatrice :

  • Les encodeurs transforment les séquences d’entrée en représentations numériques appelées embeddings qui capturent la sémantique et la position des tokens dans la séquence d’entrée.

  • Un mécanisme d’auto-attention permet aux transformateurs de « concentrer leur attention » sur les tokens les plus importants de la séquence d’entrée, quelle que soit leur position.
  • Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Compression des modèles

Des techniques de compression de modèle sont appliquées pour construire un modèle plus léger à partir d’un modèle plus grand. La compression d’un modèle implique de réduire sa taille tout en conservant le niveau de précision le plus élevé possible. Voici quelques méthodes de compression courantes :

  • Élagage

  • Quantification

  • Factorisation de bas rang

  • Distillation des connaissances

Élagage

L’élagage élimine les paramètres redondants, inutiles ou moins essentiels d’un réseau neuronal. Les paramètres généralement éliminés incluent les poids numériques correspondant aux connexions entre les neurones (dans ce cas, les poids seront définis sur 0), les neurones eux-mêmes ou les couches du réseau neuronal.

Les modèles élagués doivent souvent être affinés après l’élagage pour compenser toute perte de précision. En outre, il est essentiel de savoir quand suffisamment de paramètres ont été éliminés, car un élagage excessif peut dégrader les performances du modèle.

Quantification

La quantification convertit les données de haute précision en données de moindre précision. Par exemple, les poids du modèle et ses valeurs d’activation (un nombre compris entre 0 et 1 attribué aux neurones d’un réseau neuronal) peuvent être représentés sous forme d’entiers de 8 bits au lieu de nombres à virgule flottante de 32 bits. La quantification peut alléger la charge de calcul et accélérer l’inférence.

La quantification peut être intégrée à l’entraînement des modèles (entraînement avec quantification ou QAT) ou effectuée après l’entraînement (quantification post-entraînement ou PTQ). La PTQ ne nécessite pas autant de puissance de calcul et de données d’entraînement que le QAT, mais le QAT peut produire un modèle plus précis.

Factorisation de bas rang

La factorisation de bas rang décompose une grande matrice de poids en une matrice plus petite de rang inférieur. Cette approximation plus compacte peut se traduire par une réduction du nombre de paramètres, une diminution du nombre de calculs et une simplification des opérations matricielles complexes.

Cependant, la factorisation de bas rang peut nécessiter beaucoup de calculs et être plus difficile à mettre en œuvre. Tout comme l’élagage, le réseau factorisé devra être affiné pour compenser toute perte de précision.

Distillation des connaissances

La distillation des connaissances implique le transfert des connaissances d’un « modèle enseignant » pré-entraîné vers un « modèle élève ». Le modèle élève est entraîné non seulement à égaler les prédictions du modèle enseignant, mais également à imiter son processus de raisonnement sous-jacent : les connaissances du modèle plus grand sont ainsi « distillées » dans le modèle plus petit.

La distillation des connaissances est une approche populaire pour de nombreux SLM. Le schéma de distillation hors ligne est généralement utilisé : les poids du modèle enseignant sont gelés et ne peuvent pas être modifiés pendant le processus de distillation.

AI Academy

Choisissez le modèle IA adapté à votre cas d’utilisation

Quand il s’agit de modèles IA, voir grand n’est pas toujours la meilleure idée. Découvrez comment trouver la solution adaptée aux besoins de votre entreprise. Téléchargez ensuite notre guide pour vous aider à passer à l’action.

Exemples de petits modèles de langage

Si les modèles plus grands restent une technologie de choix pour de nombreuses entreprises, les modèles plus petits gagnent rapidement du terrain. Voici quelques exemples de SLM populaires :

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBERT est une version allégée du modèle de fondation BERT de Google. La distillation des connaissances a réduit sa taille de 40 % et augmenté sa vitesse de 60 % par rapport à son prédécesseur, tout en conservant 97 % des capacités de compréhension du langage naturel de BERT1.

Il existe d’autres versions réduites de BERT : Tiny avec 4,4 millions de paramètres, Mini avec 11,3 millions de paramètres, Small avec 29,1 millions de paramètres et Medium avec 41,7 millions de paramètres2. MobileBERT est quant à lui adapté aux appareils mobiles3.

Gemma

Gemma est conçu et distillé à partir de la même technologie que le LLM Gemini de Google et il est disponible avec 2, 7 ou 9 milliards de paramètres4. Gemma est disponible via Google IA Studio et les plateformes Kaggle et Hugging Face.

Gemini propose également des variantes plus légères, Gemini 1.5 Flash-8B et Gemini 1.0 Nano, conçues pour fonctionner sur des appareils mobiles5.

GPT-4o mini

GPT-4o mini fait partie de la famille de modèles d’IA GPT-4 d’OpenAI, qui optimise le chatbot d’IA générative ChatGPT. GPT-4o mini est une variante plus petite et plus économique de GPT-4o. Il est doté de capacités multimodales : il accepte à la fois les entrées texte et image, et il produit des sorties texte.

Les utilisateurs de ChatGPT gratuit, Plus, Team et Enterprise peuvent accéder à GPT-4o mini, qui remplace GPT-3.5. Les développeurs peuvent accéder à GPT-4o mini via diverses interfaces de programmation des applications (API).

Granite

Granite est la série phare d’IBM de modèles de fondation de LLM. La collection Granite 3.0 comprend des modèles de base pré-entraînés et réglés par instructions avec 2 et 8 milliards de paramètres. Granite 3.0 comprend également des SLM MoE (mélange d’experts) pour une latence minimale, et une variante optimisée pour augmenter la vitesse d’inférence du modèle.

Ces modèles open source excellent non seulement dans les tâches linguistiques spécifiques, mais aussi dans plusieurs domaines d’entreprise : la cybersécurité, avec des agents d’IA utilisant un outil ou une fonction d’appel pour effectuer des tâches de manière autonome, et dans les tâches de génération augmentée de récupération (RAG), qui impliquent la récupération de faits à partir d’une base de connaissances externe pour fonder les modèles sur les informations les plus précises et les plus récentes.

Les modèles Granite 3.0 sont disponibles pour un usage commercial sur les solutions du portefeuille IBM watsonx et via Google Vertex AI, Hugging Face, NVIDIA (en tant que microservices NIM), Ollama et Replicate.

Llama

Llama est la famille de modèles de langage open source de Meta. Llama 3.2 est disponible en version 1 ou 3 milliards de paramètres6, des modèles encore plus petits que la version précédente de 7 milliards de paramètres de Llama 27.

Les versions quantifiées de ces modèles textuels multilingues ont été réduites de plus de moitié et sont 2 à 3 fois plus rapides6. Ces SLM sont accessibles via les plateformes Meta, Hugging Face et Kaggle.

Ministral

Les Ministraux est un groupe de SLM de Mistral AI. Ministral 3B est le plus petit modèle de l’entreprise avec 3 milliards de paramètres, tandis que Ministral 8B, avec 8 milliards de paramètres, succède à Mistral 7B, l’un des premiers modèles d’IA publiés par Mistral AI. Ces deux modèles sont accessibles via la plateforme Mistral8.

Ministral 8B surpasse Mistral 7B sur les benchmarks évaluant les connaissances, le bon sens, les capacités mathématiques et les compétences multilingues. Pour une inférence rapide, Ministral 8B utilise l’attention à fenêtre glissante, un mécanisme dynamique permettant aux modèles de se concentrer sur certaines « fenêtres » de séquences d’entrée de taille fixe : les modèles peuvent se concentrer sur seulement quelques mots à la fois8.

Phi

Phi est une suite de petits modèles de langage de Microsoft. Phi-2 compte 2,7 milliards de paramètres, tandis que Phi-3-mini en contient 3,8 milliards9.

Phi-3-mini peut analyser de longs contenus textuels et raisonner dessus grâce à sa longue fenêtre de contexte (la quantité maximale de texte qu’un modèle peut prendre en compte). Microsoft Azure indique que Phi-3-small, son SLM de 7 milliards de paramètres, sera disponible prochainement. Phi-3-mini est accessible sur Microsoft Azure AI Studio, Hugging Face et Ollama9.

Combiner les LLM et les SLM

Les progrès dans le développement de l’IA ont conduit à des approches d’optimisation maximisant la puissance conjointe des LLM et des SLM :

Modèle d’IA hybride : un modèle d’IA hybride peut comporter des petits modèles fonctionnant sur site, mais capables d’accéder à des LLM dans le cloud public lorsqu’un corpus de données plus important est nécessaire pour répondre à un prompt.

Routage intelligent : un routage intelligent peut être appliqué pour distribuer plus efficacement les workloads d’IA. Un module de routage peut être créé pour accepter les requêtes, les évaluer et choisir le modèle le plus approprié pour les gérer. Les petits modèles de langage peuvent traiter les requêtes de base, tandis que les grands modèles de langage peuvent gérer les requêtes plus complexes.

Avantages des petits modèles de langage

Un modèle plus grand n’est pas forcément plus efficace, et la petite taille des SLM est compensée par les avantages suivants :

Accessibilité : les chercheurs, les développeurs d’IA et d’autres utilisateurs peuvent explorer et expérimenter des modèles de langage sans avoir à investir dans une multitude de GPU (unités de traitement graphique) ou dans d’autres équipements spécialisés.

Efficacité : la légèreté des SLM les rend moins gourmands en ressources, pour un entraînement et un déploiement rapides.

Performance efficace : cette efficacité ne se fait pas au détriment de la performance. Les petits modèles peuvent présenter des performances comparables, voire supérieures, à celles de leurs équivalents de grande taille. Par exemple, GPT-4o mini surpasse GPT-3.5 Turbo en termes de compréhension du langage, de réponse aux questions, de raisonnement de bon sens, de raisonnement mathématique et de génération de code dans les benchmarks de LLM10. Les performances de GPT-4o mini sont également proches de celles de son grand frère GPT-4o10.

Contrôle accru de la confidentialité et de la sécurité : en raison de leur taille réduite, les SLM peuvent être déployés dans des environnements de cloud computing privé ou sur site, pour une protection des données, une gestion et une atténuation des menaces de cybersécurité améliorées. Cela peut s’avérer particulièrement utile dans des secteurs comme la finance ou la santé, où la confidentialité et la sécurité sont primordiales.

Latence réduite : la réduction du nombre de paramètres se traduit par une réduction des temps de traitement, permettant aux SLM de répondre plus rapidement. Par exemple, Granite 3.0 1B-A400M et Granite 3.0 3B-A800M contiennent au total 1 milliard et 3 milliards de paramètres respectivement, mais au moment de l’inférence, le modèle 1B compte 400 millions de paramètres actifs et le modèle 3B 800 millions. Cela permet à ces deux SLM de minimiser la latence tout en offrant des performances d’inférence élevées.

Meilleure durabilité environnementale : parce qu’ils nécessitent moins de ressources, les petits modèles linguistiques consomment moins d’énergie, ce qui réduit leur empreinte carbone.

Coûts réduits : les organisations peuvent économiser sur les dépenses de développement, d’infrastructure et d’exploitation (acquisition d’énormes quantités de données d’apprentissage de haute qualité et utilisation de matériel avancé par exemple), qui seraient nécessaires pour exécuter des modèles massifs.

Limites des petits modèles de langage

Comme les LLM, les SLM sont aux prises avec les risques liés à l’IA. Il s’agit d’un point à prendre en considération pour les entreprises qui cherchent à intégrer des petits modèles de langage dans leurs workflows internes ou à les mettre en œuvre commercialement pour des applications spécifiques.

Biais : les modèles plus petits peuvent apprendre du biais présent chez leurs homologues plus grands, et cela peut se refléter dans leurs sorties.

Performance réduite sur les tâches complexes : étant donné que les SLM sont généralement adaptés à des tâches spécifiques, ils peuvent se montrer moins compétents sur des tâches complexes nécessitant des connaissances couvrant un éventail complet de sujets. Par exemple, Microsoft note que ses « modèles Phi-3 ne sont pas aussi performants sur les benchmarks évaluant les connaissances factuelles, car leur petite taille réduit leur capacité de rétention des faits »9.

Généralisation limitée : les petits modèles de langage ne disposent pas de la large base de connaissances de leurs équivalents de grande taille, ils pourraient donc être mieux adaptés à des tâches linguistiques ciblées.

Hallucinations : il est essentiel de vérifier les résultats produits par les SLM pour s’assurer de leur exactitude.

Cas d’utilisation des petits modèles de langage

Les entreprises peuvent affiner les modèles SLM sur des jeux de données propres à un domaine afin de les personnaliser en fonction de leurs besoins spécifiques. Cette adaptabilité signifie que de petits modèles de langage peuvent être utilisés pour une variété d’applications concrètes :

Chatbots: grâce à leur faible latence et à leurs capacités d’IA conversationnelle, les SLM peuvent alimenter les chatbots de service client, en répondant rapidement aux requêtes en temps réel. Ils peuvent également servir d’épine dorsale pour les chatbots IA agentiques qui ne se contentent pas de fournir des réponses pour accomplir des tâches pour le compte d’un utilisateur.

Synthèse de contenu : les modèles Llama 3.2 1B et 3B, par exemple, peuvent être utilisés pour résumer des discussions sur un smartphone et créer des actions comme des événements de calendrier6. De même, Gemini Nano peut résumer des enregistrements audio et des transcriptions de conversations11.

IA générative : des modèles compacts peuvent être mis en œuvre pour compléter et générer des textes et du code logiciel. Par exemple, les modèles granite-3b-code-instruct et granite-8b-code-instruct peuvent être utilisés pour générer, expliquer et traduire du code à partir d’un prompt en langage naturel.

Traduction linguistique : de nombreux modèles linguistiques sont multilingues et ont été formés dans d’autres langues que l’anglais, afin de pouvoir traduire rapidement d’une langue à l’autre. Grâce à leur capacité de compréhension du contexte, ils peuvent produire des traductions quasi exactes qui conservent la nuance et le sens du texte d’origine.

Maintenance prédictive: les modèles allégés sont suffisamment petits pour être déployés directement sur des dispositifs edge locaux tels que des capteurs ou des appareils de l’Internet des objets (IdO). Pour les fabricants, les SLM sont donc des outils qui collectent des données à partir de capteurs installés sur les machines et les équipements, et qui les analysent en temps réel pour prévoir les besoins en matière de maintenance.

Analyse des sentiments : en plus de traiter et de comprendre le langage, les SLM peuvent également trier et classer d’énormes volumes de texte de manière objective. Ils sont donc parfaitement adaptés à l’analyse de texte et à l’évaluation des sentiments sous-jacents, pour une meilleure compréhension des commentaires des clients.

Aide à la navigation dans les véhicules : un modèle aussi rapide et compact qu’un SLM peut s’exécuter sur les ordinateurs de bord des véhicules. Grâce à leurs capacités multimodales, les petits modèles de langage peuvent par exemple combiner des commandes vocales avec la classification d’images pour identifier les obstacles autour d’un véhicule. Ils peuvent même exploiter leurs capacités RAG et récupérer les détails du code de la route pour aider les conducteurs à prendre des décisions de conduite plus sûres et plus éclairées.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les modèles d’IA IBM Granite
Notes de bas de page

Tous les liens sont externes au site ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 mars 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 septembre 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 avril 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 août 2024

5 Gemini Models, Google DeepMind, consulté le 17 octobre 2024

6 Introducing Llama 3.2, Meta, consulté le 17 octobre 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 juillet 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 octobre 2024

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 avril 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 juillet 2024

11 Gemini Nano, Google DeepMind, consulté le 21 octobre 2024