L’essor de l’IA générative a mis en lumière sa force motrice : les grands modèles de langage (LLM). Il en existe déjà des dizaines, mais avec l’évolution rapide des technologies, ces modèles d’intelligence artificielle (IA) ne cessent d’émerger.
Prenons l’exemple de l’industrie automobile. Des centaines de constructeurs dans le monde entier ont leurs propres modèles pour répondre aux besoins variés des consommateurs. Les voitures ont également évolué au fil du temps, passant des véhicules à essence aux véhicules électriques dotés de nombreuses fonctionnalités intelligentes.
Il en va de même pour les LLM. Ces systèmes d’IA ont vu le jour sous la forme de modèles de fondation composés de plusieurs couches de réseaux de neurones entraînés sur de vastes jeux de données.
Ils emploient des techniques d’apprentissage profond pour accomplir des tâches de traitement automatique du langage naturel (TAL) et de natural language understanding (NLU). Leurs capacités se sont toutefois améliorées pour proposer des fonctions d’IA agentique et de raisonnement.
Cette évolution rapide signifie que l’environnement des LLM ne cesse de changer. Pour suivre le rythme, les développeurs d’IA doivent constamment mettre à jour leurs modèles, voire en créer de nouveaux.
Si les tâches TAL et NLU comme la synthèse de contenu, la traduction automatique, l’analyse des sentiments et la génération de texte continuent de primer, les développeurs d’IA adaptent désormais leurs modèles à certains cas d’utilisation.
Par exemple, certains LLM sont conçus spécialement pour générer du code, tandis que d’autres sont créés pour gérer les tâches de vision-langage.
S’il est impossible de mentionner tous les LLM existants, voici une liste des grands modèles de langage les plus récents et les plus utilisés pour permettre aux entreprises d’affiner leur choix et de déterminer le modèle le plus adapté à leurs besoins :
Développeur : Anthropic
Date de publication : février 2025 pour Claude 3.7 Sonnet
Nombre de paramètres : non communiqué
Fenêtre contextuelle : 200 000 tokens
Licence : propriétaire
Accès : Anthropic API, Amazon Bedrock, Google Cloud Vertex AI
Entrée : multimodale (image, texte)
Sortie : texte
Claude est une famille de LLM reposant sur une architecture de type transformer. Il s’agit du grand modèle derrière l’assistant d’IA conversationnelle du même nom. La conception de Claude est guidée par les principes constitutionnels de l’IA, qui mettent l’accent sur la sécurité de cette dernière afin de réduire les comportements préjudiciables tels que les biais.
La famille Claude comporte 3 modèles d’IA :
● Claude Haiku
● Claude Sonnet
● Claude Opus
Claude 3.5 Haiku est le modèle le plus rapide. Parfaitement adapté aux cas d’utilisation à faible latence, tels que les chatbots de service client et la complétion de code, il permet d’accélérer les workflows de développement logiciel.
Claude 3.7 Sonnet est ce que Anthropic appelle son « modèle le plus intelligent à ce jour ». Ce modèle de raisonnement dispose d’un mode « réflexion étendue », qui lui permet de s’autorépliquer avant de répondre. Les utilisateurs de l'API Anthropic peuvent également définir le délai de réflexion du modèle.
Claude 3.7 Sonnet peut être mis en œuvre pour des tâches spécialisées telles que la génération de code, l’utilisation d’un ordinateur (ce qui permet au LLM d’utiliser un ordinateur comme le fait l’humain), l’extraction d’informations à partir de données visuelles ou encore la tâche de répondre aux questions.
Claude 3 Opus est le modèle le plus puissant des trois. Il est capable d’approfondir l’analyse et de réaliser des tâches plus longues et plus complexes, qui comportent plusieurs étapes.
Développeur : Cohere
Date de publication : avril 2024 pour Command R+, et décembre 2024 pour Command R7B
Nombre de paramètres : jusqu’à 104 milliards
Fenêtre contextuelle : 128 000 tokens
Licence : propriétaire
Accès : Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI
Entrée : texte
Sortie : texte
Command est le modèle de langage phare de Cohere. Cette famille de LLM axés sur l’entreprise comprend les modèles suivants :
● Command R
● Command R+
● Command R7B
Command R est un modèle de génération de texte multilingue qui compte 32 milliards de paramètres.1 Il a été entraîné à ancrer ses réponses, qui comportent des citations, grâce à la génération augmentée par récupération (RAG). Command R offre également des capacités d’utilisation des outils conversationnels.
Command R+ est une version plus puissante, 104 milliards de paramètres,2 qui associe fonctions RAG complexes et utilisation multi-étapes des outils pour permettre aux agents IA de recueillir les informations les plus récentes et de mettre à jour leur base de connaissances en appelant des outils externes.
Command R7B est le modèle le plus petit et le plus rapide, avec 7 milliards de paramètres. Parfaitement adapté aux déploiements basés sur processeur, aux GPU bas niveau, ainsi qu’à d’autres appareils edge, il peut être mis en œuvre pour l’inférence sur l'appareil.
Développeur : DeepSeek
Date de publication : janvier 2025
Nombre de paramètres : 671 milliards
Fenêtre contextuelle : 128 000 tokens
Licence : open source (Licence MIT)
Accès : DeepSeek API, Hugging Face
Entrée : texte
Sortie : texte
DeepSeek-R1 est un modèle de raisonnement open source proposé par DeepSeek, une start-up chinoise spécialisée dans l’IA. Il s’appuie sur une architecture de machine learning Mixture of Experts (MoE) et a été entraîné grâce à des techniques d’apprentissage par renforcement à grande échelle pour affiner ses capacités de raisonnement.
La performance de DeepSeek-R1 est similaire, voire supérieure à celle de la série de modèles de raisonnement o1 d’OpenAI, selon certains benchmarks LLM. DeepSeek-R1 s’est également appuyé sur la distillation de connaissances pour affiner plusieurs modèles Llama et Qwen de taille inférieure, en utilisant les données de raisonnement générées par DeepSeek-R1, un LLM beaucoup plus grand.
Développeur : Technology Innovation Institute
Date de publication : décembre 2024 pour Falcon 3
Nombre de paramètres : jusqu’à 180 milliards
Fenêtre contextuelle : jusqu’à 32 000 tokens
Licence : open source
Accès : Hugging Face
Entrée : texte
Sortie : texte
Falcon est un groupe de modèles open source développés par des chercheurs du Technology Innovation Institute (TII), Émirats arabes unis. Ces modèles ont été entraînés sur RefinedWeb, un énorme jeu de données Web en anglais filtrées par le TII.
Falcon comporte ces LLM :
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
Parmi les versions Falcon antérieures, de taille supérieure, citons le Falcon 40B, qui comporte 40 milliards de paramètres, et le Falcon 180B, qui compte 180 milliards de paramètres.
Falcon 2 11B est un modèle de décodeur causal qui comporte 11 milliards de paramètres. Il propose une prise en charge multilingue et se dotera bientôt de capacités de conversion vision-langage.
Falcon 3 affiche une conception de décodeur uniquement et se décline en quatre versions légères : 1, 3, 7 et 10 milliards de paramètres. Il est doté de capacités de raisonnement supérieures à celle de son prédécesseur.
Falcon Mamba 7B est un modèle de langage espace-état (SSLM) qui s’écarte de l’architecture typique des LLM transformers. Les modèles transformers emploient un mécanisme d’attention pour « se concentrer » sur les tokens les plus importants de la séquence d’entrée. Cependant, au fur et à mesure que la fenêtre contextuelle s’agrandit, les transformers requièrent plus de mémoire et de puissance de calcul.
Les SSLM mettent continuellement à jour un « état » pendant le traitement et utilisent un algorithme de sélection pour ajuster dynamiquement les paramètres en fonction de l’entrée. Cela permet au Falcon Mamba 7B de traiter de longues séquences de texte sans avoir besoin de mémoire supplémentaire, et de générer de nouveaux tokens dans le même laps de temps, quelle que soit la longueur du contexte.
Date de publication : décembre 2024
Nombre de paramètres : non communiqué
Fenêtre contextuelle : 1 million de tokens
Licence : propriétaire
Accès : Gemini API, Google AI Studio, Google Cloud Vertex AI
Entrée : multimodale (audio, image, texte, vidéo)
Sortie : texte
Gemini est la suite de modèles multimodaux Google. Il alimente également le chatbot d’IA générative du même nom (anciennement Bard).
Gemini s’appuie sur un modèle de type transformer, une architecture de réseau de neurones signée Google, qui s’inspire des modèles de langage précédents de l’entreprise, dont BERT (Bidirectional Encoder Representation from Transformers) et PalM 2 (Pathways Language Model)
La dernière version, Gemini 2.0, est « conçue pour l’ère des agents », selon Google. Gemini 2.0 se décline en plusieurs variantes :
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Lite
● Gemini 2.0 Pro
Gemini 2.0 Flash est un modèle léger qui prend en charge l’utilisation d’outils. Parmi les fonctionnalités à venir, citons la génération d’images et la synthèse vocale.
Gemini 2.0 Flash-Lite est une version améliorée du précédent système 1.5 Flash, léger et économique. Il propose la même vitesse et le même coût, tout en améliorant la qualité.
Gemini 2.0 Pro est ce que Google considère être son meilleur modèle en matière de codage et de traitement des prompts complexes, en raison de ses capacités d’utilisation d’outils et de sa fenêtre contextuelle à 2 millions de jetons. Gemini 2.0 Pro est encore en phase expérimentale.
Développeur : OpenAI
Date de publication : mai 2024 pour GPT-4o, et juillet 2024 pour GPT-4o mini
Nombre de paramètres : non communiqué
Fenêtre contextuelle : 128 000 tokens
Licence : propriétaire
Accès : OpenAI API avec .NET, JavaScript, Python, TypeScript
Entrée : multimodale (audio, image, texte, vidéo)
Sortie : multimodale (audio, image, texte)
Les transformers génératifs pré-entraînés (GPT) sont de grands modèles de langage développés par OpenAI. La gamme GPT comporte les LLM suivants :
● GPT-4o
● GPT-4o mini
GPT-4o est un modèle multilingue et multimodal. Étant l’un des LLM les plus avancés, GPT-4o est capable de traiter les entrées audio, textuelles et visuelles afin de produire des sorties mêlant audio, texte et image.
Sa performance est supérieure à celle de ses prédécesseurs, GPT-4 Turbo et GPT-4. GPT-4o est le LLM qui alimente actuellement le chatbot IA ChatGPT d’OpenAI.
GPT-4o mini est un modèle plus petit et plus abordable, qui accepte des images et des textes en entrée pour générer des sorties textuelles. Sa performance est supérieure à celle de GPT-3.5 Turbo.
Développeur : IBM
Date de publication : février 2025
Nombre de paramètres : jusqu’à 34 milliards
Fenêtre contextuelle : 128 000 tokens
Licence : open source (Apache 2.0)
Accès : IBM watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate
Entrée : multimodale (image, texte)
Sortie : texte
IBM Granite est une série de LLM open source prêts à l’emploi, conçus pour les entreprises. Les modèles compris sont les suivants :
● Granite 3.2
● Granite Vision
Granite 3.2 intègre des capacités de raisonnement améliorées et des fonctionnalités avancées pour les tâches RAG. Il est disponible dans deux tailles : 2 et 8 milliards de paramètres.
Les données d’entraînement de Granite 3.2 associent jeux de données open source avec licence permissive et jeux de données synthétiques de qualité collectés en interne, conçus pour résoudre des problèmes à contexte long.
Granite Vision est un modèle de vision-langage de 2 milliards de paramètres, conçu pour assurer la compréhension visuelle des documents. Capable d’extraire efficacement des contenus à partir de graphiques, de diagrammes et de tableaux, il est adapté à l’analyse des données structurées.
Les autres LLM de la série Granite comportent les modèles spécialisés suivants :
● Granite Code
● Granite Guardian
● Granite Embedding
Ces modèles de type décodeur uniquement sont conçus pour réaliser des tâches telles que la modification, l’explication et la génération de code. Les modèles Granite Code ont été entraînés à l’aide d’un code écrit dans 116 langages de programmation et sont disponibles en 3, 8, 20 et 34 milliards de paramètres.
Les modèles Granite Guardian sont des garde-fous de type LLM conçus pour détecter les risques liés aux prompts et aux réponses. Granite Guardian est disponible en 2, 3, 5 et 8 milliards de paramètres.
Les modèles Granite Embedding sont des modèles de transformation des phrases spécialement conçus pour les applications s’appuyant sur la récupération, comme la recherche sémantique et la RAG.
Développeur : xAI
Date de publication : février 2025 pour Grok 3
Nombre de paramètres : 314 milliards
Fenêtre contextuelle : 128 000 tokens
Licence : propriétaire
Accès : API xAI
Entrée : multimodale (image, texte)
Sortie : texte
Grok est un modèle de langage proposé par xAI. Le LLM de première génération, Grok-1, est un modèle MoE qui comporte 314 milliards de paramètres. En raison de sa taille immense, 25 % de ses pondérations sont actives sur un token donné.
En mars 2024, xAI publiait Grok-1.5, doté d’une fenêtre contextuelle de 128 000 tokens et de capacités de résolution des problèmes améliorées. Cinq mois plus tard, xAI lance les versions bêta de Grok-2 et de sa version plus petite, Grok-2 mini. Grok-2 propose des fonctionnalités de chat, de codage et de raisonnement encore meilleures, et prend en charge les tâches de vision.
Les dernières versions, Grok 3 et Grok 3 mini, sont dotées de fonctions avancées de raisonnement et d’IA agentique.
Développeur : Meta
Date de publication : décembre 2024 pour Llama 3.3
Nombre de paramètres : Jusqu’à 405 milliards
Fenêtre contextuelle : 128 000 tokens
Licence : open source
Accès : Meta, Hugging Face, Kaggle
Entrée : multimodale (image, texte)
Sortie : texte
Llama est la collection de LLM de Meta AI. Ces modèles autorégressifs mettent en œuvre une architecture de type transformer optimisée, avec des versions réglées qui associent réglage fin supervisé et apprentissage par renforcement à partir de rétroaction humaine (RLHF).5
La collection Llama 3 succède aux LLM Llama 2 et propose les modèles suivants :
● Llama 3.1
● Llama 3.2
● Llama 3.3
Llama 3.1 dispose d’un modèle à 8 milliards de paramètres et d’un modèle de fondation phare, qui compte 405 milliards de paramètres. Les deux sont des modèles textuels multilingues.
Llama 3.2 est disponible en 1 et 3 milliards de paramètres, ce qui le rend suffisamment compact pour les appareils mobile et edge. Les tailles de 11 et de 90 milliards de paramètres sont des LLM multimodaux, optimisés pour répondre à des questions d’ordre général sur une image, pour le sous-titrage, la compréhension des images et la reconnaissance visuelle.6
Llama 3.3 est un modèle textuel multilingue qui compte 70 milliards de paramètres. Si sa performance est comparable à celle de Llama 3.1 405B, voire meilleure, il est plus rentable.
Développeur : Mistral AI
Date de publication : juillet 2024 pour Mistral Large 2
Nombre de paramètres : jusqu’à 124 milliards
Fenêtre contextuelle : jusqu’à 256 000 tokens
Licence : Mistral Research License, Mistral Commercial License, Apache 2.0
Accès : La Plateforme, Amazon Bedrock, Microsoft Azure AI Studio, Google Cloud Vertex AI, IBM watsonx.ai
Entrée : multimodale (image, texte)
Sortie : texte
La société française Mistral AI propose une suite de LLM englobant ces modèles :
● Mistral Large
● Mistral Small
● Codestral
● Pixtral Large
Mistral Large 2 est le modèle phare de Mistral AI. Il affiche 123 milliards de paramètres et une fenêtre contextuelle de 128 000 tokens. Il assure efficacement des tâches comme la génération de code, les mathématiques et le raisonnement. Mistral Large 2 offre une prise en charge multilingue et des capacités d’appel de fonction.
Mistral Small 3 est une version plus compacte, avec 24 milliards de paramètres. Ce modèle permet d’accélérer la réponse de l’IA conversationnelle, d’assurer un appel de fonction à faible latence et de gérer l’inférence localement sur des machines à ressources limitées. Mistral Small 3 est open source et publié sous licence Apache 2.0.
Codestral 25.01 est la dernière génération de modèles de codage Mistral AI. Il présente une fenêtre de contexte de 256 000 jetons et prend en charge des tâches telles que le remplissage de code, la correction de code, la génération de code et la génération de tests.
Pixtral Large est un modèle multimodal de 124 milliards de paramètres. Il s’appuie sur Mistral Large 2 et étend ses capacités pour inclure la compréhension des images.
Développeur : OpenAI
Date de publication : septembre 2024 pour o1, janvier 2025 pour o3-mini
Nombre de paramètres : non communiqué
Fenêtre contextuelle : jusqu’à 200 000 tokens
Licence : propriétaire
Accès : API OpenAI
Entrée : multimodale (image, texte)
Sortie : texte
La série o1 de modèles d’IA comprend o1 et o1-mini. Par rapport aux modèles GPT d’OpenAI, les LLM o1 sont dotés de capacités de raisonnement plus avancées. O1 et o1-mini ont tous deux été entraînés à l’aide d’un apprentissage par renforcement à grande échelle, ce qui leur permet de « réfléchir » avant de répondre. Ils peuvent générer une longue chaîne de pensées avant de répondre.
Le LLM o1 accepte les entrées d’image et de texte, tandis que le modèle o1-mini ne peut gérer que les entrées de texte.7 o1-mini est plus petit, plus rapide et plus rentable que le modèle o1. Il excelle également dans le raisonnement et le codage STEM.
o3-mini, quant à lui, est le modèle de raisonnement le plus récent. Comme o1-mini, il est fort en codage, en mathématiques et en sciences. Il prend en charge l’appel de fonction et offre 3 options d’effort de raisonnement (faible, moyen et élevé) pour répondre aux besoins de différents scénarios tels que les problèmes complexes, qui demandent plus d’effort de raisonnement, ou les problèmes plus simples, qui exigent une réponse rapide et peuvent utiliser un effort de raisonnement plus faible.
Date de publication : septembre 2024 pour Qwen 2.5, et janvier 2025 pour Qwen2.5-Max
Nombre de paramètres : Jusqu’à 72 milliards
Fenêtre contextuelle : jusqu’à 1 million de tokens
Licence : open source (Apache 2.0), propriétaire pour les modèles plus grands
Accès : Alibaba Cloud, Hugging Face
Entrée : multimodale (audio, image, texte, vidéo)
Sortie : texte
Qwen est une série de LLM développée par la société chinoise de cloud computing Alibaba Cloud. Qwen comprend des modèles de langage et des variantes optimisés pour les tâches audio, de codage, mathématiques et de vision.
Qwen propose les modèles suivants :
● Qwen 2.5
● Qwen Audio
● Qwen Coder
● Qwen Math
● Qwen VL
Les modèles Qwen2.5 , de type décodeur uniquement et multilingues, sont conçus pour les tâches de traitement du langage. Ils se déclinent en 0,5, 3, 7, 14, 32 et 72 milliards de paramètres. Les modèles de taille supérieure, comme la variante à 72 milliards, sont disponibles uniquement par accès API sur la plateforme cloud propriétaire d’Alibaba.
Qwen2.5-Turbo affiche une longueur de contexte plus importante (1 million de tokens) et une vitesse d’inférence supérieure. Qwen2.5-Max est le modèle MoE à grande échelle le plus récent.
Qwen 2 Audio est spécialement conçu pour les tâches audio. Ce modèle à 7 milliards de paramètres permet de transcrire, de détecter et de classer les sons, de gérer les commandes vocales et d’identifier les éléments de musique.
Qwen2.5 Coder est un LLM dédié au code, disponible en 1,5, 7, 14 et 32 milliards de paramètres.
Qwen 2 Math est une collection de LLM optimisés pour les mathématiques. Dotés de capacités de raisonnement mathématique avancées, ces modèles résolvent des problèmes mathématiques complexes. Qwen 2 Math est disponible en 1,5, 7 et 72 milliards de paramètres.
Qwen 2 VL est un modèle de vision-langage qui associe traitement visuel et compréhension du langage naturel. Parmi ses cas d’utilisation, citons l’extraction d’informations à partir de données visuelles, ainsi que la génération de légendes et de synthèses pour les images et les vidéos. Qwen 2 VL est disponible en 2, 7 et 72 milliards de paramètres.
Développeur : Stability AI
Date de publication : avril 2024 pour Stable LM 2 12B
Nombre de paramètres : jusqu’à 12 milliards
Fenêtre contextuelle : 4 096 tokens
Licence : licence Stability AI Community ou Enterprise
Accès : Stability AI, Hugging Face
Entrée : texte
Sortie : texte
Stable LM est un groupe de modèles de langage en libre accès proposé par Stability AI, le fabricant du modèle de génération automatique d’image Stable Diffusion. Le modèle Stable LM 2 12B compte 12 milliards de paramètres, tandis que Stable LM 2 1.6B en affiche 1,6 milliard. Il s’agit d’un LLM de type décodeur uniquement, entraînés sur des données multilingues et des jeux de données de code. Les deux modèles intègrent l’appel de fonction et l’utilisation d’outils.
Stable Code 3B est un autre LLM affiné sur des jeux de données liés au code. Léger (3 milliards de paramètres), Stable Code 3B peut être exécuté en temps réel sur les appareils, même ceux sans GPU.
Tous les liens sont externes au site ibm.com
1 Model Card for C4AI Command R 08-2024, Hugging Face, consulté le 14 février 2025.
2 Model Card for C4AI Command R+ 08-2024, Hugging Face, consulté le 14 février 2025.
3 DeepSeek-R1 : Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 janvier 2025.
4 Access the latest 2.0 experimental models in the Gemini app, Google, 5 février 2025.
5 Model Information, GitHub, 30 septembre 2024.
6 Model Information, GitHub, 30 septembre 2024.
7 o1 and o1-mini, OpenAI, consulté le 14 février 2025.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.