Rectangles tridimensionnels abstraits

Une liste de grands modèles de langage (LLM)

Liste des LLM

Les grands modèles de langage (LLM) sont devenus la base du développement de l’intelligence artificielle moderne. Ils sont à l’origine et définissent aujourd’hui l’ère de l’IA générative, qu’il s’agisse d’applications de chatbot simples, d’ingénierie agentique ou d’autres workflows automatisés complexes pilotés par des agents IA. Leur avènement a marqué un tournant fondamental dans l’histoire du machine learning.

À mesure que la technologie évolue, les nouveaux LLM continuent de se multiplier. Les principaux développeurs d’IA, les nouvelles start-ups et les grandes entreprises établies ne cessent de publier et d’affiner de nouveaux modèles. Pendant ce temps, la communauté open source peaufine constamment les LLM open source, en fusionnant et en modifiant les modèles existants sur des jeux de données personnalisés pour créer des variantes infinies. Aucune liste de LLM ne peut donc raisonnablement espérer être exhaustive, et même la liste la plus « exhaustive » ne le resterait pas très longtemps.

Retrouvez ci-dessous une liste des LLM les plus importants et les plus performants disponibles aujourd’hui. Voici quelques points à noter :

  • La liste privilégie les modèles continuellement pris en charge et mis à jour par leurs développeurs, et qui maintiennent au moins des performances nominalement compétitives. Cela exclut un certain nombre de modèles de fondation historiquement influents, tels que T5 de Google, GPT-3 d’OpenAI ou Llama 2 de Meta, dont certains étant encore utilisés à des fins de recherche.

À des fins pratiques, les LLM peuvent généralement être divisés en deux catégories : les LLM à source fermée, disponibles uniquement en tant qu’offres commerciales par l’intermédiaire du développeur du modèle, et les modèles ouverts, qui sont mis à disposition gratuitement.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

LLM à source fermée

Un modèle à source fermée, ou modèle exclusif, n’est accessible que directement sur la plateforme du développeur du modèle, sur d’autres plateformes auxquelles il a concédé une licence pour son modèle ou par l’intermédiaire de l’API exclusive du fournisseur du modèle.

Étant donné que les développeurs de modèles fermés traitent généralement leurs détails techniques comme des secrets commerciaux jalousement gardés, il est généralement impossible de connaître avec certitude les spécificités concernant la taille, l’architecture du réseau de neurones ou le processus d’entraînement d’un modèle fermé. Certains détails peuvent être déduits, notamment en comparant la vitesse d’inférence d’un modèle fermé, l’utilisation de la mémoire GPU et les performances de référence par rapport à ceux des modèles ouverts dont les détails sont divulgués publiquement. Toutefois, ils sont rarement, voire jamais, confirmés.

Depuis au moins 2022 environ, la plupart des modèles frontaliers de pointe sont des modèles fermés, mais cela reflète en grande partie les circonstances historiques réelles du secteur, plutôt que la supériorité inhérente des modèles fermés par rapport aux modèles ouverts. Voici quelques-unes des séries de modèles fermés les plus remarquables, classées par ordre alphabétique.

Claude (Anthrope)

Les modèles linguistiques Claude d’Anthropic sont parmi les plus performants au monde. Fondée à l’origine en tant que laboratoire de recherche sur la sécurité de l’IA en 2021 par d’anciens employés d’OpenAI, l’approche d’Anthropic en matière de développement de modèles repose sur le concept unique d’IA constitutionnelle. La « constitution » de Claude est un document qui sert non seulement à guider la conduite des employés d’Anthropic, mais aussi à la réalisation (et à la création de données d’entraînement synthétiques) des modèles Claude eux-mêmes.

Depuis Claude 3, les générations successives de Claude ont présenté des modèles multimodaux en 3 tailles différentes :

  • Claude Haiku, les plus petits modèles d’Anthropic, optimisés pour la vitesse et la rentabilité. Contrairement à Sonnet et Opus, les modèles Haiku ne sont pas des modèles de raisonnement : à moins qu’ils ne soient explicitement invités à le faire, les modèles Haiku ne produisent pas de traces de raisonnement de la chaîne de pensée (CoT).
  • Claude Sonnet, les modèles de taille moyenne d’Anthropic, visant ce qu’Anthropic considère comme le compromis optimal entre performance et efficacité dans la plupart des cas d’utilisation. Sonnet et Opus sont tous deux des modèles de raisonnement hybride, ce qui signifie qu’ils peuvent être configurés pour procéder soit à une inférence standard, soit au raisonnement adaptatif CoT, pour résoudre des problèmes complexes et en plusieurs étapes.
  • Claude Opus, le modèle le plus grand et le plus puissant d’Anthropic. Il vise à atteindre des performances de pointe dans des tâches difficiles.

Claude Haiku, Sonnet et Opus peuvent tous traiter des entrées de texte, d’audio et d’images, et produire du texte ou de l’audio (en synthèse vocale). Historiquement, contrairement à la plupart des modèles fermés concurrents, ces modèles (et la plateforme Claude qu’ils alimentent) n’étaient pas capables de générer des images. Depuis le 12 mars 2026, Claude peut générer des images. Lorsqu’ils accèdent aux modèles via l’API de Claude, les utilisateurs peuvent définir le « niveau d’effort » du processus de raisonnement de Sonnet ou d’Opus sur « max », « high », « medium », « low » ou « adaptive ».

Gemini (Google)

Gemini est la série de modèles de langage fermés de Google, développée par sa filiale Google DeepMind et lancée pour la première fois en décembre 2023. Il convient de noter que Google Brain (qui a fusionné avec DeepMind pour former Google DeepMind en 2023) est responsable de la création de l’architecture de modèle de transformeur qui a permis les premiers LLM, ayant publié en 2017 l’article de recherche marquant « Attention is All You Need ».

Depuis début 2025, Google propose chaque génération de modèles Gemini dans 3 tailles différentes, qui sont tous des modèles raisonnés. Depuis l’API Gemini, les utilisateurs peuvent sélectionner l’un des multiples « niveaux de réflexion » pour personnaliser le nombre de tokens et le temps que le modèle passera avant de générer une sortie finale.

  • Les modèles Gemini Pro sont les plus grands LLM de Google, à la pointe de la technologie.

  • Les modèles Gemini Flash sont, par rapport à Gemini Pro, optimisés pour la vitesse.

  • Les modèles Gemini Flash-Lite sont des modèles rapides et économiques, optimisés pour les tâches volumineuses telles que la traduction et l’utilisation d’outils agentiques.

Les modèles Gemini Pro, Flash et Flash-Lite sont multimodaux par défaut : ils peuvent traiter des entrées texte, audio, image ou vidéo et générer des sorties texte. Si ces modèles sont utilisés depuis la plateforme Gemini, les résultats multimodaux peuvent être générés grâce aux modèles distincts et spécialisés de Gemini pour la génération d’images, de vidéos ou de musique.

Depuis la sortie de Gemini 2.5 Pro en mars 2025, qui a alors atteint la performance de référence du secteur sur la plupart des références universitaires, les modèles Gemini ont rivalisé avec la série GPT de Claude et OpenAI en tant que LLM les plus performants au monde. D’une manière générale, le statut de « meilleur » modèle change de mains chaque fois qu’un nouveau modèle de pointe de l’une de ces trois séries est publié.

Grok (xAI)

Grok est une famille de LLM exclusifs créée par xAI, lancée pour la première fois en version bêta sous forme de chatbot sur X (anciennement Twitter) en novembre 2023. En avril 2025, xAI a lancé l’accès API pour Grok 3, qui était alors son modèle phare le plus récent.

La gamme de modèles Grok n’a cessé d’évoluer au fil des générations successives de modèles.

  • Grok 2 était accompagné de Grok 2 Mini, la première variante basée sur les tailles de la famille de modèles. Cette même convention a été répétée pour Grok 3 en février 2025.

  • La 4e génération des modèles Grok a été lancée avec Grok 4 et Grok 4 Heavy en juillet 2025. À l’automne 2025, ils ont été suivis par Grok 4 Fast et Grok 4.1 (disponibles avec ou sans le mode Réflexion).

  • En août 2025, xAi a publié Grok Code Fast 1, un modèle axé sur l’efficacité optimisé pour le codage agentique.

Depuis Grok 4, les modèles Grok peuvent traiter du texte, des images et des entrées vocales. Bien que les LLM Grok ne puissent pas fournir de sorties multimodales, des sorties image et vidéo peuvent être générées par le modèle Aurora de xAI via sa plateforme Grok Imagine.

Indépendamment de ses performances brutes, une grande partie de l’histoire de Grok (et en particulier celle du chatbot Grok) a été marquée par la controverse, notamment par des accusations de diffusion de fausses informations électorales, d’insertion de points de vue polarisants dans des conversations sans rapport et de perpétuation de stéréotypes préjudiciables.

Versions open source

Dans des déclarations publiques, Elon Musk, PDG de xAI, a affirmé que « notre approche générale consiste à rendre la dernière version open source une fois la version suivante entièrement disponible ».1

xAI a publié Grok 1 en open source sous licence Apache 2.0 en mars 2024. Bien que Grok 3 ait été publié en février 2025, une nouvelle version open source d’un modèle Grok n’a été publiée qu’en août 2025. Aussi surprenant soit-il, xAI (et Elon Musk) ont annoncé avoir rendu open source « Grok 2.5 », 2 alors qu’aucun modèle n’avait été nommé ni annoncé comme tel avant cette déclaration. La carte du modèle Hugging Face fait même référence au modèle sous le nom de « Grok-2 ».

Dans cette annonce d’août 2025, Elon Musk a indiqué que Grok 3 serait également open source dans « environ 6 mois ». Huit mois plus tard, la date de publication de ce logiciel open source n’a pas encore été annoncée.

GPT (OpenAI)

La série GPT d’OpenAI, abréviation de Generative Pretrained Transformer, est largement créditée pour avoir lancé l’ère actuelle de l’IA générative, notamment après le lancement de ChatGPT en 2022 et du modèle GPT-3.5.

Les conventions d’OpenAI en matière de noms de modèles et de variantes ont changé de manière significative depuis 2022, souvent de manière confuse. Par exemple, GPT-4.1 a été publié après GPT-4.5, et le modèle de raisonnement o4 était disponible en même temps que le modèle multimodal non raisonnant GPT-4o, qui était totalement distinct du modèle de raisonnement « o4 », dont les performances étaient inférieures à celles de « o3 ». Début 2025, Sam Altman, PDG d’OpenAI, a reconnu être « conscients de la complexité de nos modèles et de nos offres de produits ».

Depuis la sortie de GPT-5 en août 2025, les offres consolidées de LLM de la société comprennent désormais :

  • GPT-5.x, l’offre phare d’OpenAI pour les applications générales. En mars 2026, la dernière version du modèle est GPT-5.4. Bien que tous les modèles GPT-5 soient des modèles de raisonnement, GPT-5.4 est également disponible dans une variante GPT-5.4 Pro , qui « utilise davantage de puissance de calcul pour réfléchir et qui fournit des réponses systématiquement meilleures ».3 OpenAI propose également GPT-5 Codex, une version de GPT-5 affinée pour une génération optimale de code agentique (qui est périodiquement mise à jour en fonction des versions actualisées du modèle de base).
  • Selon les présentations des modèles d’OpenAI, GPT-5 mini offre « une intelligence quasi-frontalière pour les workloads sensibles aux coûts, à faible latence et à volume élevé ».
  • GPT-5 nano est la « version la plus rapide et la plus économique de GPT-5 ».

OpenAI a également publié 2 modèles GPT à poids ouverts, qui sont détaillés dans la section « Modèles ouverts » de cet article.

Mistral AI

Mistral AI, une entreprise française fondée par d’anciens employés de Meta IA et Google DeepMind, était à l’origine entièrement dédiée aux modèles open source lors du lancement de son premier modèle (Mistral 7B) en septembre 2023. Depuis, Mistral a adopté un modèle mixte dans lequel bon nombre de ses offres sont disponibles en version ouverte, mais certains modèles frontaliers demeurent à code source fermé.

En mars 2026, les LLM exclusifs phares de Mistral AI étaient les suivants :

  • Mistral Medium 3.1, un modèle multimodal à usage général publié en août 2025.

  • Codestral, un modèle axé sur le codage «conçu spécifiquement pour la complétion de haute précision par remplissage FIM (fill-in-the-middle) ».4

  • Magistral Medium 1.2, un modèle de raisonnement complémentaire à Mistral Medium.

Les modèles à poids ouverts proposés par Mistral sont détaillés plus loin dans cet article.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

LLM open source

Dans le machine learning, le terme open source est souvent utilisé de manière courante pour désigner les outils d’IA dont le code source est mis à disposition gratuitement, mais le terme est en fait une désignation officielle gérée par l’Open Source Initiative (OSI). L’OSI ne certifie une licence logicielle donnée comme étant « approuvée par l’Open Source Initiative » que si elle estime que cette licence répond aux dix exigences énumérées dans la définition officielle de l’Open Source (OSD).

La plupart des modèles « open source » ne répondent pas à toutes ces exigences. Cela étant, le terme de modèle ouvert (ou modèle à poids ouverts) se réfère plus précisément à tout LLM distribué librement. Il existe une grande variabilité au sein du spectre des modèles ouverts. Un modèle à poids ouvert (mais non-open source) peut être utilisé pour exécuter l’inférence et peut même être affiné. Toutefois, si son code source complet n’est pas fourni, il ne peut être modifié que par modification des valeurs de ses poids par ajustement fin. Sa licence peut interdire l’utilisation du modèle dans certains scénarios (tels que les environnements commerciaux) ou imposer d’autres conditions spécifiques à son application.

Un véritable modèle open source publié avec un code d’entraînement et une description de ses procédures d’entraînement peut, à l’inverse, être entièrement modifié de quelque manière que ce soit et utilisé sans restriction. Les licences open source les plus courantes et standardisées sont la licence Apache 2.0 et la licence MIT. Il convient toutefois de noter qu’à moins que le développeur d’un modèle open source ne fournisse les détails de ses données d’entraînement, le modèle lui-même n’est pas entièrement reproductible.

Les versions open source sont essentielles au développement et à l’amélioration continus des LLM, et sont en grande partie responsables de leur invention. Les modèles ouverts sont généralement accessibles via leur développeur de modèles ou via des plateformes open source populaires telles que GitHub ou Hugging Face. Retrouvez ci-après une liste de séries de modèles ouverts notables, classée par ordre alphabétique.

Cohere

Cohere, une entreprise canadienne dont les fondateurs incluent l’un des auteurs de « Attention is All You Need », a été lancée en 2019. Bien que l’entreprise publie des rapports techniques détaillés pour chaque LLM et les publie ostensiblement sous forme de modèles à poids ouverts, Cohere autorise ses versions ouvertes sous une version modifiée de la licence Creative Commons 4.0, qui interdit toute utilisation commerciale.

Command

 Command est la série phare de modèles de fondation de Cohere, conçue pour les cas d’utilisation en entreprise.

  • Command R était la première génération de modèles d’entreprise de Cohere, lancée en mars 2024 avec un modèle de 35 milliards de paramètres, mettant l’accent sur la RAG et l’utilisation d’outils. Sa sortie fut rapidement suivie, un mois plus tard, par Command R+, une variante de 104 milliards de paramètres. Ils ont été rejoints par Command R7B, un modèle plus petit, en décembre.

  • Command A, la deuxième génération des modèles d’entreprise de Cohere, est sortie en mars 2025 et met l’accent sur les tâches commerciales, les STEM et le codage. Le modèle 111B original a finalement été publié dans des variantes telles que Command A Reasoning, Command A Translate (affiné pour optimiser les performances de traduction dans 23 langues) et Command A Vision, un modèle vision-langage (VLM) qui associe le LLM à un encodeur de vision.

Dans un commentaire Reddit de mars 2026, le PDG de Cohere, Aidan Gomez, a indiqué que la société développait activement la prochaine génération de Command, et qu’il s’agirait du premier modèle de groupe d’experts (MoE) de l’entreprise.

Aya

Aya est la série de modèles multilingues de Cohere, lancée pour la première fois en février 2024 avec Aya 101 qui, comme son nom l’indique, était « capable de suivre des instructions en 101 langues ».

  • Aya Vision est un VLM multimodal et multilingue, proposé en versions 8B et 32B, avec des capacités couvrant 23 langues différentes.

  • Tiny Aya, publié en février 2026, est une série de modèles multilingues légers avec 3,35 milliards de paramètres. Tiny Aya-Base est un modèle pré-entraîné qui prend en charge plus de 70 langues. TinyAya-Global est son équivalent adapté aux instructions et prend en charge 67 langues.

  • La version Tiny Aya contenait également des variantes régionales spécialisées. TinyAya-Earth est optimisé pour les langues d’Afrique et d’Asie occidentale. TinyAya-Fire est optimisé pour les langues d’Asie du Sud. TinyAya-Water est optimisé pour les langues d’Asie-Pacifique et d’Europe.

DeepSeek

DeepSeek est un acteur essentiel de l’écosystème open source, apportant de nombreuses innovations aux architectures LLM et aux processus d’entraînement. Les performances de ses modèles ont parfois rivalisé avec celles des meilleurs modèles fermés. Leurs LLM, à la fois les pondérations et le code, sont en open source sous licence MIT standard. DeepSeek publie également fréquemment des articles techniques détaillant ses découvertes et ses techniques.

  • DeepSeek-V3 est un grand modèle MoE, avec 671 milliards de paramètres au total (et 37 milliards de paramètres actifs lors de l’inférence), sorti pour la première fois fin 2024. Ce modèle est souvent considéré comme ayant permis de remettre au goût du jour l’architecture de groupe d’experts.

  • DeepSeek-R1 est un modèle de raisonnement, construit en affinant DeepSeek-V3 à l’aide de techniques d’apprentissage par renforcement alors novatrices. DeepSeek-R1 a marqué un tournant dans l’histoire des LLM open source. Il a non seulement égalé les performances du modèle O1 d’OpenAI, jusqu’alors inégalé, mais il a également fourni un document technique contenant tous les détails de la méthodologie d’entraînement de DeepSeek. Sa publication a directement inspiré la première génération de modèles de raisonnement ouvert.

  • DeepSeek-V3.1, publié en août 2025, est un modèle de raisonnement hybride configuré pour exécuter à la fois l’inférence standard et le raisonnement CoT. En résumé, il combinait DeepSeek-V3 et DeepSeek-R1 en un seul modèle. Il a été mis à jour pour la dernière fois sous le nom de DeepSeek-V3.2 en octobre 2025. DeepSeek-V3.1 et DeepSeek-V3.2 conservent l’architecture MoE 671B-37B du modèle original.

  • DeepSeek a également publié plusieurs modèles « DeepSeek-R1-Distill », créés en affinant des modèles Qwen et Llama plus petits pour émuler DeepSeek-R1 par distillation des connaissances.

Malgré les rumeurs périodiques concernant une sortie imminente de DeepSeek-V4 (ou « DeepSeek-R2 »), ces versions ne se sont toujours pas concrétisées.

Falcon (TII)

La série de LLM Falcon est développée par le Technology Innovation Institute (TII) des Émirats arabes unis. Bien que la première génération de modèles du TII en 2023 ait été particulièrement remarquable pour le Falcon-180B, qui était à l’époque l’un des plus grands modèles open source disponibles, le TII s’est depuis concentré sur les modèles plus petits. Falcon2 disposait de 11 milliards de paramètres et Falcon3, les premiers modèles multimodaux du TII (sortis en décembre 2024), allaient de 1 à 10 milliards de paramètres.

Les dernières générations de modèles Falcon se sont concentrées sur des modèles hybrides Mamba-Transformer.

  • Falcon-H1, sorti en mai 2025, comprend des modèles hybrides pré-entraînés et réglés par instructions dans des variantes 0,5, 1,5, 3, 7 et 34 milliards de paramètres. Falcon-H1R, sorti en janvier 2026, est une variante logique de Falcon-H1-7B.

  • Falcon-H1-Tiny est, comme leur nom l’indique, une variante extrêmement petite de Falcon-H1, avec des tailles de 90 millions, 100 millions et 0,6 milliard de paramètres. Chaque taille est proposée à la fois en tant que modèles de base et en tant que variantes spécialisées, ajustées pour des cas d’utilisation spécifiques.

  • Les modèles Falcon-Edge constituent une famille de LLM expérimentaux de 1 bit (« BitNet ») de 1 et 3 milliards de paramètres.

Les modèles Falcon sont publiés sous une licence Falcon exclusive qui s’inspire du cadre Apache 2.0, tout en y ajoutant des stipulations et des contraintes notables.

Gemma (Google)

Gemma est la famille de modèles ouverts de Google. Selon Google, les modèles Gemma sont « construits à partir de la même technologie que [les] modèles Gemini ».7

  • Gemma 3, dont la sortie est survenue en mars 2025, est la dernière génération du LLM de base de Gemma. La version initiale de Gemma contenait des variantes pré-entraînées et des variantes optimisées par instructions dans des tailles de 1, 4, 12 et 27 milliards de paramètres. En août 2025, Google a ajouté une variante plus petite avec 270 millions de paramètres. Les modèles Gemma 3 peuvent traiter des entrées de texte ou d’image et offrent une prise en charge multilingue pour plus de 140 langues.
  • Gemma 3n, sorti en juillet 2025, est doté d’une architecture expérimentale MatFormer qui permet essentiellement d’imbriquer un nombre quelconque de petits modèles personnalisés dans un seul modèle plus grand. Cette architecture porte le nom des outils russes, également appelés « Matryroshka », d’où MatFormer. Gemma 3n est proposé dans les tailles nominales de 2 et 4 milliards de paramètres et prend en charge les entrées texte, image, vidéo ou audio (mais les sorties texte uniquement).

  • FunctionGemma est une variante de Gemma 3 à 270 millions de paramètres, adaptée à l’utilisation d’outils (ou « appel de fonctions », d’où son nom).

Les modèles Gemma sont publiés sous la licence Gemma, dont les conditions d’utilisation sont similaires à celles de la licence Apache 2.0, mais sont régies par la politique d’utilisation interdite de Gemma.

GLM (Z.ai)

GLM est une famille de LLM de Z.ai (également appelée Zhipu AI), basée à Pékin, qui vise des performances de pointe. La société a réalisé une percée avec le modèle GLM-4.5 qui, lors de sa sortie initiale fin juillet 2025, rivalisait ostensiblement avec les meilleurs modèles ouverts mondiaux, y compris les modèles phares de DeepSeek et Qwen.

  • GLM-4.5 était proposé en deux tailles : le modèle phare LLM, un modèle MoE de grande taille avec 355 milliards de paramètres au total (dont 32 milliards actifs), et GLM-4.5-Air, un modèle plus petit (avec 106 milliards de paramètres au total, 12 milliards étant actifs). GLM-4.5V est un VLM basé sur le modèle de fondation GLM-4.5-Air, qui ajoute des capacités de vision par ordinateur et de compréhension vidéo.

  • GLM-4.6, une version mise à jour de GLM-4.5 sortie le 30 septembre 2025, n’incluait pas de variante textuelle plus petite. Cependant, au début du mois de décembre, la société a publié GLM-4.6V (une mise à jour de GLM-4.5V) et GLM-4.6V-Flash, un modèle de 9 milliards de paramètres.

  • GLM-4.7, une mise à jour du modèle phare uniquement textuel publiée fin décembre 2025, a ajouté GLM-4.7-Flash, un LLM nettement plus petit avec seulement 30 milliards de paramètres au total (et 3 milliards de paramètres actifs).

  • GLM-5, publié en février 2026, est nettement plus grand que ses prédécesseurs, avec un total de 744 milliards de paramètres, dont 40 milliards actifs.

Granite (IBM)

IBM Granite est une série de modules LLM open source optimisés pour les cas d’utilisation en entreprise, axés principalement sur des modèles petits, pratiques et efficaces. Lancé pour la première fois en septembre 2023, le Granite s’est fait connaître dès la sortie de Granite 3.0 en octobre 2024, qui a permis à la série Granite d’atteindre des performances rivalisant avec celles des principaux modèles ouverts de taille comparable.

Granite 4, lancé en octobre 2025, a introduit une nouvelle architecture hybride Mamba2-Transformer pour une vitesse et une efficacité mémoire supérieures, notamment sous d’importants workloads, par rapport aux modèles de transformeurs conventionnels.

  • Granite 4-H Small est un modèle MoE hybride avec 32 milliards de paramètres au total (dont 9 milliards actifs). Granite 4 comprend également un autre modèle hybride MoE, Granite 4-H Tiny, avec un total de 7 milliards de paramètres (dont 1 milliard actifs), et un modèle hybride dense, Granite 4-H Micro, avec 3 milliards de paramètres actifs.

  • Granite 4 Micro est un modèle de 3 milliards de paramètres basé sur une architecture de transformeur classique, contrairement aux modèles 4-H.

  • Granite 4 Nano est une série de modèles de transformeurs hybrides Mamba-Transformer et de transformeurs conventionnels, dans des tailles allant de 350 millions à 1 milliard de paramètres.

  • Granite 4 1B-Speech est un modèle de transcription vocale (speech to text) conçu pour la reconnaissance vocale automatique (ASR) et la traduction vocale automatique bidirectionnelle (AST).

Tous les modèles Granite sont distribués en open source sous une licence Apache 2.0 standard et entraînés sur des données sécurisées pour les entreprises. En octobre 2025, la série Granite est devenue la première grande famille de modèles ouverts à recevoir la certification ISO-42001.

GPT-OSS (OpenAI)

GPT-OSS sont les modèles de langage open-weight d’OpenAI, publiés en août 2025 sous une licence standard Apache 2.0. Il s’agit des premiers LLM ouverts de l’entreprise depuis la sortie de GPT-2 en 2019.

  • GPT-OSS-120B est un modèle MoE de 117 milliards de paramètres au total (dont 5,1 milliards actifs), conçu pour une utilisation générale et des tâches tirant avantage du raisonnement de haut niveau.

  • GPT-OSS-20B est un modèle MoE avec 21 milliards de paramètres (dont 3,6 milliards actifs) destiné à une utilisation à plus faible latence et au déploiement local.

Les deux modèles GPT-OSS ont été entraînés avec une quantification 4 bits de leur pondération de modèle, augmentant significativement leur vitesse et réduisant leurs besoins en mémoire par rapport à ceux des modèles conventionnels de taille similaire.

Kimi (Moonshot AI)

Kimi est une série de modèles ouverts développés par Moonshot AI, une société basée à Pékin.

  • Kimi-K2 est un modèle MoE massif entièrement textuel avec 1  milliard de paramètres au total (32 milliards actifs). Il a acquis une notoriété significative lors de sa sortie en juillet 2025 pour rivaliser et (parfois surpasser) les modèles GPT-4.1 et Claude Opus 4 sur les comparatifs de codage de référence.8

  • Kimi-K2 Thinking, la variante du modèle de raisonnement de Kimi-K2, a également fait sensation en rivalisant une fois de plus avec les meilleurs modèles fermés dans des comparatifs de référence d’IA agentique exigeants.9

  • Kimi-K2.5 est une mise à jour de Kimi-K2 qui ajoute des capacités de vision multimodale. Le modèle peut être exécuté dans plusieurs « modes », chacun optimisé pour des cas d’utilisation spécifiques.

Les modèles Kimi sont publiés sous une licence MIT modifiée, obligeant les utilisateurs à « afficher de manière visible Kimi K2 » sur l’interface utilisateur de tout produit comptant plus de 100 millions d’utilisateurs mensuels actifs ou un chiffre d’affaires mensuel de plus de 20 millions de dollars.

Llama (Meta)

Les modèles Llama de Meta (à l’origine appelés LLaMA, abréviation de « Large Language model Meta AI), ont été une partie intégrante de l’histoire des LLM ouverts. Les premières versions de Llama contribuent à démocratiser les méthodologies LLM, en informant et en influençant fortement de nombreuses conventions standard de développement LLM, de la formation à l’architecture et aux variations de dimensionnement.

  • Llama 2, sorti en juillet 2023, a été commercialisé dans les tailles 7B, 13B et 70B.

  • Llama 3, publié en avril 2024 en versions 8B et 70B, a rivalisé avec de nombreux modèles fermés de pointe sur les analyses comparatives. En juillet, Llama 3.1 a considérablement augmenté la longueur du contexte des modèles et a ajouté une variante de 405B, une première pour l’époque. Llama 3.2 a ajouté des variantes plus petites et des capacités de vision, tandis que Llama 3.3 ne comportait qu’un seul modèle 70B dont les performances rivalisaient avec celles de Llama 3.1 405B.

  • Llama 4 comportait 2 grands modèles multimodaux MoE : Llama 4 Maverick, avec 400 milliards de paramètres au total (17 milliards actifs) et Llama 4 Scout, avec 109 milliards de paramètres au total (19 milliards actifs). Bien que leurs performances aient largement dépassé celles des générations précédentes de Llama sur la plupart des analyses comparatives, les modèles Llama 3 restent les LLM les plus populaires de Meta (comme en témoignent les téléchargements sur Hugging Face).10

Bien que Meta utilise souvent le terme « open source », les modèles Llama sont publiés sous une licence Llama personnalisée qui impose des contraintes d’utilisation, d’attribution et d’accès. L’Open Source Initiative a donc critiqué l’utilisation du terme par Meta.

Minimax

Le groupe MiniMax, basé à Shanghai, a lancé son premier LLM éponyme, le MiniMax-Text-01, et un VLM compagnon, le MiniMax-VL-01, en janvier 2025. Depuis, il s’est imposé comme l’un des premiers développeurs de LLM en Chine, privilégiant les modèles à grande échelle et les longues fenêtres contextuelles.

  • MiniMax-M1, sorti en juin 2025, est un modèle de raisonnement uniquement textuel construit à partir de l’ajustement fin de MiniMax-Text-01. Comme son prédécesseur, il s’agit d’un grand modèle MoE, avec un total de 456 milliards de paramètres et 45,9 milliards de paramètres activés par token.
  • MiniMax-M2 offre des performances et une efficacité supérieures à celles de M1. Il dispose d’un total de 230 milliards de paramètres et d’une architecture MoE plus fine qui n’active que 10 milliards de paramètres par token. Sorti en octobre 2025, il a été mis à jour sous le nom de MiniMax-M2.1 deux mois plus tard. MiniMax propose également MiniMax-M2-her, une version adaptée au jeu de rôle basé sur les personnages.

  • MiniMax-M2.5 et MiniMax-M2.5-Lightning,sortis en février 2026, optimisent encore les performances, en rivalisant avec Claude Opus 4.5 sur certains tests de codage. Ils sont identiques en tous points, à l’exception de la vitesse et du débit : la variante « Lightning » génère des résultats deux fois plus rapidement.

  • MiniMax-M2.7, sorti en mars 2026, est une mise à jour de MiniMax-M2.5 qui, selon l’entreprise, a permis de l’entraîner.11

Les modèles MiniMax sont proposés sous une licence MIT modifiée.

Mistral AI

Outre ses offres à source fermée, Mistral AI propose une variété de modèles ouverts très appréciés. La plupart (mais pas la totalité) des modèles ouverts de Mistral sont publiés sous la licence standard Apache 2.0.

  • Mistral Large 3 utilise une architecture MoE inspirée de DeepSeek-V3, avec 675 milliards de paramètres au total (41 milliards actifs). Ses performances de référence sont à peu près équivalentes à celles de DeepSeek-V3.1 et Kimi-K2.1.12 Disponible en décembre 2025, il est multilingue et multimodal, capable de traiter à la fois des entrées textuelles et des images.

  • Ministral 3 est la série de petits modèles de Mistral, proposée en tailles 3B, 8B et 14B et en variantes de base, d’optimisation sur les instructions et de raisonnement.

  • Mistral Small 3.2 est un LLM de 24 milliards de paramètres sorti en juin 2025. Sa performance est comparable à celle du plus récent Ministral 3 de 14 milliards de paramètres.

  • Devstral est la série de modèles de Mistral axée sur l’ingénierie agentique. Devstral 2, dont la sortie remonte à décembre 2025, comprend deux modèles. Devstral 2 123B est publié sous une licence MIT modifiée, obligeant les entreprises dont le chiffre d’affaires mensuel est supérieur à 20 millions de dollars à demander une licence commerciale à Mistral. Devstral Small 2 24B est publié sous la licence standard Apache 2.0.

  • Mixtral, sorti en décembre 2023, est un LLM qui a initialement popularisé l’architecture de mélange d’experts pour les modèles de langage. Début 2026, sa variante 8x7B restait extrêmement populaire sur Hugging Face, avec plus de 700 000 téléchargements mensuels.13

Nemotron (NVIDIA)

Les gammes LLM ouvertes du fabricant de matériel de premier plan NVIDIA sont reconnues pour leurs performances, leur documentation de recherche et leurs innovations architecturales.

  • NVIDIA-Nemotron-Nano v2 est une famille de modèles hybrides Mamba-2-LLM en 9 milliards et 12 milliards de paramètres, capables à la fois de raisonnement et d’inférence standard. Ils ont été publiés en août 2025 dans le cadre d’un accord de licence personnalisé NVIDIA Open Model avec des conditions notables concernant les responsabilités juridiques, l’utilisation et le droit de NVIDIA à apporter de futures modifications à l’accord.

  • Nemotron 3 Nano, sorti en décembre 2025, comprend 2 modèles : Nemotron-3-Nano-4B et Nemotron-3-Nano-30B-A3B, un MoE avec 30 milliards de paramètres au total (dont 3 milliards actifs). Ils ont été publiés sous la licence NVIDIA Nemotron Open Model, qui omet le droit de NVIDIA de procéder à des mises à jour unilatérales des conditions.

  • Nemotron 3 Super est un MoE plus grand avec un total de 120 milliards de paramètres (12 milliards actifs), sorti en mars 2026.

Olmo (AllenAI)

Olmo, développé par l’Allen Institute for AI (« Ai2 »), fait partie des modèles open source les plus « ouverts » : Ai2 publie généralement tout le code, les pondérations, les points de contrôle d’entraînement et les ensembles de données associés en même temps qu’une version standard d’Apache 2.0.

  • Olmo 3, sorti en novembre 2025, comprend des modèles de transformeurs denses de 7 et 32 milliards de paramètres. Les modèles sont publiés dans des variantes de base, d’instruction et de « réflexion ». En décembre 2025, la variante de 32 milliards de paramètres a reçu une mise à jour sous le nom Olmo 3.1.
  • Olmo Hybrid, publié en mars 2026, est un modèle de 7 milliards de paramètres doté d’une architecture hybride expérimentale combinant des RNN transformateurs et linéaires (basée sur l’architecture Gated DeltaNet popularisée par Qwen).

Phi (Microsoft)

Phi est la ligne de modèles ouverts de Microsoft, historiquement axée sur les petits modèles. Ils sont distribués sous licence MIT standard.

  • Phi 4 est un LLM de 14 milliards de paramètres entièrement textuel, initialement publié en décembre 2024.

  • Phi 4-mini, sorti en février 2025, est un modèle plus petit, avec 3,8 milliards de paramètres.

  • Phi 4-multimodal, lancé en même temps que Phi 4-mini, prend en charge les entrées de texte, d’image et de parole.

  • Phi 4-Reasoning-Vision, publié en mars 2026 est un modèle de 15 milliards de paramètres qui ajoute un raisonnement holistique et multimodal à travers les images, le texte et les documents.

Qwen (Alibaba)

La série de LLM Qwen, développée par Alibaba, est devenue l’un des modèles ouverts les plus populaires du secteur. La famille de modèles offre une grande variété de tailles de modèles, d’architectures et de capacités destinées à répondre aux besoins des développeurs.

  • Qwen3 comprend des modèles de transformeurs denses uniquement textuels de 0,6, 1,7, 4, 8, 14 et 32 milliards de paramètres, ainsi que des MoE dans les tailles 30B-A3B et le modèle phare Qwen3-235B-A22B. Tous les modèles Qwen3 sont proposés en versions de base, de réflexion et d’instruction.

  • Qwen3-Next est un MoE expérimental en mode texte avec 80 milliards de paramètres (3 milliards actifs) qui remplace l’attention standard par Gated Delta Networks (inspirés par Mamba-2) et Gated Attention.

  • Qwen3-Omni est un modèle natif multimodal conçu sur Qwen3-30B-A3B, prenant en charge les entrées texte, image, audio ou vidéo et les sorties texte ou parole.

  • Qwen3-Coder-Next est une version de Qwen3-Next affinée pour la génération de code.

  • Qwen3.5, sorti en février 2026, est une famille de modèles multimodaux utilisant l’architecture introduite pour la première fois dans Qwen3-Next. Elle comprend à la fois des modèles de raisonnement de base et hybrides de 0,8, 2, 4, 9, et 27 milliards de paramètres, ainsi que des modèles MoE de 35B-A3B, 122B-A10B et le produit phare 397B-A17B. Qwen3.5-397B-A17B vise à concurrencer les principaux modèles Gemini, GPT et Claude pour ce qui est des performances frontalières.

Auteur

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Solutions connexes
IBM Bob

Accélérez la livraison de logiciels grâce à Bob, votre partenaire IA pour un développement sécurisé et sensible aux intentions.

Découvrir IBM Bob
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Explorez watsonx Orchestrate
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Passez à l’étape suivante

Où que vous en soyez dans le cycle de développement, Bob vous accompagne, en proposant des revues agentiques, sensibles à l’intention et alignées sur les exigences de sécurité, qui accélèrent la livraison de logiciels de haute qualité.

  1. Découvrez IBM Bob
  2. Explorez watsonx Orchestrate
Notes de bas de page