Voici un résumé des principales informations :
Le lancement de Granite 4.0 ouvre une nouvelle ère pour la famille de grands modèles de langage prêts à l’emploi d’IBM, en s’appuyant sur les nouvelles avancées architecturales pour doubler la mise sur des modèles de langage petits et efficaces, offrant des performances compétitives à des coûts réduits et une latence limitée. Les modèles Granite 4.0 ont été développés en mettant l’accent sur les tâches essentielles pour les workflows agentiques, à la fois dans les déploiements autonomes et en tant que blocs de construction rentables dans les systèmes complexes aux côtés des modèles de raisonnement plus grands.
La série Granite 4.0 comprend plusieurs tailles de modèles et styles d’architecture afin de garantir une production optimale sur un large éventail de contraintes matérielles, notamment :
Granite 4.0-H Small est un modèle de travail pour des performances robustes et rentables sur les workflows d’entreprise tels que les agents multi-outils et l’automatisation du support client. Les modèles Tiny et Micro sont conçus pour les applications à faible latence, edge et locales, et peuvent également servir de blocs de construction au sein de workflows pour l’exécution rapide de tâches clés telles que l’appel de fonctions.
Les performances de référence de Granite 4.0 montrent des améliorations considérables par rapport aux générations précédentes, même les plus petits modèles Granite 4.0 surpassent de façon significative les modèles Granite 3.3 8B, bien qu’ils soient moins de la moitié de sa taille, mais leur force la plus notable est une augmentation remarquable de l’efficacité de l’inférence. Par rapport aux LLM conventionnels, nos modèles hybrides Granite 4.0 nécessitent beaucoup moins de RAM pour s’exécuter, en particulier pour les tâches impliquant de longs contextes (comme l’ingestion d’une grande base de code ou d’une documentation complète) et plusieurs sessions en même temps (comme un agent de service client gérant simultanément de nombreuses demandes des utilisateurs).
Plus important encore, cette réduction spectaculaire des besoins en mémoire de Granite 4.0 entraîne une réduction tout aussi importante du coût du matériel nécessaire pour exécuter de lourdes charges de travail à des vitesses d’inférence élevées. Notre objectif est de faciliter l’accès en offrant aux entreprises et aux développeurs open source un accès économique à des LLM hautement compétitifs.
La priorité d’IBM en matière d’efficacité de l’inférence pratique sur n’importe quel matériel va de pair avec l’accent mis sur la sûreté, la sécurité et la transparence de son écosystème de modèles. À la suite d’un audit externe complet de plusieurs mois du processus de développement de l’IA d’IBM, IBM Granite est récemment devenu la seule famille de modèles de langage ouverts à obtenir la certification ISO 42001, répondant à la première norme internationale au monde en matière de responsabilité, d’explicabilité, de confidentialité des données et de fiabilité des systèmes de gestion de l’IA (AIMS). Cette fiabilité fondamentale est renforcée par notre récent partenariat avec HackerOne dans le cadre d’un programme de bug bounty pour Granite, ainsi que par notre nouvelle pratique de signature cryptographique des points de contrôle des modèles 4.0 disponibles sur Hugging Face (permettant aux développeurs et aux entreprises de garantir la provenance et l’authenticité des modèles ).
Certains partenaires de l’entreprise, dont EY et Lockheed Martin, ont bénéficié d’un accès anticipé pour tester les capacités de Granite 4.0 à l’échelle, sur des cas d’utilisation stratégiques. Les commentaires de la version préliminaire de ces partenaires, ainsi que ceux de la communauté open source, seront utilisés pour améliorer et optimiser les modèles en vue de mises à jour futures.
La version actuelle comprend les variantes Base et Instruct de Micro, Tiny et Small. Des tailles de modèles supplémentaires (plus grandes et plus petites), ainsi que des variantes avec support de raisonnement explicite, sont prévues d’être publiées d’ici la fin de l’année 2025.
Les modèles hybrides Granite 4.0 sont nettement plus rapides et plus économes en mémoire que les modèles de taille comparable construits avec des architectures transformatrices standard. L’architecture hybride Granite 4 combine une petite quantité de couches d’attention standard de type Transformer avec une majorité de couches Mamba et plus précisément, Mamba-2. Mamba traite les nuances du langage d’une manière totalement distincte et nettement plus efficace que les modèles de langage conventionnels.
Les exigences en matière de mémoire GPU des LLM sont souvent exprimées en termes de quantité de RAM nécessaire uniquement pour charger les poids du modèle. Mais de nombreux cas d’utilisation en entreprise, en particulier ceux qui impliquent un déploiement à grande échelle, une IA agentique dans des environnements complexes ou des systèmes RAG, impliquent un contexte prolongé, une inférence par lots de plusieurs instances de modèles simultanées, ou les deux. Conformément à l’importance accordée par IBM aux fonctionnalités pratiques d’entreprise, nous avons évalué et optimisé Granite 4 en tenant compte du contexte prolongé et des sessions simultanées.
Par rapport aux modèles conventionnels basés sur des Transformers, Granite 4.0-H peut offrir une réduction de plus de 70 % de la RAM nécessaire pour gérer les entrées longues et plusieurs lots simultanés.
Les modèles hybrides Granite 4.0 sont compatibles avec les GPU AMD Instinct MI-300X, ce qui permet de réduire encore davantage leur empreinte mémoire.
Les LLM conventionnels ont du mal à maintenir le débit lorsque la longueur du contexte ou la taille des lots augmente. Nos modèles hybrides continuent à accélérer leur production même pour des charges de travail pour lesquelles la plupart des modèles ralentissent ou saturent purement et simplement en termes de capacités du matériel. Plus vous leur appliquerez de bonnes pratiques, plus les avantages seront visibles.
IBM a travaillé avec Qualcomm Technologies, Inc. et Nexa IA pour assurer la compatibilité des modèles Granite 4.0 avec les NPU Hexagon1 afin d’optimiser davantage la vitesse d’inférence pour un déploiement intégré sur les smartphones et les PC.
Bien entendu, la fonctionnalité réelle de ces avantages en termes d’efficacité tient au fait que la qualité de production des modèles Granite 4.0 est compétitive par rapport à celle des modèles dont la classe de poids est égale ou supérieure, en particulier les modèles de référence qui évaluent les performances des principales tâches agentiques de l’IA, telles que le suivi des instructions et les appels de fonctions.
Tous les modèles Granite 4.0 offrent des améliorations globales majeures en termes de performances par rapport à la génération précédente de modèles Granite. Si la nouvelle architecture hybride de Granite contribue à l’efficacité de l’entraînement des modèles, la plupart des améliorations de la précision des modèles proviennent des progrès de nos méthodologies d’entraînement (et de post-entraînement) et de l’expansion et du perfectionnement continus du corpus de données d’entraînement de Granite. C’est ainsi que même Granite 4.0-Micro, construit sur une architecture Transformer conventionnelle similaire à celle des précédents modèles Granite, surpasse largement Granite 3.3 8B.
Ils excellent particulièrement dans les tâches essentielles aux cas d’utilisation en entreprise et aux workflows d’IA agentiques. Selon l’évaluation de Stanford HELM, Granite-4.0-H-Small dépasse tous les modèles de poids ouverts (à l’exception de Llama 4 Maverick, un modèle de paramètres 402B qui est plus de 12 fois supérieur à sa taille) sur IFEval, un test de référence largement utilisé pour évaluer la capacité d’un modèle à suivre des instructions explicites.
Dans de nombreux workflows, il est essentiel que les instructions soient non seulement suivies de manière fiable, mais aussi traduites avec précision en appels d’outils efficaces. À cette fin, Granite-4.0-H-Small suit le rythme de modèles beaucoup plus grands, ouverts et fermés, en se basant sur la référence Berkeley Function Calling Leaderboard v3 (BFCLv3). En outre, il y parvient à un prix inégalé dans cette gamme concurrentielle.
Granite 4.0 excelle également sur MTRAG, un test de référence mesurant les performances et la fiabilité sur des tâches complexes de génération augmentée de récupération (RAG) impliquant plusieurs tours, des questions sans réponse, des questions non autonomes et des informations couvrant plusieurs domaines.
Des indicateurs d’évaluation supplémentaires sont disponibles sur les cartes de modèles Hugging Face de Granite 4.0.
Tous les modèles Granite reposent sur la sécurité, la sûreté et une gouvernance responsable.
En début de mois, IBM Granite est devenue la première famille de modèles de langage ouverts à recevoir l’accréditation ISO/IEC 42001:2023, certifiant que Granite est conforme aux bonnes pratiques reconnues à l’international pour une IA sûre et responsable et que le système de gestion de l’IA d’IBM (AIMS) répond aux critères d’évaluation les plus stricts. Les entreprises peuvent travailler en toute confiance avec les modèles Granite 4.0, même dans des contextes à fort enjeu, comme les secteurs hautement réglementés et les environnements de déploiement essentiels.
Comme tous les modèles Granite, les modèles Granite 4.0 ont été entièrement entraînés à partir de données soigneusement sélectionnées, acquises de manière éthique et approuvées par l’entreprise. Forts de notre entière confiance dans la fiabilité de nos modèles, IBM offre une indemnisation illimitée pour les réclamations de tiers relatives à la propriété intellectuelle concernant le contenu généré par les modèles Granite lorsqu’ils sont utilisés sur IBM watsonx.ai.
Au-delà de ses tests internes approfondis et de son red-teaming, IBM s’est récemment associé à HackerOne pour lancer un programme de bug bounty pour Granite, offrant jusqu’à 100 000 $ pour l’identification des failles imprévues, des modes de défaillance ou des vulnérabilités au jailbreak et à d’autres types d’attaques. Toute information découverte par les chercheurs participant au programme bug bounty fera l’objet d’améliorations et de mises à jour continues de la sécurité de nos modèles, en particulier par la génération de données synthétiques pour améliorer l’alignement des modèles.
IBM se concentre sur la sûreté et la sécurité non seulement de nos modèles, mais aussi de leur chaîne de distribution. À cette fin, IBM a lancé la nouvelle pratique consistant à ajouter une signature cryptographique sur tous les points de contrôle des modèles Granite 4 avant leur sortie : tous les points de contrôle des modèles Granite sont désormais livrés avec un fichier model.sig qui permet de vérifier facilement et publiquement la provenance des modèles Granite afin de garantir leur intégrité et leur authenticité.
Malgré leurs nombreux avantages, les modèles de transformateurs présentent un inconvénient majeur : leurs besoins de calcul augmentent de manière quadratique par rapport à la longueur de la séquence. Si la longueur du contexte double, le nombre de calculs qu’un modèle de transformateur doit effectuer (et stocker en mémoire) quadruple. Ce « goulot d’étranglement quadratique » réduit inévitablement la vitesse et augmente le coût à mesure que la longueur du contexte augmente. En cas de longueurs de contexte importantes, il peut rapidement épuiser la capacité RAM des GPU grand public, y compris haut de gamme.
Lorsque les transformateurs s’appuient sur l’auto-attention, Mamba utilise un mécanisme de sélection totalement distinct qui est intrinsèquement plus efficace. Les exigences de calcul de Mamba évoluent de manière linéaire en fonction de la longueur de la séquence : lorsque le contexte double, Mamba effectue uniquement le double (et non la quadruple) des calculs. Mieux encore, les exigences en mémoire de Mamba restent constantes, quelle que soit la longueur de la séquence. Plus vous travaillez sur un modèle Mamba, plus il y a d’avantages par rapport aux transformateurs.
Néanmoins, les transformateurs et l’auto-attention présentent toujours certains avantages par rapport à Mamba et Mamba-2, notamment pour les performances sur les tâches qui impliquent un apprentissage dans le contexte (comme l’apprentissage few-shot). Heureusement, la combinaison des deux dans un modèle hybride offre le meilleur des deux mondes. Pour en savoir plus, consultez notre aperçu de Granite-4.0-Tiny.
L’architecture qui alimente Granite 4.0-H-Micro, Granite 4.0-H-Tiny et Granite 4.0-H-Small combine les couches Mamba-2 et les blocs transformateurs conventionnels de manière séquentielle dans un rapport 9:1. Fondamentalement, les blocs Mamba-2 traitent efficacement le contexte global et transmettent périodiquement ces informations contextuelles via un bloc transformateur qui fournit une analyse plus nuancée du contexte local grâce à l’auto-attention avant de le transmettre au groupe suivant de couches Mamba-2.
Il convient de noter que la plupart des infrastructures de service basées sur des LLM dans le monde ont été traditionnellement adaptées uniquement à des modèles à transformateurs. Suite au lancement expérimental de Granite 4.0-Tiny-Preview plus tôt cette année, nous avons étroitement collaboré avec des partenaires de l’écosystème pour établir le support de l’architecture hybride Granite 4 dans les cadres des exigences d’inférence, notamment vLLM, llama.cpp, NexaML et MLX en préparation pour la version d’aujourd’hui.
Granite-4.0-H-Tiny et Granite-4.0-H-Small transmettent la sortie de chaque bloc Mamba-2 et transformateur à un bloc de mélange d’experts (MoE) à granularité fine (dont les spécifications ont légèrement changé depuis Granite 4.0-Tiny-Preview). Alors que les MoE fins font l’objet de recherches actives par IBM depuis la sortie de Granite 3.0 en 2024, Tiny et Small sont les premiers MoE à utiliser des experts partagés activés en permanence, ce qui améliore l’efficacité de leurs paramètres et donne aux autres « experts » les moyens d’agir pour mieux développer des connaissances spécialisées de manière distincte.
Granite 4.0-H-Micro utilise des couches de propagation denses conventionnelles au lieu de blocs MoE, mais reflète l’architecture partagée par Tiny et Small.
L’un des aspects les plus intéressants des modèles de langage basés sur des modèles d’espace d’état (SSM) tels que Mamba est leur capacité théorique à gérer des séquences infiniment longues. Tous les modèles Granite 4.0 ont été entraînés sur des échantillons de données allant jusqu’à 512 K tokens dans une longueur de contexte. La performance a été validée sur des tâches impliquant une longueur de contexte allant jusqu’à 128 000 tokens, mais théoriquement, la longueur du contexte peut être étendue davantage.
Dans les modèles de transformateurs standard, la fenêtre contextuelle maximale est fondamentalement contrainte par les limites de l’encodage positionnel. Étant donné que le mécanisme d’attention d’un transformateur traite chaque token à la fois, il ne conserve aucune information sur l’ordre des tokens. L’encodage positionnel (PE) réintègre ces informations. Certaines recherches suggèrent que les modèles utilisant des techniques PE courantes telles que l’encodage positionnel rotatif (RoPE) ont du mal à exécuter les séquences plus longtemps que ce qu’ils ont vus lors de l’entraînement.2
L’architecture Granite 4.0-H n’utilise aucun encodage positionnel (NoPE). Nous avons constaté qu’ils n’en ont tout simplement pas besoin : Mamba conserve intrinsèquement les informations concernant l’ordre des tokens, car il les « lit » de manière séquentielle.
Malgré leurs différentes implémentations architecturales, tous les modèles Granite 4.0 sont entraînés à partir d’échantillons tirés du même corpus de données d’entraînement soigneusement compilé de 22T de tokens axés sur les entreprises, ainsi que des mêmes méthodologies de pré-entraînement améliorées, du même programme de post-entraînement et du même modèle de chat.
Granite 4.0 a été pré-entraîné sur un large éventail d’échantillons organisés à partir de DataComp-LM (DCLM), de GneissWeb, de sous-ensembles TxT360, de Wikipedia et d’autres sources pertinentes pour les entreprises. Les modèles ont également été post-entraînés pour exceller dans les tâches d’entreprise, en exploitant à la fois des jeux de données synthétiques et ouverts dans des domaines tels que le langage, le code, les mathématiques et le raisonnement, le multilinguisme, la sécurité, l’appel d’outils, la RAG et la cybersécurité. Tous les jeux de données d’entraînement ont été préparés avec le framework open source Data Prep Kit.
Une différence notable par rapport aux générations précédentes de modèles Granite réside dans la décision de diviser nos modèles Granite 4.0 post-entraînés en deux variantes distinctes : une variante adaptée à l’enseignement (publiée aujourd’hui) et une variante adaptée au raisonnement (qui sera publiée plus tard cet automne). Faisant écho aux conclusions de récentes recherches sur le secteur, nous avons constaté lors de l’entraînement que la séparation des deux entraînait une meilleure performance de suivi des instructions pour les modèles Instruct et une meilleure performance de raisonnement complexe pour les modèles Thinking . Cela présente l’avantage supplémentaire de simplifier les modèles de chat pour les deux variantes.
Plus tard cet automne, les variantes Base et Instruct des modèles Granite 4.0 seront rejointes par leurs homologues « Thinking », dont le post-entraînement visant à améliorer les performances sur des tâches complexes pilotées par la logique est en cours.
D’ici la fin de l’année, nous prévoyons également de publier d’autres tailles de modèles, notamment Granite 4.0 Medium, mais aussi Granite 4.0 Nano, un éventail de modèles nettement plus petits conçus (entre autres) pour l’inférence sur les appareils de périphérie.
Les modèles Granite 4.0 sont désormais disponibles auprès d’un large éventail de fournisseurs de plateformes et de cadres d’inférence. Ils constituent à la fois des modèles autonomes rapides et efficaces, ainsi que des éléments clés des workflows d’ensemble, aux côtés des principaux modèles de pointe. Vous pouvez également les tester sur le Granite Playground.
La nouvelle architecture Granite Hybrid offre une prise en charge complète et optimisée dans vLLM 0.10.2 et Hugging Face Transformers. L’architecture Granite Hybrid est également prise en charge dans llama.cpp et MLX, bien que les travaux visant à optimiser pleinement le débit dans ces environnements d’exécution soient encore en cours. Nous remercions les partenaires de notre écosystème pour leur collaboration et espérons que nos efforts faciliteront l’expérimentation de modèles hybrides.
Les modèles Granite 4.0 Instruct sont disponibles dans IBM watsonx.ai, le studio de développement d’IA intégré d’IBM pour rendre le déploiement de l’IA simple et évolutif. Les modèles Granite 4.0 Instruct sont également disponibles via des partenaires de plateforme notamment, par ordre alphabétique, Dell Technologies (sur Dell Pro AI Studio et Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE et Replicate. Les modèles de Granite 4.0 Base sont disponibles via Hugging Face.
Les modèles Granite 4.0 sont également pris en charge dans Unsloth pour une optimisation rapide et économe en mémoire, et peuvent être utilisés dans Continue pour alimenter des assistants de codage IA personnalisés.
Les guides et les recettes de Granite Docs peuvent vous aider à démarrer, y compris avec des tutoriels utiles :
Modèles de langage open source de petite taille, conçus pour offrir performance et transparence à un prix compétitif.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
1. Les produits de la marque Qualcomm sont des produits de Qualcomm Technologies, Inc. et/ou de ses filiales. Qualcomm Hexagon est une marque commerciale ou une marque déposée de Qualcomm Incorporated.
2. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 6 novembre 2023