IBM Granite 4.0 Tiny Preview : aperçu de la prochaine génération de modèles Granite

2 mai 2025

Auteur

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

Nous sommes ravis de présenter IBM Granite 4.0 Tiny Preview, une version préliminaire du plus petit modèle de la future famille de modèles de langage Granite 4.0, à la communauté open source.

Granite 4.0 Tiny Preview est extrêmement compact et efficace en termes de calcul : avec une précision FP8, plusieurs sessions simultanées effectuant des tâches à long contexte (128 K) peuvent être exécutées sur du matériel de qualité grand public, y compris des GPU généralement disponibles pour moins de 350 USD.1

Bien que le modèle ne soit que partiellement entraîné (il n’a vu que 2,5 T sur les 15 T ou plus de jetons d’entraînement prévus), il offre déjà des performances rivalisant avec celles d’IBM Granite 3.3 2B Instruct, malgré un nombre réduit de paramètres actifs et une réduction d’environ 72 % des besoins en mémoire.2 Nous nous attendons à ce que les performances de Granite 4.0 Tiny soient comparables à celles de Granite 3.3 8B Instruct au moment où il aura terminé la formation et le post-entraînement.

Comme son nom l’indique, Granite 4.0 Tiny sera l’un des plus petits modèles de la famille de modèles Granite 4.0. Il sera officiellement lancé cet été dans le cadre d’une gamme de modèles qui comprend également Granite 4.0 Small et Granite 4.0 Medium. Granite 4.0 continue l’engagement ferme d’IBM à faire de l’efficacité et de la praticité la pierre angulaire du développement de ses LLM d’entreprise.

Cette version préliminaire de Granite 4.0 Tiny est désormais disponible sur Hugging Face, bien que nous ne recommandions pas encore la version de présentation pour une utilisation professionnelle, sous une licence standard Apache 2.0. Notre objectif est de permettre même aux développeurs débordés dans le GPU d'expérimenter et de jouer avec le modèle sur des GPU grand public. La nouvelle architecture de ce modèle attend la prise en charge des transformeurs Hugging Face et des vLLM, qui seront bientôt terminés pour les deux projets. La prise en charge officielle de l’exécution de ce modèle localement via des partenaires de plateforme, notamment Ollama et LMStudio, est prévue à temps pour la publication complète du modèle plus tard cet été.

Performance d'enterprise sur le matériel grand public

Les exigences en matière de mémoire des LLM sont souvent fournies, au sens propre ou figuré, sans contexte approprié. Il ne suffit pas de savoir qu’un modèle peut être chargé avec succès dans vos GPU : vous devez savoir que votre matériel peut gérer le modèle dans les longueurs de contexte requises par votre cas d’utilisation.

En outre, de nombreux cas d’utilisation d’entreprise n’impliquent pas un déploiement de modèle isolé, mais une inférence par lots de plusieurs instances simultanées. Par conséquent, IBM s'efforce de mesurer et de signaler les besoins en mémoire en tenant compte d'un contexte prolongé et de sessions simultanées.

Granite 4.0 Tiny est l’un des modèles de langage les plus économes en mémoire disponibles aujourd’hui. Même dans des contextes très longs, plusieurs instances simultanées de Granite 4.0 Tiny peuvent facilement s’exécuter sur un GPU peu consommateur.

Une toute nouvelle architecture MoE hybride

Alors que les générations précédentes de LLM Granite utilisaient une architecture transformatrice conventionnelle, tous les modèles de la famille Granite 4.0 utilisent une nouvelle architecture hybride Mamba-2/Transformer, associant la vitesse et l’efficacité de Mamba à la précision de l’auto-attention basée sur les transformateurs. Granite 4.0 Tiny-Preview, en particulier, est un modèle hybride d’experts (MoE) à granularité fine, avec 7B de paramètres totaux et seulement 1B de paramètres actifs au moment d’inférence.

La plupart des innovations à l’origine de l’architecture Granite 4 sont dues à la collaboration d’IBM Research avec les créateurs originaux de Mamba sur Bamba, un modèle hybride open source expérimental dont le successeur (Bamba v2) a été publié plus tôt cette semaine.

Bref historique des modèles Mamba

Mamba (PDF) est un type de modèle d’espace d’état (SSM), introduit en 2023, environ 6 ans après le lancement des transformers en 2017.

Les SSM sont conceptuellement similaires aux neural networks récurrents (RNN) qui dominaient le traitement automatique du langage naturel (NLP) à l’ère des pré-transformers. Ils ont été conçus à l’origine pour prédire l’état suivant d’une séquence continue (comme un signal électrique) en utilisant uniquement les informations de l’état actuel, de l’état précédent et de la gamme de possibilités (l’espace d’état). Bien qu’ils soient utilisés dans plusieurs domaines depuis des décennies, les SSM partagent certaines lacunes avec les RNN qui, jusqu’à récemment, limitaient leur potentiel en matière de modélisation linguistique.

Contrairement au mécanisme d'auto-attention des transformers, les SSM conventionnels n'ont pas la capacité inhérente de se concentrer de manière sélective ou d'ignorer des informations contextuelles spécifiques. Ainsi, en 2023, Albert Gu de Carnegie Mellon et Tri Dao de Princeton ont introduit un type de Neural Networks à séquence d'espace d'état structurée (S4) (PDF) qui ajoute un mécanisme de sélection et une méthode d'analyse (pour l'efficacité des calculs), soit un modèle abrégé en « S6 » - et a obtenu des Résultats de modélisation de langage compétitifs par rapport aux transformers. Ils ont surnommé leur modèle « Mamba » parce que, entre autres, tous ces « S » ressemblent à ceux d'un serpent.

En 2024, Gu et Dao ont publié Mamba-2, une implémentation simplifiée et optimisée de l'architecture Mamba. Tout aussi important, leur document technique (PDF) a mis en évidence la compatibilité entre les SSM et l’auto-attention.

Mamba-2 vs. transformers

Les principaux avantages de Mamba par rapport aux modèles basés sur des transformateurs reposent sur l’efficacité et la rapidité.

Les transformateurs ont une faiblesse cruciale : les exigences de calcul de l'auto-attention évoluent de manière quadratique grâce au contexte. En d’autres termes, chaque fois que la longueur de votre contexte double, le mécanisme d’attention n’utilise pas seulement les ressources, il utilise quadruple les Ressources. Ce « goulot d’étranglement quadratique » réduit considérablement la vitesse et les performances à mesure que la fenêtre contextuelle (et le cache KV correspondant) s’accroît.

Inversement, les besoins de calcul de Mamba évoluent de manière linéaire : si vous doublez la longueur d’une séquence en entrée, Mamba n’utilise que deux fois les ressources. Alors que l’auto-attention doit calculer de manière répétée la pertinence de chaque token précédent pour chaque nouveau token, Mamba maintient simplement un « résumé » condensé et de taille fixe du contexte antérieur des tokens antérieurs. Au fur et à mesure que le modèle « lit » chaque nouveau token, il détermine la pertinence de ce token, puis met à jour (ou ne met pas à jour) le résumé en conséquence. Essentiellement, alors que l’auto-attention conserve chaque bit d’information et évalue ensuite l’influence de chacun en fonction de sa pertinence, Mamba ne conserve que les informations pertinentes de manière sélective.

Cela dit, la méthode plus gourmande en mémoire et en redondance en calcul des transformers présente ses propres avantages. Par exemple, desrecherches ont montré (PDF) que les transformers devancent toujours Mamba et Mamba-2 dans les tâches nécessitant un apprentissage en contexte (comme l’apprentissage few-shot), lacopie ou le raisonnement en contexte long.

Le meilleur des deux mondes.

Heureusement, les forces respectives des transformers et de Mamba ne s’excluent pas mutuellement. Dans l'article original sur Mamba-2, les auteurs Dao et Gu suggèrent qu'un modèle hybride pourrait dépasser les performances d'un transformateur pur ou d'un SSM, une notion validée par les recherches de NVIDIA de l'année dernière (PDF). Pour approfondir cette question, IBM Research a collaboré avec Dao et Gu eux-mêmes, ainsi qu'avec l'université de l'Illinois à Minjia Zhang d'Urbana-Champaign (UIUC), sur Bamba et Bamba V2. Bamba, à son tour, a façonné de nombreux éléments architecturaux de Granite 4.0.

L’architecture MoE du Granite 4.0 utilise 9 blocs Mamba pour 1 bloc de transformateur. Fondamentalement, les mécanismes de sélection des blocs Mamba capturent efficacement le contexte global, qui est ensuite transmis aux blocs transformateurs, ce qui permet une analyse plus nuancée du contexte local. Les résultats sont une réduction spectaculaire de l’utilisation de la mémoire et de la latence, sans compromis apparent sur les performances.

Granite 4.0 Tiny double ces gains d’efficacité en les implémentant dans un cadre compact de mélange d’experts (MoE), comprenant 7B de paramètres totaux et 64 experts, pour un total de 1B de paramètres actifs au moment de l’inférence. De plus amples informations sont disponibles dans la carte du modèle Hugging Face de Granite 4.0 Tiny Preview .

Longueur du contexte sans contrainte

L'un des aspects les plus intéressants des modèles de langage basés sur SSM est la capacité théorique de gérer des séquences infiniment longues. Mais en raison de contraintes pratiques, le mot « théorique » fait généralement beaucoup.

L’une de ces contraintes, en particulier pour les modèles SSM hybrides, provient de l’encodage positionnel (PE) utilisé pour représenter les informations sur l’ordre des mots. Le PE ajoute des étapes de calcul, et les recherches ont montré que les modèles utilisant des techniques PE telles que l’encodage positionnel rotatif (RoPE) ont du mal à se généraliser aux séquences plus longues que ce qu’ils ont vu en entraînement.3

L’architecture Granite 4.0 n’utilise aucun encodage positionnel (NoPE). Nos tests montrent de manière convaincante que cela n'a eu aucun effet négatif sur les performances à long contexte. À l'heure actuelle, nous avons déjà validé la performance contextuelle de Tiny Preview pour au moins 128 000 tokens, et nous prévoyons de valider des performances similaires sur des longueurs de contexte nettement plus longues d'ici la fin de l'entraînement du modèle et après l'entraînement. Il convient de noter qu’un des principaux défis dans la validation définitive de la performance sur des tâches qui se situent dans un contexte à 1 million de tokens est la rareté des datasets appropriés.

L’autre contrainte pratique sur la longueur du contexte Mamba est la calcul. Le scaling linéaire est meilleur que le scaling quadratique, mais il finit toujours par ajouter. Là encore, Granite 4.0 Tiny présente deux avantages clés :

  • Contrairement à PE, NoPE n’ajoute aucune charge de calcul supplémentaire au mécanisme d’attention dans les couches de transformeurs du modèle.
  • Granite 4.0 Tiny est extrêmement compact et efficace, laissant ainsi beaucoup d’espace matériel pour la mise à l’échelle linéaire. 

En d’autres termes, l’architecture MoE Granite 4.0 n’impose aucune contrainte sur la longueur du contexte. Il peut aller aussi loin que votre matériel vous mènera.

Et maintenant ?

Nous sommes ravis de continuer le pré-entraînement de Granite 4.0 Tiny, compte tenu des Résultats aussi prometteurs dès le début du processus. Nous sommes également enthousiastes à l’idée d’appliquer aux nouveaux modèles ce que nous avons tiré de l’entraînement Granite 3.3, en particulier en ce qui concerne les capacités de raisonnement et le suivi d’instructions complexes. À l’instar de ses prédécesseurs dans Granite 3.2 et Granite 3.3, Granite 4.0 Tiny Preview offre une capacité à basculementen cours de réflexion etfin de la réflexion la fonctionnalité (bien que son post-entraînement axé sur le raisonnement soit très incomplet).

De plus amples informations sur les nouveaux développements de la série Granite seront présentées lors de la conférence IBM Think 2025, ainsi que dans les semaines et les mois à suivre.

Découvrez Granite 4.0 Tiny Preview sur Hugging Face →

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Solutions connexes
IBM Granite

Réalisez plus de 90 % d’économies grâce aux modèles plus petits et ouverts de Granite, conçus pour optimiser l’efficacité des développeurs. Ces modèles adaptés à l’entreprise offrent des performances exceptionnelles par rapport aux benchmarks de référence et sur un large éventail de tâches d’entreprise, de la cybersécurité à la RAG.

Découvrir Granite
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les modèles d’IA IBM Granite
Notes de bas de page

1. Par exemple, la consommation de RAM théorique pour 5 sessions simultanées d’une longueur de contexte allant jusqu’à 128 Ko convient à un GPU NVIDIA GeForce RTX 3060 doté de 12 Go de RAM, qui, au 29 avril 2025, est proposé à partir de 329 USD. (Source : NVIDIA).
2. Réduction de mémoire calculée pour une longueur de contexte de 128 Ko et pour 16 sessions simultanées.
3. « The Impact of Positional Encoding on Database Generalization in Transformers », arXiv, 6 novembre 2023