Le lancement de Granite 4.0 ouvre une nouvelle ère pour la famille de grands modèles de langage prêts à l’emploi d’IBM, en s’appuyant sur les nouvelles avancées architecturales pour doubler la mise sur des modèles de langage petits et efficaces, offrant des performances compétitives à des coûts réduits et une latence limitée. Les modèles Granite 4.0 ont été développés en mettant l’accent sur les tâches essentielles pour les workflows agentiques, à la fois dans les déploiements autonomes et en tant que blocs de construction rentables dans les systèmes complexes aux côtés des modèles de raisonnement plus grands.

La série Granite 4.0 comprend plusieurs tailles de modèles et styles d’architecture afin de garantir une production optimale sur un large éventail de contraintes matérielles, notamment :

Granite-4.0-H-Small, un modèle hybride de groupe d’experts (MoE) avec un total de 32 Mds de paramètres (9 Mds actifs)

un modèle hybride de groupe d’experts (MoE) avec un total de 32 Mds de paramètres (9 Mds actifs) Granite-4.0-H-Tiny, un MoE hybride avec un total de 7 Mds de paramètres (1 Md actif)

un MoE hybride avec un total de 7 Mds de paramètres (1 Md actif) Granite-4.0-H-Micro, un modèle hybride dense avec 3 Mds de paramètres.

un modèle hybride dense avec 3 Mds de paramètres. Cette version inclut également Granite-4.0-Micro, un modèle dense de 3 Mds de paramètres avec une architecture transformatrice conventionnelle axée sur l’attention, pour s’adapter aux plateformes et aux communautés qui ne prennent pas encore en charge les architectures hybrides.

Granite 4.0-H Small est un modèle de travail pour des performances robustes et rentables sur les workflows d’entreprise tels que les agents multi-outils et l’automatisation du support client. Les modèles Tiny et Micro sont conçus pour les applications à faible latence, edge et locales, et peuvent également servir de blocs de construction au sein de workflows pour l’exécution rapide de tâches clés telles que l’appel de fonctions.

Les performances de référence de Granite 4.0 montrent des améliorations considérables par rapport aux générations précédentes, même les plus petits modèles Granite 4.0 surpassent de façon significative les modèles Granite 3.3 8B, bien qu’ils soient moins de la moitié de sa taille, mais leur force la plus notable est une augmentation remarquable de l’efficacité de l’inférence. Par rapport aux LLM conventionnels, nos modèles hybrides Granite 4.0 nécessitent beaucoup moins de RAM pour s’exécuter, en particulier pour les tâches impliquant de longs contextes (comme l’ingestion d’une grande base de code ou d’une documentation complète) et plusieurs sessions en même temps (comme un agent de service client gérant simultanément de nombreuses demandes des utilisateurs).

Plus important encore, cette réduction spectaculaire des besoins en mémoire de Granite 4.0 entraîne une réduction tout aussi importante du coût du matériel nécessaire pour exécuter de lourdes charges de travail à des vitesses d’inférence élevées. Notre objectif est de faciliter l’accès en offrant aux entreprises et aux développeurs open source un accès économique à des LLM hautement compétitifs.