IBM Granite 3.2 : modèles de raisonnement et de vision open source

Auteur

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Voici un résumé des principales informations :

Grâce à leurs nouvelles capacités expérimentales de raisonnement en chaîne de pensée, les nouvelles versions Granite 3.2 8B Instruct et Granite 3.2 2B Instruct peuvent désormais suivre des instructions complexes de manière nettement plus efficace, sans que leurs performances générales n’en pâtissent. Le processus de raisonnement peut être activé ou désactivé, ce qui permet une utilisation efficace des ressources informatiques.
Associé aux techniques de mise à l’échelle de l’inférence d’IBM, le processus de pensée étendu de Granite 3.2 8B Instruct lui permet d’atteindre ou de dépasser les performances de raisonnement de modèles beaucoup plus grands, notamment GPT-4o et Claude 3.5 Sonnet.
Notre nouveau modèle multimodal, Granite Vision 3.2 2B, a été développé en insistant particulièrement sur la compréhension des documents, car il correspond aux performances des principaux modèles ouverts, cinq fois plus grands que lui.
Les derniers arrivés dans la famille de modèles Granite Timeseries, Granite-Timeseries-TTM-R2.1, étendent les capacités de prévision de TTM pour inclure des prédictions quotidiennes et hebdomadaires en plus des prévisions à la minute et à l’heure déjà disponibles avec les modèles TTM précédents.
Nous introduisons de nouvelles tailles de modèle pour Granite Guardian 3.2, dont une variante dérivée de notre modèle de langage mixte d’experts (MoE) 3B-A800M. Les nouveaux modèles offrent une efficacité accrue avec une perte de performance minimale.
La série de modèles Granite Embedding inclut désormais la capacité d’apprendre des embeddings épars. Granite-Embedding-30M-Sparse assure un équilibre entre efficacité et évolutivité, quel que soit le budget alloué en ressources et en latence.
Comme leurs prédécesseurs, tous les nouveaux modèles IBM Granite sont publiés en open source sous licence Apache 2.0 permissive.
Les modèles Granite 3.2 sont désormais disponibles sur IBM watsonx.ai, Hugging Face, Ollama, LMStudio et Replicate.

Granite 3.2, la dernière version de notre troisième génération de modèles IBM Granite, est une étape essentielle dans l’évolution de la série Granite au-delà des modèles de langage simples. Doté de fonctionnalités de raisonnement expérimental et de notre premier modèle de langage et de vision (Vision Language Model, VLM) officiel, Granite 3.2 introduit plusieurs nouvelles fonctionnalités importantes dans la famille Granite.

Cette version comprend également une série d’améliorations visant à accroître l’efficacité et la polyvalence de nos offres existantes. En privilégiant les modèles pratiques et adaptés aux entreprises, IBM continue de viser des performances de pointe avec un nombre de paramètres toujours plus réduit.

Comme toujours, les derniers modèles Granite sont en open source sous licence Apache 2.0. Tous les modèles Granite sont désormais disponibles sur Hugging Face. Certains modèles sont également disponibles via d’autres plateformes, notamment IBM watsonx.ai. Vous trouverez des tutoriels, des recettes et d’autres ressources dans la section « Premiers pas » à la fin de cet article.

Granite 3.2 Instruct : le raisonnement quand vous en avez besoin

Les itérations les plus récentes des grands modèles de langage textuels (LLM) phares d’IBM, Granite 3.2 Instruct 8B et Granite 3.2 Instruct 2B, ont été entraînées pour offrir des capacités de raisonnement améliorées par rapport à leurs homologues 3.1. Notre mise en œuvre du raisonnement va quelque peu à l’encontre de certaines tendances du secteur, conformément à l’approche pratique d’IBM pour améliorer la performance des modèles.

Plutôt que de compliquer les processus de développement en publiant des « modèles de raisonnement » distincts, IBM a intégré des fonctionnalités de raisonnement directement à ses principaux modèles Instruct. Le processus de raisonnement interne du modèle peut être facilement activé et désactivé, afin de garantir une utilisation appropriée des ressources informatiques pour la tâche à accomplir.
Alors que les techniques classiques fondées sur le raisonnement améliorent les performances des modèles pour les tâches logiques (comme les mathématiques et le codage) au détriment d’autres domaines, la méthodologie d’IBM apporte les avantages du raisonnement tout en préservant les performances générales et la sécurité à tous les niveaux.

Ces fonctionnalités expérimentales des nouveaux modèles Granite 3.2 Instruct ne représentent qu’une des nombreuses explorations en cours chez IBM Research sur l’évolution des modèles basés sur le raisonnement. D’autres travaux sur les techniques de mise à l’échelle des inférences montrent que Granite 3.2 8B Instruct peut être calibré pour égaler ou dépasser les performances de raisonnement mathématique de modèles beaucoup plus grands, tels que GPT-4O-0513 d’OpenAI et Claude-3.5-Sonnet-1022 d’Anthropic.

Considérer les avantages (et les inconvénients) du raisonnement

L’intuition à l’origine des récentes avancées dans le domaine du raisonnement par modèle de langage provient d’une étude de 2022 qui a démontré que le simple fait d’ajouter la phrase « think step by step » (pense étape par étape), une technique de prompt engineering communément appelée chaîne de pensée (CoT), améliore considérablement les résultats du modèle pour les tâches de raisonnement.¹

Des recherches ultérieures menées en 2024 ont montré que l’augmentation du temps de calcul de l’inférence, c’est-à-dire des ressources utilisées pour générer chaque production pendant l’inférence, pouvait améliorer le modèle performance autant que l’augmentation de la taille d’un modèle ou des ressources utilisées pour l’entraîner. Les approches les plus récentes ont principalement cherché à mettre à l’échelle l’inférence en incorporant divers cadres d’exigences d’apprentissage par renforcement (Reinforcement Learning, RL) qui incitent à des « processus de pensée » plus longs et plus complexes. Il a été démontré empiriquement que la mise à l’échelle de l’inférence permet à des LLM même plus petits de dépasser les capacités de raisonnement de modèles beaucoup plus grands.

Malgré leurs points forts, les modèles de raisonnement ne sont pas sans inconvénients. Comprenant cela, IBM a pris des mesures délibérées pour atténuer ces inconvénients dans la mise en œuvre spécifique des capacités de raisonnement de Granite 3.2.

Éviter l’inefficacité

Les « modèles de raisonnement » sont généralement plus lents et plus coûteux que les LLM généraux, car vous devez générer (et payer) tous les jetons que le modèle utilise pour « réfléchir » à la réponse finale avant de fournir une réponse à l’utilisateur. IBM Research cite un exemple de DeepSeek-R1, un modèle de raisonnement bien connu, prenant 50,9 secondes pour répondre à la question « Où se trouve Rome ? ».

Dans certains scénarios, ce surcroît de temps et de calcul peut être facilement justifié, mais dans d’autres, cela devient une perte de ressources. Plutôt que d’obliger les développeurs à jongler avec ces compromis chaque fois qu’ils choisissent un modèle pour une application ou un workflow donné, les modèles IBM Granite 3.2 Instruct permettent d’activer ou de désactiver leur processus de pensée étendu en ajoutant simplement le paramètre "thinking":true OU"thinking":false au point de terminaison de l’API.

Vous pouvez exploiter le processus réfléchi de Granite 3.2 lorsque c’est nécessaire ou donner la priorité à l’efficacité lorsque ce n’est pas le cas.

Éviter les baisses générales de performance

Dans l’histoire relativement courte des modèles de raisonnement, de nombreuses approches importantes ont donné la priorité aux gains de performance dans un ensemble étroitement ciblé de domaines logiques, tels que les mathématiques ou le codage. Alors que les travaux en cours d’IBM sur les techniques de mise à l’échelle des inférences ont donné lieu à des améliorations particulièrement impressionnantes performance dans les benchmarks techniques conventionnellement associés au « raisonnement », comme AIME et MATH-500, notre objectif pour Granite 3.2 Instruct était d’enrichir les processus de pensée de nos modèles afin d’améliorer de manière plus générale leur capacité à suivre des instructions complexes.

Se concentrer uniquement sur les tâches techniques spécifiques définies par les développeurs du modèle peut entraîner la perte de compétences dans d’autres domaines, tels que la performance générale et la sécurité, ces connaissances étant « oubliées » si elles ne sont pas suffisamment présentes dans les données utilisées pour améliorer le raisonnement. Pour éviter cela, IBM a développé Granite 3.2 Instruct en appliquant un cadre des exigences d’apprentissage par renforcement basé sur l’optimisation des préférences de pensée (TPO) directement vers Granite 3.1 Instruct.

Contrairement à de nombreuses approches courantes en matière de capacités de raisonnement, la TPO est moins dépendante des opérateurs logiques ou des fonctions pour évaluer et récompenser les productions des modèles, ce qui la rend plus facile à dimensionner pour des tâches générales. Cela a permis à Granite 3.2 Instruct de bénéficier de performances accrues pour les tâches nécessitant un raisonnement complexe, sans compromettre les performances ailleurs.

Les avantages de cette approche sont particulièrement évidents dans les comparaisons avec les modèles DeepSeek-R1-Distill, qui (malgré leur nom) sont en fait des versions des Llama modèles et Qwen affinées pour émuler le processus de raisonnement de DeepSeek-R1. Il convient de noter ici que, contrairement aux modèles R1-Distill, les modèles IBM Granite 3.2 Instruct n’ont pas été entraînés à l’aide de données générées par DeepSeek, ce qui simplifie considérablement leurs implications réglementaires.

Comparons les performances avant et après le raisonnement de modèles Llama, Qwen et Granite de taille similaire sur ArenaHard et Alpaga-Eval-2, des tests de performance populaires qui mesurent la capacité d’un modèle à penser son chemin sur des instructions difficiles. Alors que la technique de DeepSeek réduit les performances de ces tâches non ciblées, les techniques CoT utilisées pour faire évoluer Granite 3.1 Instruct vers Granite 3.2 Instruct ont considérablement amélioré le suivi des instructions.

Diagramme à barres des performances d’un LLM

Comparaison des performances de modèles sur la suite d’instructions complexes (pensée Granite = activée)

De même, Granite 3.2 réussit à intégrer des capacités de raisonnement sans les pertes de performances générales que cela implique souvent.

Comparaison avant et après le raisonnement de la performance dans les benchmarks de performance universitaire (pensée Granite = désactivée)

IBM place les préoccupations essentielles de l’entreprise, notamment la sécurité, au cœur de toutes ses décisions de conception. Alors que les modèles distillés par DeepSeek montrent une baisse significative des performances de sécurité (mesurées dans le benchmark AttaQ), l’approche d’IBM a préservé la robustesse de Granite 3.2 Instruct aux attaques adverses.

Diagramme à barres montrant la sécurité d’un LLM

Comparaison avant et après le raisonnement de la résilience aux attaques adverses (pensée Granite = désactivée)

Poursuivre nos travaux sur le raisonnement

Comme nous l’avons mentionné, la publication de Granite 3.2 ne marque que le début des explorations d’IBM sur les capacités de raisonnement des modèles destinés aux entreprises. Une grande partie de nos recherches en cours vise à tirer parti du processus de pensée intrinsèquement plus long et plus robuste de Granite 3.2 pour optimiser davantage les modèles.

L’une de ces voies d’exploration consiste à renforcer Granite 3.2 avec des techniques de mise à l’échelle d’inférence plus complexes, notamment le filtrage des particules et le vote majoritaire (également appelé auto-cohérence). Les premières expériences montrent que, lorsqu’elles sont utilisées conjointement à ces techniques de mise à l’échelle de l’inférence, les performances de Granite 3.2 pour les tâches de raisonnement mathématique peuvent égaler ou dépasser les performances de modèles frontières beaucoup plus grands.

Granite Vision 3.2 2B : Granite devient multimodal

Granite Vision 3.2 2B est un modèle de langage large et léger, doté de capacités de vision par ordinateur, qui cible les cas d’utilisation quotidiens en entreprise. Il a été formé en mettant l’accent sur la compréhension visuelle des documents. Traitant à la fois des entrées d’images et de texte, la performance de Granite Vision 3.2 dans les benchmarks essentiels pour les entreprises, tels que DocVQA et ChartQA, rivalise avec celle de modèles ouverts nettement plus grands.

Diagramme à barres de la sécurité d’un LLM

Dans les benchmarks qui mesurent la performance des tâches de compréhension de documents, Granite Vision 3.2 est aussi performant que des modèles ouverts encore plus grands.

Bien que Granite Vision 3.2 2B ne soit pas explicitement destiné à remplacer les modèles Granite textuels de taille similaire pour les tâches linguistiques, il est capable de gérer des scénarios d’entrée et de sortie de texte.

Une vision axée sur les images en entreprise

Granite Vision 3.2 2B peut gérer une grande variété de tâches de compréhension visuelle, mais il se spécialise dans les tâches les plus pertinentes pour la compréhension des documents et la génération augmentée de récupération (Retrieval Augmented Generation, RAG) multimodale.

La plupart des VLM, également appelés grands modèles de langage multimodaux (MLLM), sont entraînés pour des tâches de vision principalement sur des images naturelles. Cela n’offre pas nécessairement des performances optimales sur les images de documents, dont les caractéristiques visuelles uniques (mises en page, polices, graphiques, infographies) diffèrent considérablement de celles des images naturelles. Par rapport à la plupart des cas d’utilisation généralisés d’images entrantes et sortantes, la compréhension de documents nécessite une compréhension plus spécifique et plus fine du contexte visuel.

Les deux principaux défis pour permettre aux MLLM de traiter efficacement les documents et les visuels associés sont l’encodage adéquat des images haute résolution et l’interprétation précise du texte visuellement situé dans ces documents. Les approches spécialisées s’appuient généralement sur des systèmes externes de reconnaissance optique de caractères (Optical Character Recognition, OCR) pour traiter le texte au sein des images dans un cadre des exigences « percevoir puis comprendre », ou sur des architectures de modèles sur mesure conçues exclusivement pour la compréhension des documents.

Les deux approches présentent des inconvénients. La dépendance à l’égard de la compréhension externe des documents basée sur l’OCR peut entraîner l’accumulation d’erreurs avant que les informations essentielles n’atteignent la langue, tandis que de nombreuses méthodes dédiées « sans OCR » ont du mal à gérer les entrées haute résolution ou souffrent d’un manque de connaissances globales par rapport à celles d’un LLM compétitif.²

Plus récemment, de bonnes performances en matière de compréhension des documents ont été obtenues en réglant des modèles de langage de vision généralisés sur des jeux de données axés sur les documents. Malheureusement, les progrès de cette approche ont été quelque peu limités par la pénurie d’ensembles de données open source appropriés. Pour faciliter les progrès avec cette approche, le développement de Granite Vision 3.2 par IBM a impliqué un travail approfondi vers un jeu de données complet de suivi d’instructions pour la compréhension visuelle des documents.

DocFM : un jeu de données d’optimisation des instructions pour les tâches de vision d’entreprise

Le jeu de données DocFM est un grand jeu de données d’optimisation des instructions pour les tâches de vision qui s’appuie sur une base de données d’entreprise organisée. Des informations détaillées sur les sources de données utilisées pour la collecte des jeux de données pour la compréhension des documents, les méthodes de filtrage et de nettoyage utilisées pour traiter cette collecte initiale et les méthodologies utilisées pour générer de manière synthétique des tâches d’entraînement pour Granite Vision sont fournies dans le document technique qui l’accompagne.

Les données de compréhension de documents utilisées pour entraîner Granite Vision couvrent une grande variété de types de documents, sous les grandes catégories d’image : documents généraux, graphiques, organigrammes et diagrammes. Le jeu de données qui suit les instructions et qui est finalement dérivé de ces sources de données couvre un ensemble diversifié de tâches qui comprennent la réponse aux questions sur les documents, la compréhension du texte de la scène, l’extraction des valeurs-clés, l’ancrage du texte, l’analyse de la mise en page, le sous-titrage, la compréhension de l’utilisateur de l’interface et le code.

Graphiques circulaires indiquant les données utilisées pour entraîner Granite Vision 3.2

GAUCHE : sources de données d’entraînement pour la compréhension des documents ; DROITE : jeux de données utilisés pour les données d’image générales

DocFM est un jeu de données très volumineux qu’IBM a l’intention d’utiliser pour diverses initiatives d’apprentissage visuel en aval à l’avenir. La formation de Granite Vision s’est appuyée sur un sous-ensemble de DocFM pour créer une série de jeux de données visuels synthétiques de type question-réponse. Un aperçu complet du document comprenant les jeux de données utilisés pour Granite Vision est fourni dans le tableau 5 de l’annexe du document technique.

Vecteurs d’attention épars pour la surveillance de la sécurité intrinsèque

Dans la conception et la formation de Granite 3.2 Vision, IBM a également introduit une nouvelle technique de test qui, plutôt que de s’appuyer sur un modèle de garde-corps externe pour surveiller l’activité nuisible, intègre une approche de sécurité dédiée directement dans le modèle lui-même.

Notre principale découverte est qu’au sein des nombreuses têtes d’attention et couches de transformateurs de Granite se trouve un sous-ensemble clairsemé de fonctionnalités d’image qui pourraient être utiles pour identifier les problèmes de sécurité lorsque les tâches de surveillance de sécurité sont formalisées sous forme de problèmes de classification.

Dans le cadre d’un processus décrit plus en détail dans le document technique sur Granite Vision, IBM Research a conçu un processus permettant d’isoler et d’examiner les vecteurs d’attention produits par le mécanisme d’attention de Granite Vision afin d’évaluer lesquels, en moyenne, présentent une corrélation fiable avec certaines catégories d’entrées nuisibles. Une fois identifiées, les têtes d’attention responsables de la génération de ces « vecteurs de sécurité » peuvent être utilisées pour déterminer si une entrée donnée est sûre.

IBM continuera ses recherches sur les applications potentielles des vecteurs d’attention. Une piste d’exploration potentielle consiste à étudier leur utilisation pour adapter les futures versions de Granite Guardian à une surveillance de la sécurité entièrement multimodale.

Granite Guardian 3.2 : plus fin, plus sûr, plus spécifique

Granite Guardian 3.2, la dernière génération de modèles de garde-fou IBM conçus pour détecter les risques dans les prompts et les réponses, offre une performance comparable à celle de Guardian 3.1, à une vitesse supérieure, avec des coûts d’inférence et une utilisation de la mémoire moindres.

Confiance verbalisée

IBM Granite Guardian 3.2 introduit la confiance verbalisée, une nouvelle fonctionnalité qui fournit une évaluation plus nuancée des risques détectés afin de reconnaître l’ambiguïté inhérente à certains scénarios de surveillance de la sécurité.

Plutôt que de produire uniquement un « oui » ou un « non » binaire dans le cadre du processus de surveillance des risques dans les entrées et les sorties, les modèles Granite Guardian 3.2 indiquent également leur niveau relatif de certitude. Lorsque des risques potentiels sont détectés, les modèles Guardian 3.2 indiquent un niveau de confiance « high » (élevé) ou « low » (faible), comme le montre l’exemple suivant :

label, confidence = parse_output(output, input_len)
print(f"# risk detected? : {label}") # Yes
print(f"# confidence detected? : {confidence}") # High

Des modèles de sécurité plus fins

Granite Guardian 3.2 introduit deux nouvelles tailles de modèles :

Granite Guardian 3.2 5B est dérivé de Guardian Guardian 3.1 8B (qui a lui-même été créé en affinant le modèle de langage de base pour la classification de sécurité). Inspiré par la recherche démontrant que les couches profondes d’un neurone sont souvent redondantes, ne tirent pas pleinement parti du pré-entraînement ou sont simplement moins critiques que les couches moins profondes des réseaux, IBM a poursuivi une stratégie d’élagage itérative pour « affiner » le modèle 8B. Le processus a permis de réduire d’environ 30 % les paramètres du 8B tout en conservant la performance proche de celle du modèle d’origine.

Tout d’abord, les couches spécifiques à élaguer sont sélectionnées sur la base de la similarité relative entre leurs vecteurs d’entrée et leurs vecteurs de production. En d’autres termes, nous identifions les couches du réseau dont les contributions ont le moins d’impact.
Une fois identifiées, 10 couches sont éliminées du modèle.
Le modèle est ensuite « réparé » en le ré-entraînant sur 80 % des données d’origine, après quoi 2 couches supplémentaires sont élaguées.

Granite Guardian 3.2 3B-A800M a été créé en affinant notre modèle de base de groupe d’experts (Mixture of Experts, MoE), n’active que 800 millions des 3 milliards de paramètres qu’il contient lors de l’inférence. Son introduction ajoute une option particulièrement efficace et rentable à la gamme Granite Guardian.

Modèles Granite Timeseries : désormais des avec prévisions quotidiennes et hebdomadaires

La célèbre famille open source de modèles compacts Granite Time Series d’IBM, baptisée Tiny Time Mixers (TTMS), a été téléchargée plus de 8 millions de fois sur Hugging Face. Alors que les variantes TTM précédentes publiées dans les séries TTM-R1 et TTM-R2 permettaient des prévisions zero-shot et few-shot pour des résolutions de l’ordre de la minute à l’heure, l’ajout le plus récent à la gamme Granite Time Series, TTM-R2.1, permet des prévisions journalières et hebdomadaires.

Une liste détaillée de toutes les sources de données utilisées pour entraîner les modèles TTM-R2 et TTM-R2.1 est disponible au bas de la carte des modèles TTM-R2/R2.1 de Hugging Face. Vous trouverez une liste complète des variantes sous l’onglet « Fichiers et versions ».

Un certain nombre de recettes pour commencer à utiliser les Tiny Time Mixers sont disponibles dans le livre Granite Time Series Cookbook.

Des performances optimales dans un format réduit

Dans le GIFT-Eval Time Series Forecasting Leaderboard de Salesforce, un benchmark évaluant les performances des modèles de séries temporelles sur des entrées multivariées sur 24 jeux de données qui couvrent 7 domaines, 10 fréquences et des durées de prédiction allant des prévisions à court terme aux prévisions à long terme, les modèles TTM-R2 (y compris les nouvelles variantes TTM-R2.1) arrivent en tête de tous les modèles pour la précision des prévisions ponctuelles mesurée par l’erreur absolue moyenne relative (Mean Absolute Scaled Error, MASE).³ Le modèle TTM-R2 se classe également dans le top 5 pour la prévision probabiliste, mesurée par le score de probabilité classée continue (Continuous Ranked Probability Score, CRPS).

Il convient de noter que les modèles TTM obtiennent ces classements en surpassant des modèles plusieurs fois plus grands qu’eux. À des tailles « minuscules » de 1 à 5 millions de paramètres, les modèles TTM sont des centaines de fois plus petits que les modèles de MASE TimesFM-2.0 de Google (500 millions de paramètres) et Chronos-Bolt-Base d’Amazon (205 millions de paramètres) qui arrivent en 2^e et 3^e position.

Une polyvalence accrue pour les cas d’utilisation des prévisions

La version TTM-R2.1 comprend un assortiment de modèles dont la longueur du contexte et l’horizon de prévision varient. Alors que les anciens modèles TTM-R2 offraient des longueurs de contexte de 1536, 1024 ou 512, TTM-R2.1 comprend des modèles avec des longueurs de contexte plus courtes allant de 512 à 52, ce qui les rend bien adaptés aux prévisions quotidiennes et hebdomadaires.

Les modèles TTM-R2.1 ne remplacent pas nécessairement leurs prédécesseurs TTM-R2. La « meilleure » version de TTM dépend de la nature de vos données et de votre cas d’utilisation. Par exemple, Granite-Timeseries-TTM-52-16-ft-R2.1 a une longueur de contexte de 52 et une longueur de prédiction de 16, ce qui le rend plus adapté à des tâches telles que l’analyse d’une année de points de données hebdomadaires et la prédiction de résultats hebdomadaires au cours des prochains mois.

Le module get_model simplifie la tâche de sélection de la bonne variante de modèle parmi les nombreuses offres disponibles.

Réglage du préfixe de fréquence

La désignation « ft » figurant dans les noms des modèles TTM-R2.1 » indique « réglage de fréquence » (abréviation de l’anglais Frequency Tuning) (ou, plus formellement, réglage du préfixe de fréquence). Dérivé des techniques de réglage des préfixes utilisées comme alternative légère pour l’affinage des modèles de base pour les tâches de génération de texte, le réglage des préfixes de fréquence améliore la capacité de nos modèles de base de séries temporelles à s’adapter aux variations de vos données d’entrée.

Lorsque cette option est activée, un vecteur d’embedding supplémentaire indiquant la fréquence de vos données est ajouté en tant que « préfixe » à l’entrée du modèle, parallèlement aux informations de la fenêtre contextuelle. Comme indiqué dans le document technique TTM, l’équipe chargée du modèle a constaté que le réglage de fréquence améliore la performance lors du préapprentissage sur de grandes collections de jeux de données de résolutions différentes. Durant l’inférence, ce token permet au modèle de s’adapter rapidement à la fréquence des données d’entrée, ce qui est particulièrement utile lorsque la longueur du contexte est très courte.

Granite Embedding : un nouveau modèle d’embedding épars

Alors que tous les modèles Granite Embedding précédents (et, en outre, presque tous les modèles d’embedding à l’ère moderne de l’apprentissage profond) apprennent des embeddings denses, le dernier modèle Granite Embedding, Granite-Embedding-Epars-30M-English, présente une architecture légèrement modifiée qui le permet d’apprendre des embeddings épars.

Optimisé pour les correspondances exactes, la recherche par mot-clé et le classement en anglais, Granite-Embedding-30M-Sparse assure un équilibre entre efficacité et évolutivité, quel que soit le budget alloué en ressources et en latence. Il est diffusé via Granite Experiments, un espace d’expérimentation d’IBM Research permettant de tester des concepts open source et d’accélérer le processus de développement.

Pourquoi des embeddings épars ?

Un modèle d’embedding dense typique prend une entrée de texte (comme un document, une phrase ou une requête) et produit un vecteur d’ embedding de taille fixe. La taille de ce vecteur, c’est-à-dire la quantité de nombres (ou dimensions) qu’il contient, est un choix de conception. Les modèles qui apprennent des embeddings plus petits sont plus rapides, mais moins précis. Les modèles qui apprennent des embeddings plus grands sont plus lents, mais plus précis. On parle d’embeddings vectoriels « denses » car chaque dimension stocke une valeur spécifique.

Les dimensions individuelles d’un embedding dense ne correspondent pas directement aux attributs de la signification sémantique de l’entrée, de manière littérale. Les embeddings vectoriels denses sont essentiellement une boîte noire : les modèles peuvent les utiliser pour effectuer des opérations, mais nous, les humains, ne pouvons pas les interpréter de manière significative.

Les embeddings épars sont plus intuitifs. La taille de leur embedding est la même que celle de leur vocabulaire : autrement dit, chaque dimension du vecteur d’embedding correspond à l’un des « mots », ou plus précisément à l’un des tokens, que le modèle a appris. La valeur spécifique contenue dans chaque dimension d’un vecteur d’embedding épars reflète la pertinence du token que cette dimension représente par rapport à l’entrée pour laquelle le modèle génère un embedding. Les embeddings épars sont donc tout à fait interprétables.

Pour les passages de texte plus courts, tels que les tweets, les commentaires ou les avis brefs de produits, les embeddings épars peuvent être nettement plus rapides tout en offrant des performances meilleures (ou au moins égales) à celles des embeddings denses. Ils offrent généralement des performances exceptionnelles « prêtes à l’emploi » sans nécessiter d’affinage.

Cela dit, ils ne sont pas sans inconvénients. Il n’est guère possible d’améliorer la performance d’un modèle d’embedding épars au-delà de sa ligne de base d’origine par un affinage. Pour les textes plus longs, les avantages en termes d’efficacité commencent à s’estomper, voire à s’inverser, car de plus en plus de dimensions sont utilisées pour refléter la pertinence d’un nombre croissant d’éléments du vocabulaire du modèle.

Le modèle 30M Granite Embedding offre des performances à peu près équivalentes à celles de son homologue dense 30M dans tous les benchmarks de récupération d’information (BEIR), tout en offrant un léger avantage par rapport à SPLADE-v3.

Premiers pas avec Granite 3.2

Tous les modèles Granite 3.2 sont disponibles sous licence Apache 2.0 sur Hugging Face. Certains modèles sont également disponibles sur IBM watsonx.ai, ainsi que via des partenaires, dont (par ordre alphabétique) LM Studio, Ollama et Replicate. Dans le futur, cet article sera modifié pour indiquer les nouvelles plateformes sur lesquelles les modèles Granite 3.2 seront disponibles.

Un certain nombre de guides et de recettes pour travailler avec les modèles granite sont disponibles dans la documentation de Granite et dans le livre Granite Snack Cookbook sur GitHub. Pour leurs premiers pas avec les modèles, les développeurs peuvent aussi opter pour le playground de modèles Granite ou explorer l’éventail de démos et de tutoriels utiles, tels que :

Découvrir les modèles Granite 3.2 →

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA  

La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Notes de bas de page

1. « Large Language Models Are Zero-Shot Reasoners », arXiv, 24 mai 2022
2. « DocPedia: Unleashing the power of large multimodal model in the Frequency Domain for Polyvalent Document Understanding »,arXiv, 20 novembre 2023
3. À la date de publication de cet article

IBM Granite 3.2

En savoir plus sur les LLM d’entreprise ouverts et de pointe d’IBM

Granite Playground

Voyez par vous-même : interrogez les nouveaux modèles Granite 3.2 dans Granite Playground.

IBM Granite 3.2 : raisonnement, vision, prévisions et plus encore

Auteur

Voici un résumé des principales informations :

Granite 3.2 Instruct : le raisonnement quand vous en avez besoin

Considérer les avantages (et les inconvénients) du raisonnement

Éviter l’inefficacité

Éviter les baisses générales de performance

Poursuivre nos travaux sur le raisonnement

Granite Vision 3.2 2B : Granite devient multimodal

Une vision axée sur les images en entreprise

DocFM : un jeu de données d’optimisation des instructions pour les tâches de vision d’entreprise

Vecteurs d’attention épars pour la surveillance de la sécurité intrinsèque

Granite Guardian 3.2 : plus fin, plus sûr, plus spécifique

Confiance verbalisée

Des modèles de sécurité plus fins

Modèles Granite Timeseries : désormais des avec prévisions quotidiennes et hebdomadaires

Des performances optimales dans un format réduit

Une polyvalence accrue pour les cas d’utilisation des prévisions

Réglage du préfixe de fréquence

Granite Embedding : un nouveau modèle d’embedding épars

Pourquoi des embeddings épars ?

Premiers pas avec Granite 3.2

Découvrir les modèles Granite 3.2 →

Les dernières actualités et informations en matière d’IA

Notes de bas de page

Les dernières actualités et informations en matière d’IA