IBM Granite 3.1 : des performances puissantes, un contexte plus long, de nouveaux modèles d’embedding et autres avantages

18 décembre 2024

 

 

Auteur

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

Voici un résumé des principales informations :
 

  •  
  • Granite 3.1 8B Instruct apporte des améliorations notables des performances par rapport à Granite 3.0 8B Instruct. Son score moyen par rapport aux références du classement Hugging Face OpenLLM est désormais parmi les plus élevés de tous les modèles ouverts de sa catégorie.
  • Nous avons étendu les fenêtres de contexte de l’ensemble de la famille de modèles de langage Granite 3. Nos derniers modèles denses (Granite 3.1 8B, Granite 3.1 2B), les modèles MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) et les modèles garde-fous (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) présentent tous une longueur de contexte de 128 000 jetons.
  • Nous lançons une famille de tout nouveaux modèles d’embedding. Les nouveaux modèles Granite Embedding optimisés pour la récupération sont proposés en quatre tailles, allant de 30 M à 278 M de paramètres. Comme leurs homologues génératifs, ils offrent une prise en charge multilingue dans 12 langues différentes : anglais, allemand, espagnol, français, japonais, portugais, arabe, tchèque, italien, coréen, néerlandais et chinois.
  •  
  • Granite Guardian 3.1 8B et 2B disposent d’une nouvelle fonction de détection des hallucinations qui permet un contrôle et une observabilité renforcés pour les agents effectuant des appels d’outils.
  • Tous les modèles Granite 3.1, Granite Guardian 3.1 et Granite Embedding sont open source sous licence Apache 2.0.
  • Ces dernières entrées dans la série Granite font suite au lancement récent par IBM de Docling, un framework open source destiné à la préparation de documents pour la RAG et d’autres applications d’IA générative, et de Bee , un framework open source indépendant du modèle pour l’IA agentique).
  • La série de modèles de séries temporelles compacts et très performants d’IBM, Granite TTM (TinyTimeMixers), est désormais disponible sur watsonx.ai grâce à la version bêta de l’API et du SDK watsonx.ai Timeseries Forecasting.
  • Les modèles Granite 3.1 sont désormais disponibles sur IBM watsonx.ai, ainsi qu’auprès des partenaires de la plateforme, notamment (par ordre alphabétique) Docker, Hugging Face, LM Studio, Ollama et Replicate.
  • Granite 3.1 sera également exploité en interne par des partenaires d’entreprise : Samsung intègre certains modèles Granite dans sa plateforme SDS, et Lockheed Martin intègre les modèles Granite 3.1 dans ses outils AI Factory utilisés par plus de 10 000 développeurs et ingénieurs.
 


Ce jour marque la sortie d’IBM Granite 3.1, la dernière version de notre série Granite de modèles de langage ouverts, performants et optimisés pour les entreprises. Cette suite d’améliorations, d’ajouts et de nouvelles fonctionnalités porte principalement sur l’augmentation des performances, de la précision et de la responsabilité dans les cas d’utilisation essentiels en entreprise tels que l’utilisation d’outils, la génération augmentée par récupération (RAG) et les workflows d’IA agentique évolutifs.

Granite 3.1 s’appuie sur la dynamique de la collection Granite 3.0 récemment lancée. IBM continuera à publier des modèles et des fonctionnalités mis à jour pour la série Granite 3 dans les mois à venir, avec de nouvelles capacités multimodales dont la sortie est prévue pour le premier trimestre 2025.

Ces nouveaux modèles Granite ne sont pas les seules contributions notables d’IBM à l’écosystème LLM open source. La release d’aujourd’hui est l’apogée d’une série récente de lancements open source innovants, allant d’un cadre flexible pour le développement d’agents d’IA à une boîte à outils intuitive permettant d’accéder aux informations essentielles stockées dans des PDF, des diapositives et d’autres formats de fichiers difficiles à gérer pour les modèles. L’utilisation de ces outils et frameworks en tandem avec les modèles Granite 3.1 offre aux développeurs des capacités étendues pour la RAG, les agents d’IA et d’autres workflows basés sur LLM.

Comme toujours, l’engagement historique d’IBM à l’égard de l’open source se reflète dans les licences open source permissives et standard de toutes les offres présentées dans cet article.

Granite 3.1 8B Instruct : relever la barre des modèles légers pour l’entreprise

Les efforts d’IBM dans l’optimisation continue de la série Granite sont particulièrement évidents dans la croissance de son modèle phare dense 8B. IBM Granite 3.1 8B Instruct surpasse désormais la plupart des modèles ouverts de sa catégorie en termes de scores moyens sur les évaluations de référence universitaires incluses dans le classement Hugging Face OpenLLM.

L’évolution de la série de modèles Granite démontre un engagement continu envers l’excellence et l’efficacité dans les cas d’utilisation d’entreprise, y compris l’IA agentique. Ces progrès sont particulièrement visibles au niveau de l’amélioration significative des performances du modèle 8B sur IFEval, un ensemble de données comprenant des tâches qui testent la capacité d’un modèle à suivre des instructions détaillées, et le raisonnement en plusieurs étapes (MuSR, Multi-step Soft Reasoning), dont les tâches mesurent le raisonnement sur des textes longs et leur compréhension.

Longueur du contexte étendue

L’extension des fenêtres de contexte de tous les modèles vient renforcer les gains de performances entre Granite 3.0 et Granite 3.1. La longueur de contexte de 128 000 jetons de Granite 3.1 est comparable à celle des autres principales séries de modèles ouverts, notamment Llama 3.1-3.3 et Qwen2.5.

La fenêtre de contexte (ou longueur maximale du texte) d’un grand modèle de langage (LLM) est la quantité de texte, en jetons, qu’un LLM peut prendre en compte à tout moment. Une fenêtre de contexte plus grande permet à un modèle de traiter un volume d’entrées plus importants, d’effectuer des échanges continus plus longs et d’incorporer davantage d’informations dans chaque production. La tokenisation n’implique pas une « parité de change » fixe jeton-mot, mais plutôt 1,5 jeton par mot environ. 128 000 jetons représentent approximativement un livre de 300 pages.

Au-delà d’un seuil d’environ 100 000 jetons, de nouvelles possibilités impressionnantes apparaissent, notamment la réponse à des questions portant sur plusieurs documents, la compréhension de code au niveau du référentiel, l’autoréflexion et les agents autonomes alimentés par LLM.1 La longueur de contexte étendue de Granite 3.1 se prête donc à une gamme beaucoup plus large de cas d’utilisation d’entreprise, du traitement de bases de code et de longs documents juridiques dans leur intégralité à l’examen simultané de milliers de transactions financières.

Granite Guardian 3.1 : détecter les hallucinations dans un workflow agentique
 

Granite Guardian 3.1 8B et Granite Guardian 3.1 2B peuvent désormais détecter les hallucinations qui pourraient se produire dans un workflow agentique, conférant à l’appel de fonction le même niveau de responsabilité et de confiance que celui que nous assurons déjà pour la RAG.

De nombreuses étapes et sous-processus se déroulent entre la requête initiale envoyée à un agent d’IA et la production que l’agent renvoie finalement à l’utilisateur. Pour assurer une supervision permanente, les modèles Granite Guardian 3.1 contrôlent chaque appel de fonction afin de détecter toute hallucination syntaxique et sémantique.

Par exemple, si un agent d’IA est censé interroger une source d’information externe, Granite Guardian 3.1 surveille les flux d’information fabriqués. Si un workflow agentique implique des calculs intermédiaires à l’aide de chiffres extraits d’un relevé bancaire, Granite Guardian 3.1 vérifie si l’agent a lancé le bon appel de fonction ainsi que les chiffres appropriés.

La release d’aujourd’hui est un pas de plus vers la responsabilité et la confiance pour tout composant d’un workflow d’entreprise basé sur LLM. Les nouveaux modèles Granite Guardian 3.1 sont disponibles sur Hugging Face. Ils seront également distribués par Ollama dans le courant du mois et sur la page IBM watsonx.ai en janvier 2025.

Modèles d’embedding Granite

Les embeddings font partie intégrante de l’écosystème LLM. Un moyen précis et efficace de représenter les mots, les requêtes et les documents sous forme numérique est essentiel pour toute une série de tâches d’entreprise, y compris la recherche sémantique, la recherche vectorielle et la RAG, ainsi que pour maintenir des bases de données vectorielles efficaces. Un modèle d’embedding efficace peut notablement améliorer la compréhension de l’intention de l’utilisateur par le système et augmenter la pertinence des informations et des sources en réponse à une requête.

Alors que les deux dernières années ont vu la prolifération de LLM autorégressifs open source de plus en plus compétitifs pour des tâches comme la génération et la synthèse de texte, les modèles d’embedding open source publiés par les principaux fournisseurs sont relativement rares.

Les nouveaux modèles Granite Embedding sont une évolution améliorée de la famille Slate de modèles de langage encodeurs uniquement basés sur RoBERTA. Entraînés avec le même soin et la même attention que le reste de la série Granite pour filtrer les préjugés, la haine, les abus et les blasphèmes (« HAP »), Granite Embedding est proposé en quatre tailles de modèles, dont deux prennent en charge l’intégration multilingue dans 12 langages naturels :

  •  
  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual
 

Alors que la grande majorité des modèles d’embedding ouverts du classement MTEB Hugging Face s’appuient sur des ensembles de données d’entraînement uniquement sous licence à des fins de recherche, tels que MS-MARCO, IBM a vérifié l’éligibilité commerciale de toutes les sources de données utilisées pour entraîner Granite Embedding. Soulignant le soin apporté à son utilisation en entreprise, IBM prend en charge Granite Embedding avec le même niveau d’indemnisation non plafonnée pour les réclamations de tiers liées à la propriété intellectuelle que celle prévue pour l’utilisation d’autres modèles développés par IBM.

Les efforts d’IBM dans l’organisation et le filtrage des données d’entraînement n’a pas empêché les modèles Granite Embedding en anglais de suivre le rythme des principaux modèles d’embedding open source de taille similaire dans les évaluations de performance internes menées à l’aide du cadre d’évaluation BEIR.

Les tests d’IBM ont également démontré que deux des nouveaux modèles d’embedding, Granite-Embedding-30M-English et Granite-Embedding-107M-Mulilingual, dépassent largement les offres concurrentes en termes de vitesse d’inférence.

Ce lancement marque le début de la feuille de route ambitieuse d’IBM Research pour une innovation continue avec la famille de modèles open source Granite Embedding. Les mises à jour et les mises à niveau prévues pour 2025 comprennent l’extension du contexte, l’optimisation pour la RAG et les capacités de récupération multimodale.

Déchiffrage de documents et IA agentique

Parallèlement à l’évolution continue de la série Granite, IBM poursuit son engagement ferme en faveur de l’IA open source à travers le développement récent et la publication open source de nouveaux outils et frameworks innovants pour la création avec les LLM. Optimisées pour les modèles Granite mais intrinsèquement ouvertes et indépendantes des modèles, ces ressources conçues par IBM aident les développeurs à exploiter tout le potentiel des LLM, de la facilitation du réglage fin des pipelines et la régularisation des sources RAG à l’assemblage d’agents d’IA autonomes.

Docling : préparation des documents pour la RAG, pré-entraînement et réglage fin
 

De l’écriture créative à la RAG, l’IA générative est en fin de compte un moteur qui fonctionne à partir de données. Le véritable potentiel des grands modèles de langage demeure inexploité si certaines de ces données sont piégées dans des formats que les modèles ne peuvent pas reconnaître. Les LLM sont relativement nouveaux, mais le problème ne l’est pas : comme le déclarait un titre du Washington Post datant d’une dizaine d’années, « les solutions à tous nos problèmes sont peut-être enfouies dans des PDF que personne ne lit ».

C’est pourquoi IBM Deep Search a développé Docling, un outil puissant pour analyser des documents dans des formats populaires tels que PDF, DOCX, images, PPTX, XLSX, HTML et AsciiDoc et les convertir dans des formats adaptés aux modèles comme Markdown ou JSON. Ces documents – et les informations qu’ils contiennent – sont ainsi facilement accessibles par des modèles tels que Granite à des fins de RAG et d’autres workflows. Docling facilite l’intégration aux frameworks agentiques tels que LlamaIndex, LangChain et Bee, ce qui permet aux développeurs d’incorporer son assistance dans l’écosystème de leur choix.

En accès open source sous licence permissive MIT, Docling est une solution sophistiquée qui va au-delà de la simple reconnaissance optique de caractères (OCR) et de l’extraction de texte. Comme l’explique William Caban de Red Hat, Docling intègre un certain nombre de techniques de prétraitement contextuel et basées sur les éléments : si un tableau s’étend sur plusieurs pages, Docling sait qu’il faut l’extraire comme un seul tableau ; si une page donnée mélange corps de texte, images et tableaux, chaque élément doit être extrait séparément en fonction de son contexte d’origine.

L’équipe à l’origine de Docling s’emploie à mettre au point des fonctionnalités supplémentaires, notamment l’extraction d’équations et de code et l’extraction de métadonnées. Pour voir Docling en action, consultez ce tutoriel sur la création d’un système de réponse aux questions sur les documents avec Docling et Granite.

Bee : cadre des exigences de l’IA agentique pour les modèles ouverts

Bee Agent Framework est un framework open source permettant de créer de puissants workflows d’IA agentique avec des LLM open source, optimisés pour une utilisation avec les modèles Granite et Llama (avec d’autres optimisations spécifiques aux modèles déjà en cours de développement). Il comprend un ensemble de modules qui permettent aux développeurs de personnaliser presque tous les composants, de l’agent d’IA, de la gestion de la mémoire et l’utilisation des outils à la gestion des erreurs, ainsi que plusieurs fonctionnalités d’observabilité qui fournissent les informations et la responsabilité nécessaires au déploiement en production.

Le framework s’intègre de façon fluide à de multiples modèles et à une série d’outils robustes prêts à l’emploi tels que les services météorologiques et la recherche sur Internet (ou des outils personnalisés créés en Javascript ou en Python). La fonctionnalité d’utilisation flexible des outils Bee permet des workflows adaptés à vos circonstances spécifiques, comme le montre cette formule qui utilise Granite et Wikipedia et des outils intégrés pour exploiter plus efficacement une fenêtre de contexte limitée.

Les agents Granite Bee peuvent être exécutés localement à l’aide d’Ollama ou tirer parti de l’inférence hébergée avec watsonx.ai.

Timeseries Forecasting dans IBM watsonx.ai

Publiés au début de l’année, les modèles TinyTimeMixer (TTM) TimeSeries de Granite sont une famille de modèles légers et pré-entraînés basés sur une nouvelle architecture. Prenant en charge le forecasting zero-shot et few-shot pour tout ce qui concerne les données de capteurs IdO, les cours de bourse et les demandes d’énergie, les modèles Granite TimeSeries sont plus performants que de nombreux modèles jusqu’à 10 fois plus grands, notamment TimesFM, Moirai et Chronos.2 Depuis le 30 mai, les modèles Granite-timeseries-TTM ont été téléchargés plus de 3,25 millions de fois sur le seul site Hugging Face.

En novembre, IBM a annoncé le lancement de la version bêta de l’API et du SDK Timeseries Forecasting watsonx.ai, rendant les modèles Granite TimeSeries disponibles sur la plateforme d’IA intégrée d’IBM pour le développement d’applications d’IA de bout en bout.

Pour plus d’informations sur l’utilisation de Granite-TTM, consultez les indications du manuel d’instructions IBM Granite Timeseries, comme ce notebook sur l’utilisation du SDK watsonx pour effectuer l’inférence de forecasting.

Premiers pas avec Granite 3.1

Les modèles Granite 3.1 sont désormais disponibles sur IBM watsonx.ai. Ils sont également accessibles auprès des partenaires de la plateforme, notamment, par ordre alphabétique, Docker (via son catalogue DockerHub GenAI), Hugging Face, LM Studio, Ollama et Replicate. Certains modèles Granite 3.1 seront également disponibles via NVIDIA (en tant que microservice NIM) en janvier 2025.

Un certain nombre de guides et d’indications pour travailler avec les modèles Granite sont disponibles dans le manuel d’instructions Granite Snack sur GitHub, de l’orchestration des workflows à l’aide des modèles de langage Granite dans Langchain à l’implémentation des modèles Granite Guardian.

Pour leurs premiers pas avec les modèles, les développeurs peuvent aussi opter pour le playground de modèles Granite ou explorer l’éventail de démos et de tutoriels utiles dans la documentation IBM, tels que :

 


Découvrir les modèles Granite 3.1 →

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Services d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct