18 décembre 2024
Ce jour marque la sortie d’IBM Granite 3.1, la dernière version de notre série Granite de modèles de langage ouverts, performants et optimisés pour les entreprises. Cette suite d’améliorations, d’ajouts et de nouvelles fonctionnalités porte principalement sur l’augmentation des performances, de la précision et de la responsabilité dans les cas d’utilisation essentiels en entreprise tels que l’utilisation d’outils, la génération augmentée par récupération (RAG) et les workflows d’IA agentique évolutifs.
Granite 3.1 s’appuie sur la dynamique de la collection Granite 3.0 récemment lancée. IBM continuera à publier des modèles et des fonctionnalités mis à jour pour la série Granite 3 dans les mois à venir, avec de nouvelles capacités multimodales dont la sortie est prévue pour le premier trimestre 2025.
Ces nouveaux modèles Granite ne sont pas les seules contributions notables d’IBM à l’écosystème LLM open source. La release d’aujourd’hui est l’apogée d’une série récente de lancements open source innovants, allant d’un cadre flexible pour le développement d’agents d’IA à une boîte à outils intuitive permettant d’accéder aux informations essentielles stockées dans des PDF, des diapositives et d’autres formats de fichiers difficiles à gérer pour les modèles. L’utilisation de ces outils et frameworks en tandem avec les modèles Granite 3.1 offre aux développeurs des capacités étendues pour la RAG, les agents d’IA et d’autres workflows basés sur LLM.
Comme toujours, l’engagement historique d’IBM à l’égard de l’open source se reflète dans les licences open source permissives et standard de toutes les offres présentées dans cet article.
Les efforts d’IBM dans l’optimisation continue de la série Granite sont particulièrement évidents dans la croissance de son modèle phare dense 8B. IBM Granite 3.1 8B Instruct surpasse désormais la plupart des modèles ouverts de sa catégorie en termes de scores moyens sur les évaluations de référence universitaires incluses dans le classement Hugging Face OpenLLM.
L’évolution de la série de modèles Granite démontre un engagement continu envers l’excellence et l’efficacité dans les cas d’utilisation d’entreprise, y compris l’IA agentique. Ces progrès sont particulièrement visibles au niveau de l’amélioration significative des performances du modèle 8B sur IFEval, un ensemble de données comprenant des tâches qui testent la capacité d’un modèle à suivre des instructions détaillées, et le raisonnement en plusieurs étapes (MuSR, Multi-step Soft Reasoning), dont les tâches mesurent le raisonnement sur des textes longs et leur compréhension.
L’extension des fenêtres de contexte de tous les modèles vient renforcer les gains de performances entre Granite 3.0 et Granite 3.1. La longueur de contexte de 128 000 jetons de Granite 3.1 est comparable à celle des autres principales séries de modèles ouverts, notamment Llama 3.1-3.3 et Qwen2.5.
La fenêtre de contexte (ou longueur maximale du texte) d’un grand modèle de langage (LLM) est la quantité de texte, en jetons, qu’un LLM peut prendre en compte à tout moment. Une fenêtre de contexte plus grande permet à un modèle de traiter un volume d’entrées plus importants, d’effectuer des échanges continus plus longs et d’incorporer davantage d’informations dans chaque production. La tokenisation n’implique pas une « parité de change » fixe jeton-mot, mais plutôt 1,5 jeton par mot environ. 128 000 jetons représentent approximativement un livre de 300 pages.
Au-delà d’un seuil d’environ 100 000 jetons, de nouvelles possibilités impressionnantes apparaissent, notamment la réponse à des questions portant sur plusieurs documents, la compréhension de code au niveau du référentiel, l’autoréflexion et les agents autonomes alimentés par LLM.1 La longueur de contexte étendue de Granite 3.1 se prête donc à une gamme beaucoup plus large de cas d’utilisation d’entreprise, du traitement de bases de code et de longs documents juridiques dans leur intégralité à l’examen simultané de milliers de transactions financières.
Granite Guardian 3.1 8B et Granite Guardian 3.1 2B peuvent désormais détecter les hallucinations qui pourraient se produire dans un workflow agentique, conférant à l’appel de fonction le même niveau de responsabilité et de confiance que celui que nous assurons déjà pour la RAG.
De nombreuses étapes et sous-processus se déroulent entre la requête initiale envoyée à un agent d’IA et la production que l’agent renvoie finalement à l’utilisateur. Pour assurer une supervision permanente, les modèles Granite Guardian 3.1 contrôlent chaque appel de fonction afin de détecter toute hallucination syntaxique et sémantique.
Par exemple, si un agent d’IA est censé interroger une source d’information externe, Granite Guardian 3.1 surveille les flux d’information fabriqués. Si un workflow agentique implique des calculs intermédiaires à l’aide de chiffres extraits d’un relevé bancaire, Granite Guardian 3.1 vérifie si l’agent a lancé le bon appel de fonction ainsi que les chiffres appropriés.
La release d’aujourd’hui est un pas de plus vers la responsabilité et la confiance pour tout composant d’un workflow d’entreprise basé sur LLM. Les nouveaux modèles Granite Guardian 3.1 sont disponibles sur Hugging Face. Ils seront également distribués par Ollama dans le courant du mois et sur la page IBM watsonx.ai en janvier 2025.
Les embeddings font partie intégrante de l’écosystème LLM. Un moyen précis et efficace de représenter les mots, les requêtes et les documents sous forme numérique est essentiel pour toute une série de tâches d’entreprise, y compris la recherche sémantique, la recherche vectorielle et la RAG, ainsi que pour maintenir des bases de données vectorielles efficaces. Un modèle d’embedding efficace peut notablement améliorer la compréhension de l’intention de l’utilisateur par le système et augmenter la pertinence des informations et des sources en réponse à une requête.
Alors que les deux dernières années ont vu la prolifération de LLM autorégressifs open source de plus en plus compétitifs pour des tâches comme la génération et la synthèse de texte, les modèles d’embedding open source publiés par les principaux fournisseurs sont relativement rares.
Les nouveaux modèles Granite Embedding sont une évolution améliorée de la famille Slate de modèles de langage encodeurs uniquement basés sur RoBERTA. Entraînés avec le même soin et la même attention que le reste de la série Granite pour filtrer les préjugés, la haine, les abus et les blasphèmes (« HAP »), Granite Embedding est proposé en quatre tailles de modèles, dont deux prennent en charge l’intégration multilingue dans 12 langages naturels :
Alors que la grande majorité des modèles d’embedding ouverts du classement MTEB Hugging Face s’appuient sur des ensembles de données d’entraînement uniquement sous licence à des fins de recherche, tels que MS-MARCO, IBM a vérifié l’éligibilité commerciale de toutes les sources de données utilisées pour entraîner Granite Embedding. Soulignant le soin apporté à son utilisation en entreprise, IBM prend en charge Granite Embedding avec le même niveau d’indemnisation non plafonnée pour les réclamations de tiers liées à la propriété intellectuelle que celle prévue pour l’utilisation d’autres modèles développés par IBM.
Les efforts d’IBM dans l’organisation et le filtrage des données d’entraînement n’a pas empêché les modèles Granite Embedding en anglais de suivre le rythme des principaux modèles d’embedding open source de taille similaire dans les évaluations de performance internes menées à l’aide du cadre d’évaluation BEIR.
Les tests d’IBM ont également démontré que deux des nouveaux modèles d’embedding, Granite-Embedding-30M-English et Granite-Embedding-107M-Mulilingual, dépassent largement les offres concurrentes en termes de vitesse d’inférence.
Ce lancement marque le début de la feuille de route ambitieuse d’IBM Research pour une innovation continue avec la famille de modèles open source Granite Embedding. Les mises à jour et les mises à niveau prévues pour 2025 comprennent l’extension du contexte, l’optimisation pour la RAG et les capacités de récupération multimodale.
Parallèlement à l’évolution continue de la série Granite, IBM poursuit son engagement ferme en faveur de l’IA open source à travers le développement récent et la publication open source de nouveaux outils et frameworks innovants pour la création avec les LLM. Optimisées pour les modèles Granite mais intrinsèquement ouvertes et indépendantes des modèles, ces ressources conçues par IBM aident les développeurs à exploiter tout le potentiel des LLM, de la facilitation du réglage fin des pipelines et la régularisation des sources RAG à l’assemblage d’agents d’IA autonomes.
De l’écriture créative à la RAG, l’IA générative est en fin de compte un moteur qui fonctionne à partir de données. Le véritable potentiel des grands modèles de langage demeure inexploité si certaines de ces données sont piégées dans des formats que les modèles ne peuvent pas reconnaître. Les LLM sont relativement nouveaux, mais le problème ne l’est pas : comme le déclarait un titre du Washington Post datant d’une dizaine d’années, « les solutions à tous nos problèmes sont peut-être enfouies dans des PDF que personne ne lit ».
C’est pourquoi IBM Deep Search a développé Docling, un outil puissant pour analyser des documents dans des formats populaires tels que PDF, DOCX, images, PPTX, XLSX, HTML et AsciiDoc et les convertir dans des formats adaptés aux modèles comme Markdown ou JSON. Ces documents – et les informations qu’ils contiennent – sont ainsi facilement accessibles par des modèles tels que Granite à des fins de RAG et d’autres workflows. Docling facilite l’intégration aux frameworks agentiques tels que LlamaIndex, LangChain et Bee, ce qui permet aux développeurs d’incorporer son assistance dans l’écosystème de leur choix.
En accès open source sous licence permissive MIT, Docling est une solution sophistiquée qui va au-delà de la simple reconnaissance optique de caractères (OCR) et de l’extraction de texte. Comme l’explique William Caban de Red Hat, Docling intègre un certain nombre de techniques de prétraitement contextuel et basées sur les éléments : si un tableau s’étend sur plusieurs pages, Docling sait qu’il faut l’extraire comme un seul tableau ; si une page donnée mélange corps de texte, images et tableaux, chaque élément doit être extrait séparément en fonction de son contexte d’origine.
L’équipe à l’origine de Docling s’emploie à mettre au point des fonctionnalités supplémentaires, notamment l’extraction d’équations et de code et l’extraction de métadonnées. Pour voir Docling en action, consultez ce tutoriel sur la création d’un système de réponse aux questions sur les documents avec Docling et Granite.
Bee Agent Framework est un framework open source permettant de créer de puissants workflows d’IA agentique avec des LLM open source, optimisés pour une utilisation avec les modèles Granite et Llama (avec d’autres optimisations spécifiques aux modèles déjà en cours de développement). Il comprend un ensemble de modules qui permettent aux développeurs de personnaliser presque tous les composants, de l’agent d’IA, de la gestion de la mémoire et l’utilisation des outils à la gestion des erreurs, ainsi que plusieurs fonctionnalités d’observabilité qui fournissent les informations et la responsabilité nécessaires au déploiement en production.
Le framework s’intègre de façon fluide à de multiples modèles et à une série d’outils robustes prêts à l’emploi tels que les services météorologiques et la recherche sur Internet (ou des outils personnalisés créés en Javascript ou en Python). La fonctionnalité d’utilisation flexible des outils Bee permet des workflows adaptés à vos circonstances spécifiques, comme le montre cette formule qui utilise Granite et Wikipedia et des outils intégrés pour exploiter plus efficacement une fenêtre de contexte limitée.
Les agents Granite Bee peuvent être exécutés localement à l’aide d’Ollama ou tirer parti de l’inférence hébergée avec watsonx.ai.
Publiés au début de l’année, les modèles TinyTimeMixer (TTM) TimeSeries de Granite sont une famille de modèles légers et pré-entraînés basés sur une nouvelle architecture. Prenant en charge le forecasting zero-shot et few-shot pour tout ce qui concerne les données de capteurs IdO, les cours de bourse et les demandes d’énergie, les modèles Granite TimeSeries sont plus performants que de nombreux modèles jusqu’à 10 fois plus grands, notamment TimesFM, Moirai et Chronos.2 Depuis le 30 mai, les modèles Granite-timeseries-TTM ont été téléchargés plus de 3,25 millions de fois sur le seul site Hugging Face.
En novembre, IBM a annoncé le lancement de la version bêta de l’API et du SDK Timeseries Forecasting watsonx.ai, rendant les modèles Granite TimeSeries disponibles sur la plateforme d’IA intégrée d’IBM pour le développement d’applications d’IA de bout en bout.
Pour plus d’informations sur l’utilisation de Granite-TTM, consultez les indications du manuel d’instructions IBM Granite Timeseries, comme ce notebook sur l’utilisation du SDK watsonx pour effectuer l’inférence de forecasting.
Les modèles Granite 3.1 sont désormais disponibles sur IBM watsonx.ai. Ils sont également accessibles auprès des partenaires de la plateforme, notamment, par ordre alphabétique, Docker (via son catalogue DockerHub GenAI), Hugging Face, LM Studio, Ollama et Replicate. Certains modèles Granite 3.1 seront également disponibles via NVIDIA (en tant que microservice NIM) en janvier 2025.
Un certain nombre de guides et d’indications pour travailler avec les modèles Granite sont disponibles dans le manuel d’instructions Granite Snack sur GitHub, de l’orchestration des workflows à l’aide des modèles de langage Granite dans Langchain à l’implémentation des modèles Granite Guardian.
Pour leurs premiers pas avec les modèles, les développeurs peuvent aussi opter pour le playground de modèles Granite ou explorer l’éventail de démos et de tutoriels utiles dans la documentation IBM, tels que :
1. "Data Engineering for Scaling Language Models to 128K Context," arXiv, 15 février 2024
2. "Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series," arXiv, 7 Nov 2024
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.