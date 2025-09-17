Aujourd’hui, IBM lance Granite-Docling-258M, un modèle de langage de vision (VLM) open source ultra-compact et de pointe pour convertir des documents en formats lisibles par machine tout en préservant leur mise en page, leurs tableaux, leurs équations, leurs listes et plus. Il est désormais disponible sur Hugging Face via une licence standard Apache 2.0.
Granite-Docling est spécialement conçu pour une conversion précise et efficace des documents, contrairement à la plupart des approches basées sur VLM de la reconnaissance optique de caractères (OCR) qui visent à adapter de grands modèles à usage général à la tâche. Même avec un nombre de paramètres ultra-compact de 258 millions, les capacités de Granite-Docling rivalise avec des systèmes plusieurs fois plus grands, ce qui le rend extrêmement rentable. Ce modèle va bien au-delà de la simple extraction de texte : il gère à la fois les mathématiques et le code en ligne et flottants, excelle dans la reconnaissance de la structure des tableaux et préserve la mise en page et la structure du document d’origine. Alors que les modèles OCR conventionnels convertissent les documents directement en Markdown et perdent la connexion au contenu source, la méthode unique de Granite-Docling, qui consiste à traduire fidèlement les éléments structurels complexes, rend sa sortie idéale pour les applications RAG en aval.
Granite-Docling a été développé par l’équipe à l’origine de la célèbre bibliothèque open source Docling, qui a célébré son premier anniversaire plus tôt ce mois-ci. Docling fournit des outils, des modèles et une interface de ligne de commande pour la conversion des documents, ainsi qu’une intégration avec des workflows d’IA agentique. Tandis que la bibliothèque Docling permet de personnaliser les pipelines d’ensemble, Granite-Docling est un VLM unique de 258 millions de paramètres qui analyse et traite les documents en une seule fois.
Le nouveau Granite-Docling est une évolution prête à l’emploi du modèle expérimental SmolDocling-256M, publié par IBM Research en partenariat avec Hugging Face en mars 2025. Granite-Docling remplace le réseau principal du langage SmolLM-2 utilisé pour SmolDocling par une architecture basée sur Granite 3 et remplace l’encodeur visuel SigLIP par le SigLIP2 mis à jour, mais conserve la méthodologie générale de SmolDocle (tout en dépassant ses performances).
Granite-Docling adresse certaines instabilités présentes dans SmolDocling-256M-preview, comme la tendance occasionnelle à être bloqué dans des boucles de répétition du même token à un certain endroit d’une page. Bien que certaines lacunes soient inévitables dans tout modèle, une utilisation fiable à l’échelle de l’entreprise exige de garantir qu’aucune erreur individuelle ne mettra en péril le workflow lui-même. IBM Research a atténué ces instabilités pour Granite-Docling grâce à un filtrage et un nettoyage approfondis des jeux de données, le but étant d’éliminer les échantillons présentant des annotations incohérentes ou manquantes, ainsi que tous les échantillons présentant des irrégularités présentant des ambiguïtés contre-productives.
Comme SmolDocling avant lui, Granite-Docling capture avec précision le contenu et la structure des documents à une fraction des ressources de calcul exigées par la plupart des offres concurrentielles. Les évaluations de performance sur des benchmarks courants de compréhension de documents sont fournies dans la carte de modèle Hugging Face de Granite-Docling-258M.
L’efficacité de Granite-Docling repose sur les DocTags, un format de balisage universel développé par IBM Research qui capture et décrit tous les éléments de la page (graphiques, tableaux, formulaires, code, équations, notes de bas de page, légendes, etc.) ainsi que leur relation contextuelle les uns par rapport aux autres et leur emplacement dans la mise en page d’un document.
Les langages de balisage généralistes comme HTML ou Markdown n’ont pas été conçus pour des tâches d’image à séquence comme la document conversion, et ont un vocabulaire limité pour décrire les attributs très spécifiques nécessaires pour restituer avec précision de nombreux éléments courants des PDF, des présentations et des infographies. De ce fait, la conversion directe vers des langages de balisage courants est généralement avec perte et ambiguë, ce qui augmente le nombre total de tokens et limite la capacité à préserver les éléments structurels.
Les docTags définissent un vocabulaire structuré de balises et de règles sans ambiguïté qui séparent explicitement le contenu textuel de la structure du document, minimisant ainsi à la fois la confusion et l’utilisation de tokens. Cela permet à Granite-Docling d’isoler chaque élément, de décrire son emplacement spécifique sur la page, puis d’effectuer un OCR à l’intérieur. Il peut également décrire de manière concise les relations entre différents éléments, telles que l’ordre de lecture ou la hiérarchie appropriés, par exemple en reliant une légende à la figure/table correspondante.
DocTags est optimisé pour la lisibilité des LLM. Une fois que Granite-Docling a produit le(s) document(s) d’origine dans DocTags, ce dernier peut être facilement converti en Markdown, JSON ou HTML (ou introduit dans un pipeline de bibliothèque Docling), rationalisant ainsi le processus de conversion de documents propriétaires en jeux de données de haute qualité pour le réglage fin d’autres LLM ou l’amélioration des réponses aux LLM grâce à la génération augmentée de récupération (RAG).
SmolDocling-256-preview a été entraîné sur un corpus en anglais, mais il peut raisonnablement traiter des documents rédigés dans n’importe quelle langue utilisant les caractères latins standard. Après tout, le modèle doit uniquement être capable d’analyser et de transcrire le texte du document, et pas (nécessairement) de le comprendre. Mais cela exclut évidemment les langages qui n’utilisent pas de script latin, ce qui limite la fonctionnalité de SmolDocling dans de nombreuses régions du monde.
L’objectif d’IBM est de rendre Granite-Docling aussi utile que possible pour tous. À cette fin, Granite-Docling offre des capacités multilingues expérimentales dans des langues cibles supplémentaires telles que l’arabe, le chinois et le japonais, dans le but d’étendre Granite-Docling à un plus grand nombre d’alphabets les plus utilisés au monde.
Bien que ces capacités multilingues soient à un stade préliminaire et n’aient pas encore été validées pour des performances ou une stabilité adaptées à l’entreprise, elles représentent une étape essentielle vers l’élargissement de l’utilité mondiale de Granite-Docling. L’extension et le renforcement des capacités multilingues de Granite-Docling seront une priorité essentielle pour les futures itérations de l’écosystème Docling.
Granite-Docling est destiné à compléter la bibliothèque Docling, et non à la remplacer ou à la supplanter. Chacun a ses propres points forts et cas d’utilisation. Pour obtenir des résultats optimaux, nous vous recommandons d’utiliser Granite-Docling au sein du cadre Docling.
La bibliothèque Docling est une couche logicielle entièrement personnalisable qui permet de créer des pipelines d’ensemble à partir de modèles spécialisés (Tableformers, analyseurs de code, analyseurs d’équations, modèles de vision, modèles ASR, modèles OCR dédiés et LLM généralistes) pour la conversion de documents. Le modèle Granite-Docling lui-même peut servir de composant d’un pipeline VLM plus large dans Docling. Les outils de la bibliothèque Docling facilitent également directement l’intégration avec des services externes, comme les bases de données vectorielles ou les workflows agentiques. Ainsi, la bibliothèque Docling offre généralement une personnalisation plus poussée et permet de choisir parmi une variété de modèles pour répondre à des besoins spécifiques.
Granite-Docling peut constituer un ajout inestimable aux pipelines Docling, en remplaçant de multiples modèles à usage unique par un VLM compact qui consolide les fonctionnalités principales, notamment l’analyse multilingue, la préservation de la structure et de la mise en page du langage naturel et un éventail de modalités de données telles que le code et des équations complexes, au sein d’un modèle unique spécialisé dans l’analyse de documents.
Théoriquement, la conversion des documents en un seul passage réduit également le risque d’accumulation d’erreurs. Par exemple, alors qu’un tableau mal localisé à un stade précoce d’un pipeline d’ensemble peut fausser ou empêcher l’extraction de son contenu à des étapes ultérieures, Granite-Docling reproduira correctement un tableau, même s’il se trouve au mauvais emplacement. Cela dit, son utilisation dans le cadre Docling combine la précision et la rentabilité remarquables du modèle lui-même avec les fonctions de personnalisation, d’intégration et de traitement des erreurs de la bibliothèque Docling.
Le développement de Granite-Docling et de la bibliothèque Docling a été, et continuera d’être, guidé par les commentaires de la dynamique communauté Docling. Comme pour son prédécesseur SmolDocling, l’objectif d’IBM Research en publiant le nouveau modèle Granite-Docling est de recueillir les commentaires de la communauté pouvant guider le perfectionnement et l’expansion continus des capacités de Docling pour les futures versions.
Les initiatives en cours ou prévues pour Docling sont les suivantes :
Granite-Docling-258M est désormais disponible via une licence standard Apache 2.0 sur Hugging Face. Pour plus d’informations sur Granite-Docling, y compris les évaluations de performance sur un ensemble de benchmarks et les instructions pour exécuter le modèle dans un pipeline Docling, accédez à la fiche du modèle Hugging Face de Granite-Docling.
Pour en savoir plus sur Docling et Granite-Docling, vous pouvez également visiter docling.ai ou consulter les tutoriels et ressources suivants :
