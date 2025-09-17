Granite-Docling est spécialement conçu pour une conversion précise et efficace des documents, contrairement à la plupart des approches basées sur VLM de la reconnaissance optique de caractères (OCR) qui visent à adapter de grands modèles à usage général à la tâche. Même avec un nombre de paramètres ultra-compact de 258 millions, les capacités de Granite-Docling rivalise avec des systèmes plusieurs fois plus grands, ce qui le rend extrêmement rentable. Ce modèle va bien au-delà de la simple extraction de texte : il gère à la fois les mathématiques et le code en ligne et flottants, excelle dans la reconnaissance de la structure des tableaux et préserve la mise en page et la structure du document d’origine. Alors que les modèles OCR conventionnels convertissent les documents directement en Markdown et perdent la connexion au contenu source, la méthode unique de Granite-Docling, qui consiste à traduire fidèlement les éléments structurels complexes, rend sa sortie idéale pour les applications RAG en aval.

Granite-Docling a été développé par l’équipe à l’origine de la célèbre bibliothèque open source Docling, qui a célébré son premier anniversaire plus tôt ce mois-ci. Docling fournit des outils, des modèles et une interface de ligne de commande pour la conversion des documents, ainsi qu’une intégration avec des workflows d’IA agentique. Tandis que la bibliothèque Docling permet de personnaliser les pipelines d’ensemble, Granite-Docling est un VLM unique de 258 millions de paramètres qui analyse et traite les documents en une seule fois.

Le nouveau Granite-Docling est une évolution prête à l’emploi du modèle expérimental SmolDocling-256M, publié par IBM Research en partenariat avec Hugging Face en mars 2025. Granite-Docling remplace le réseau principal du langage SmolLM-2 utilisé pour SmolDocling par une architecture basée sur Granite 3 et remplace l’encodeur visuel SigLIP par le SigLIP2 mis à jour, mais conserve la méthodologie générale de SmolDocle (tout en dépassant ses performances).

Granite-Docling adresse certaines instabilités présentes dans SmolDocling-256M-preview, comme la tendance occasionnelle à être bloqué dans des boucles de répétition du même token à un certain endroit d’une page. Bien que certaines lacunes soient inévitables dans tout modèle, une utilisation fiable à l’échelle de l’entreprise exige de garantir qu’aucune erreur individuelle ne mettra en péril le workflow lui-même. IBM Research a atténué ces instabilités pour Granite-Docling grâce à un filtrage et un nettoyage approfondis des jeux de données, le but étant d’éliminer les échantillons présentant des annotations incohérentes ou manquantes, ainsi que tous les échantillons présentant des irrégularités présentant des ambiguïtés contre-productives.

Comme SmolDocling avant lui, Granite-Docling capture avec précision le contenu et la structure des documents à une fraction des ressources de calcul exigées par la plupart des offres concurrentielles. Les évaluations de performance sur des benchmarks courants de compréhension de documents sont fournies dans la carte de modèle Hugging Face de Granite-Docling-258M.