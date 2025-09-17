Heute veröffentlicht IBM Granite-Docling-258M, ein ultrakompaktes und Edge Open-Source-Vision-Sprachmodell (VLM) zur Konvertierung von Dokumenten in maschinenlesbare Formate unter vollständiger Beibehaltung von Layout, Tabellen, Gleichungen, Listen und mehr. Es ist jetzt auf Hugging Face über eine Standard-Apache 2.0-Lizenz verfügbar.
Granite-Docling wurde speziell für die genaue und effiziente Dokumentenkonvertierung entwickelt, im Gegensatz zu den meisten VLM-basierten Ansätzen zur optischen Zeichenerkennung (OCR), die darauf abzielen, große, universelle Modelle an die Aufgabe anzupassen. Selbst bei ultrakomprimierten 258M-Parametern konkurrieren die Funktionen von Granite-Docling mit denen von Systemen, die mehrfach so groß sind, was es äußerst kosteneffektiv macht. Das Modell geht weit über die reine Textextraktion hinaus: Es verarbeitet sowohl eingebettete als auch schwebende Mathematik und Code, zeichnet sich durch das Erkennen der Tabellenstruktur aus und behält das Layout und die Struktur des Originaldokuments bei. Während herkömmliche OCR-Modelle Dokumente direkt in Markdown konvertieren und die Verbindung zum Quellinhalt verlieren, ist die einzigartige Methode von Granite, komplexe Strukturelemente originalgetreu zu übersetzen, ideal für nachgelagerte Anwendungen.
Granite-Docling wurde von dem Team hinter der gefeierten Open-Source-Bibliothek Docling entwickelt, die Anfang dieses Monats ein Jahr alt wurde. Docling bietet Werkzeuge, Modelle und eine Befehlszeilenschnittstelle für die Dokumentenkonvertierung sowie eine Plug-and-Play-Integration in agentische KI-Workflows. Während die Docling-Bibliothek anpassbare Ensemble-Pipelines ermöglicht, ist Granite-Docling ein einzelnes VLM mit 258 Millionen Parametern, das Dokumente in einem Durchgang analysiert und verarbeitet.
Der neue Granite-Docling ist eine produktreife Weiterentwicklung des experimentellen SmolDocling-256M-Preview-Modells, das von IBM Research in Zusammenarbeit mit Hugging Face im März 2025 veröffentlicht wurde. Granite-Docling ersetzt das für SmolDocling verwendete SmolLM-2-Sprach-Backbone durch eine Granite 3-basierte Architektur und ersetzt den SigLIP Visual Encoder durch den aktualisierten SigLIP2, behält aber ansonsten die allgemeine Methodik von SmolDocling bei (und übertrifft gleichzeitig seine Leistung).
Entscheidend ist, dass Granite-Docling bestimmte Instabilitäten von SmolDocling-256M-preview behebt, wie z. B. die gelegentliche Tendenz, in Schleifen stecken zu bleiben, weil dasselbe Token an einer bestimmten Stelle einer Seite wiederholt wird. Obwohl einige Unvollkommenheiten bei jedem Modell unvermeidlich sind, erfordert ein zuverlässiger Einsatz im Unternehmen in großem Maßstab die Gewissheit, dass keine Einzelfehler den Workflow selbst beeinträchtigen. IBM Research hat diese Instabilitäten für Granite-Docling durch eine umfangreiche Filterung und Bereinigung von Datensätzen abgemildert, um Proben mit inkonsistenten oder fehlenden Anmerkungen sowie alle Proben mit Unregelmäßigkeiten, die zu kontraproduktiven Mehrdeutigkeiten führten, zu entfernen.
Wie SmolDocling zuvor erfasst Granite-Docling den Inhalt und die Struktur von Dokumenten präzise und das zu einem Bruchteil der Rechenanforderungen der meisten konkurrierenden Angebote. Leistungsbewertungen zu gängigen Benchmarks für das Dokumentenverständnis finden Sie in der Hugging-Face-Modellkarte von Granite-Docling-258M.
Von zentraler Bedeutung für die Effizienz von Granite-Docling sind DocTags, ein von IBM Research entwickeltes universelles Markup-Format, das alle Seitenelemente – Diagramme, Tabellen, Formulare, Code, Gleichungen, Fußnoten, Bildunterschriften und mehr – sowie ihre kontextuelle Beziehung zueinander und die Position innerhalb eines Dokumentlayouts erfasst und beschreibt.
Allzweck-Markup-Sprachen wie HTML oder Markdown wurden nicht für Bild-zu-Sequenz-Aufgaben wie Document Conversion entwickelt und verfügen über ein begrenztes Vokabular zur Beschreibung der sehr spezifischen Attribute, die für die genaue Darstellung vieler gängiger Elemente von PDF-Dateien, Folienstapeln und Infografiken erforderlich sind. Daher ist die direkte Konvertierung in gängige Markup-Sprachen in der Regel verlustbehaftet und mehrdeutig, was die Gesamtzahl der Token erhöht und die Möglichkeit, Strukturelemente beizubehalten, einschränkt.
DocTags definieren ein strukturiertes Vokabular aus eindeutigen Tags und Regeln, die Textinhalte explizit von der Dokumentstruktur trennen und so Verwirrung und die Verwendung von Token minimieren. Auf diese Weise kann Granite-Docling jedes Element isolieren, seine spezifische Position auf der Seite beschreiben und dann eine OCR darin durchführen. Sie kann auch die Beziehungen zwischen verschiedenen Elementen präzise beschreiben, z. B. die richtige Lesereihenfolge oder Hierarchie, z. B. die Verknüpfung einer Bildunterschrift mit der entsprechenden Abbildung/Tabelle.
DocTags ist für LLM-Lesbarkeit optimiert. Nachdem Granite-Docling die Originaldokumente in DocTags ausgegeben hat, können diese einfach direkt in Markdown, JSON oder HTML konvertiert (oder in eine Docling-Bibliothekspipeline eingespeist) werden, wodurch der Prozess der Umwandlung proprietärer Dokumente in hochwertige Datensätze für die Feinabstimmung anderer LLMs oder die Verbesserung der LLM-Antworten durch Retrieval-Augmented Generation (RAG) rationalisiert wird.
SmolDocling-256-preview wurde anhand eines englischsprachigen Korpus trainiert, kann jedoch Dokumente in jeder Sprache verarbeiten, die standardmäßige lateinische Buchstaben verwendet. Schließlich muss das Modell nur in der Lage sein, den Text des Dokuments zu analysieren und zu transkribieren, ihn aber nicht (unbedingt) zu verstehen. Aber damit werden offensichtlich Sprachen nicht berücksichtigt, die keine lateinische Schrift verwenden, was das Dienstprogramm von SmolDocling in vielen Teilen der Welt einschränkt.
IBM hat die Absicht, Granite-Docling so universell wie möglich zu gestalten. Zu diesem Zweck bietet Granite-Docling experimentelle mehrsprachige Funktionen in weiteren Zielsprachen, darunter Arabisch, Chinesisch und Japanisch, mit dem Ziel, Granite-Docling auf weitere der weltweit am häufigsten verwendeten Alphabete auszuweiten.
Obwohl sich diese mehrsprachigen Funktionen in einem frühen, experimentellen Stadium befinden und noch nicht auf ihre unternehmenstaugliche Leistung oder Stabilität validiert wurden, sind sie ein wesentlicher Schritt zur Ausweitung des globalen Nutzens von Granite. Die Erweiterung und Stärkung der mehrsprachigen Funktionen von Granite-Docling wird eine der wichtigsten Prioritäten für zukünftige Iterationen des Docling-Ökosystems sein.
Granite-Docling soll die Docling-Bibliothek ergänzen, anstatt sie zu ersetzen oder abzulösen. Jedes hat seine eigenen besonderen Stärken und Anwendungsfälle. Um optimale Ergebnisse zu erzielen, empfehlen wir die Verwendung von Granite-Docling innerhalb des Docling-Frameworks.
Die Docling-Bibliothek ist eine vollständig anpassbare Softwareschicht zum Aufbau von Ensemble-Pipelines aus spezialisierten Modellen – wie Tableformern, Code-Parsern, Gleichungsparsern, Visionsmodellen, ASR-Modellen, dedizierten OCR-Modellen und generalistischen LLMs – für die Dokumentenkonvertierung. Das Granite-Docling-Modell selbst kann als Teil einer größeren VLM-Pipeline in Docling dienen. Das Docling-Bibliothek-Toolkit erleichtert auch direkt die Integration in externe Dienste wie Vektordatenbank oder Agenten-Workflow. Daher bietet die Docling-Bibliothek in der Regel eine bessere Anpassungsmöglichkeiten und die Möglichkeit, aus einer Vielzahl von Modellen die passenden Modelle für den jeweiligen Zweck auszuwählen.
Granite-Docling kann eine unschätzbare Ergänzung zu Docling-Pipelines darstellen und mehrere Einzweckmodelle durch ein kompaktes VLM ersetzen, das die wichtigsten Hauptmerkmale konsolidiert – einschließlich der mehrsprachigen, struktur- und Layouterhaltung von natürlicher Sprache und einer Reihe von Datenmodalitäten wie Code und komplexen Gleichungen – in ein einziges, auf die Dokumentversion spezialisiertes Modell.
Theoretisch reduziert die Konvertierung von Dokumenten in einem einzigen Durchlauf auch das Potenzial für eine Fehleranhäufung. Während beispielsweise eine falsch platzierte Tabelle in einer frühen Phase in einer Ensemble-Pipeline die Möglichkeit verzerren oder beeinträchtigen kann, den Inhalt der Tabelle in späteren Phasen zu extrahieren, wird Granite-Docling eine Tabelle korrekt reproduzieren, selbst wenn sie sich an der falschen Position befindet. Die Verwendung innerhalb des größeren Frameworks kombiniert jedoch die bemerkenswerte Genauigkeit und Kosteneffizienz des Modells selbst mit den Anpassungs-, Integration- und Fehlerbehandlungsfunktionen der Docling-Bibliothek.
Die Entwicklung von Granite-Docling und der Docling-Bibliothek wurde und wird auch weiterhin vom Feedback der lebendigen Docling-Community geleitet sein. Wie beim Vorgänger von SmolDocling besteht das Ziel von IBM Research bei der Veröffentlichung des neuen Granite-Docling-Modells darin, Feedback von der Community zu sammeln, das als Grundlage für die kontinuierliche Verfeinerung und Erweiterung der Docling-Funktionen für zukünftige Versionen dienen kann.
Zu den laufenden oder geplanten Initiativen für Docling gehören:
Granite-Docling-258M ist jetzt über eine standardmäßige Apache 2.0-Lizenz auf Hugging Face verfügbar. Weitere Informationen zu Granite-Docling, einschließlich Leistung auf einer Reihe von Benchmark und Anweisungen für die Ausführung des Modells innerhalb einer Docling-Pipeline, finden Sie auf der Modellkarte Hugging Face von Granite-Docling.
Um mehr über Docling und Granite-Docling zu erfahren, können Sie auch docling.ai besuchen oder die folgenden Tutorials und Ressourcen lesen:
