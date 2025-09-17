Granite-Docling wurde speziell für die genaue und effiziente Dokumentenkonvertierung entwickelt, im Gegensatz zu den meisten VLM-basierten Ansätzen zur optischen Zeichenerkennung (OCR), die darauf abzielen, große, universelle Modelle an die Aufgabe anzupassen. Selbst bei ultrakomprimierten 258M-Parametern konkurrieren die Funktionen von Granite-Docling mit denen von Systemen, die mehrfach so groß sind, was es äußerst kosteneffektiv macht. Das Modell geht weit über die reine Textextraktion hinaus: Es verarbeitet sowohl eingebettete als auch schwebende Mathematik und Code, zeichnet sich durch das Erkennen der Tabellenstruktur aus und behält das Layout und die Struktur des Originaldokuments bei. Während herkömmliche OCR-Modelle Dokumente direkt in Markdown konvertieren und die Verbindung zum Quellinhalt verlieren, ist die einzigartige Methode von Granite, komplexe Strukturelemente originalgetreu zu übersetzen, ideal für nachgelagerte Anwendungen.

Granite-Docling wurde von dem Team hinter der gefeierten Open-Source-Bibliothek Docling entwickelt, die Anfang dieses Monats ein Jahr alt wurde. Docling bietet Werkzeuge, Modelle und eine Befehlszeilenschnittstelle für die Dokumentenkonvertierung sowie eine Plug-and-Play-Integration in agentische KI-Workflows. Während die Docling-Bibliothek anpassbare Ensemble-Pipelines ermöglicht, ist Granite-Docling ein einzelnes VLM mit 258 Millionen Parametern, das Dokumente in einem Durchgang analysiert und verarbeitet.

Der neue Granite-Docling ist eine produktreife Weiterentwicklung des experimentellen SmolDocling-256M-Preview-Modells, das von IBM Research in Zusammenarbeit mit Hugging Face im März 2025 veröffentlicht wurde. Granite-Docling ersetzt das für SmolDocling verwendete SmolLM-2-Sprach-Backbone durch eine Granite 3-basierte Architektur und ersetzt den SigLIP Visual Encoder durch den aktualisierten SigLIP2, behält aber ansonsten die allgemeine Methodik von SmolDocling bei (und übertrifft gleichzeitig seine Leistung).

Entscheidend ist, dass Granite-Docling bestimmte Instabilitäten von SmolDocling-256M-preview behebt, wie z. B. die gelegentliche Tendenz, in Schleifen stecken zu bleiben, weil dasselbe Token an einer bestimmten Stelle einer Seite wiederholt wird. Obwohl einige Unvollkommenheiten bei jedem Modell unvermeidlich sind, erfordert ein zuverlässiger Einsatz im Unternehmen in großem Maßstab die Gewissheit, dass keine Einzelfehler den Workflow selbst beeinträchtigen. IBM Research hat diese Instabilitäten für Granite-Docling durch eine umfangreiche Filterung und Bereinigung von Datensätzen abgemildert, um Proben mit inkonsistenten oder fehlenden Anmerkungen sowie alle Proben mit Unregelmäßigkeiten, die zu kontraproduktiven Mehrdeutigkeiten führten, zu entfernen.

Wie SmolDocling zuvor erfasst Granite-Docling den Inhalt und die Struktur von Dokumenten präzise und das zu einem Bruchteil der Rechenanforderungen der meisten konkurrierenden Angebote. Leistungsbewertungen zu gängigen Benchmarks für das Dokumentenverständnis finden Sie in der Hugging-Face-Modellkarte von Granite-Docling-258M.