Granite-Doclingは、大規模な汎用モデルをタスクに適応させることを目的とした光学文字認識（OCR）に対する大半のVLMベース・アプローチとは異なり、正確かつ効率的なドキュメント変換を目的として構築されています。超コンパクトな258Mパラメーターであっても、Granite-Doclingの機能は、その数倍の規模を持つシステムの機能に匹敵しており、コスト効率が非常に優れています。このモデルは単なるテキスト抽出にとどまりません。インラインとフローティングの両方の数式とコードを扱い、表構造の認識に優れ、元の文書のレイアウトと構造を保持します。従来のOCRモデルはドキュメントをMarkdownに直接変換し、ソース・コンテンツとの接続を失うのに対し、Granite-Doclingは複雑な構造要素を忠実に変換する独自の方法により、そのアウトプットをダウンストリームのRAGアプリケーションに理想的なものとしています。

Granite-Doclingは、今月初めに1周年を迎え、高い評価を得ているオープンソースであるDoclingライブラリーの開発チームによって開発されました。Doclingは、文書変換のためのツール、モデル、コマンドライン・インターフェース、およびエージェント型AIワークフローとのプラグ・アンド・プレイ統合を提供します。Doclingライブラリーではカスタマイズ可能なアンサンブル・パイプラインが可能ですが、Granite-Doctlingは単一の258MパラメーターのVLMであり、1回の実行で文書を解析・処理します。

新しいGranite-Doclingは、2025年3月にIBM ResearchがHugging Faceと提携してリリースした、実験的なSolDocling-256M-previewモデルの、製品対応の進化形です。Granite-Doclingは、SmolDoclingに使用されているSmolLM-2言語バックボーンをGranite 3ベースのアーキテクチャーに置き換え、SigLIPビジュアル・エンコーダーを最新のSigLIP2に置き換えていますが、それ以外の点では、（パフォーマンスでは上回るものの）SmolDoclingの一般的な方法論を踏襲しています。

重要なのは、Granite-Doclingが、時折ページの特定の場所で同じトークンを繰り返すループに陥ってしまう傾向など、SmolDocling-256M-previewに存在する特定の不安定性に対処することです。どのようなモデルであってもある程度の不完全性は避けられませんが、信頼性の高い大規模な企業利用には、個々のエラーがワークフロー自体に支障をきたさないという確信が必要です。IBM Researchは、一貫性のない、または注釈が欠落しているサンプルや、非生産的な曖昧さをもたらす不規則性のあるサンプルを削除するため、大規模なデータ・セットのフィルタリングとクリーニングを実行し、上記のようなGranite-Doclingの不安定性を軽減しました。

これまでのSolDoclingと同様、Granite-Doclingは、ほとんどの競合製品と比較してわずかな計算要件で、文書のコンテンツと構造を正確に把握します。一般的なドキュメント理解ベンチマークのパフォーマンス評価は、Granite-Docling-258MのHugging Faceモデル・カードで提供されています。