IBM Granite-Docling:単一の小規模モデルによるエンドツーエンドのドキュメント理解

Doclingのアート

執筆者

Abraham Daniels

Sr. Technical Product Manager, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

本日、IBMは、レイアウト、表、数式、コード・リストなどを完全に維持しながら、文書を機械で読み取り可能なフォーマットに変換するための超コンパクトなオープンソース・ビジョン言語モデル(VLM)であるGranite-Docling-258Mをリリースします。現在、標準のApache 2.0ライセンスを通じてHugging Face から利用できるようになりました。

Granite-Doclingは、大規模な汎用モデルをタスクに適応させることを目的とした光学文字認識(OCR)に対する大半のVLMベース・アプローチとは異なり、正確かつ効率的なドキュメント変換を目的として構築されています。超コンパクトな258Mパラメーターであっても、Granite-Doclingの機能は、その数倍の規模を持つシステムの機能に匹敵しており、コスト効率が非常に優れています。このモデルは単なるテキスト抽出にとどまりません。インラインとフローティングの両方の数式とコードを扱い、表構造の認識に優れ、元の文書のレイアウトと構造を保持します。従来のOCRモデルはドキュメントをMarkdownに直接変換し、ソース・コンテンツとの接続を失うのに対し、Granite-Doclingは複雑な構造要素を忠実に変換する独自の方法により、そのアウトプットをダウンストリームのRAGアプリケーションに理想的なものとしています。

Granite-Doclingは、今月初めに1周年を迎え、高い評価を得ているオープンソースであるDoclingライブラリーの開発チームによって開発されました。Doclingは、文書変換のためのツール、モデル、コマンドライン・インターフェース、およびエージェント型AIワークフローとのプラグ・アンド・プレイ統合を提供します。Doclingライブラリーではカスタマイズ可能なアンサンブル・パイプラインが可能ですが、Granite-Doctlingは単一の258MパラメーターのVLMであり、1回の実行で文書を解析・処理します。

新しいGranite-Doclingは、2025年3月にIBM ResearchがHugging Faceと提携してリリースした、実験的なSolDocling-256M-previewモデルの、製品対応の進化形です。Granite-Doclingは、SmolDoclingに使用されているSmolLM-2言語バックボーンをGranite 3ベースのアーキテクチャーに置き換え、SigLIPビジュアル・エンコーダーを最新のSigLIP2に置き換えていますが、それ以外の点では、(パフォーマンスでは上回るものの)SmolDoclingの一般的な方法論を踏襲しています。

重要なのは、Granite-Doclingが、時折ページの特定の場所で同じトークンを繰り返すループに陥ってしまう傾向など、SmolDocling-256M-previewに存在する特定の不安定性に対処することです。どのようなモデルであってもある程度の不完全性は避けられませんが、信頼性の高い大規模な企業利用には、個々のエラーがワークフロー自体に支障をきたさないという確信が必要です。IBM Researchは、一貫性のない、または注釈が欠落しているサンプルや、非生産的な曖昧さをもたらす不規則性のあるサンプルを削除するため、大規模なデータ・セットのフィルタリングとクリーニングを実行し、上記のようなGranite-Doclingの不安定性を軽減しました。

これまでのSolDoclingと同様、Granite-Doclingは、ほとんどの競合製品と比較してわずかな計算要件で、文書のコンテンツと構造を正確に把握します。一般的なドキュメント理解ベンチマークのパフォーマンス評価は、Granite-Docling-258MのHugging Faceモデル・カードで提供されています。

ドキュメントを取り込む新たな方法

Granite-Doctlingの有効性の中心となるのは、IBM Researchが開発したユニバーサル・マークアップ形式であるDocTagsです。DocTagsは、チャート、表、フォーム、コード、数式、脚注、キャプションなど、すべてのページ要素、およびそれらの文脈的な相互関係とドキュメント・レイアウト内の位置を把握・記述します。

汎用マークアップ言語のHTMLやMarkdownは、ドキュメント変換などの画像からシーケンスへのタスク用に設計されておらず、PDF、スライド資料、インフォグラフィックの多くの一般的な要素を正確にレンダリングするために必要とされる、非常に具体的な属性を記述するにあたり、限られた語彙のみが備わっています。そのため、一般的なマークアップ言語への直接変換は通常、損失が多く、曖昧なため、総トークン数が増え、構造要素を保持する能力が制限されます。

DocTagは、テキストの内容を文書構造から明示的に分離する明確なタグとルールを持つ構造化された語彙を定義し、混乱とトークンの使用の両方を最小限に抑えます。これにより、Granite-Doclingは各要素を分離し、ページ上の特定の場所を記述し、その中でOCRを実行できるようになります。また、適切な読み取り順序や階層など、さまざまな要素間の関係を簡潔に記述することもできます(例:キャプションを対応する図や表にリンクする)。

DocTagは、LLMの可読性用に最適化されています。Granite-Doctlingは、元の文書をDocTagsに出力した後、Markdown、JSON、またはHTMLに直接変換して(またはDoclingライブラリー・パイプラインに送信して)、独自の文書を高品質のデータセットに変換するプロセスを合理化します。検索拡張生成(RAG)を通して、他のLLMを微調整したり、LLMの応答を強化したりすることができます。

多言語理解

SolDocling-256-previewは英語のコーパスでトレーニングされましたが、標準的なラテン文字を使用するあらゆる言語で作成された文書を一定程度処理できます。結局のところ、モデルが必要とするのは、ドキュメントのテキストを(必ずしも)理解することではなく、解析し、文字起こしできることのみです。しかし、これには明らかにラテン文字を使用しない言語が抜け落ちており、世界の多くの地域でSmolDoclingの有用性を制限します。

IBMの目的は、Granite-Doclingを可能な限り普遍的に役立つものにすることです。そのために、Granite-Doclingは、アラビア語、中国語日本語を含む追加のターゲット言語にわたる実験的な多言語機能を提供しており、Granite-Doclingを世界で最も広く使用されているアルファベットよりもさらに拡張することを目標としています。

これらの多言語機能はまだ初期の実験段階にあり、企業向けの性能や安定性についてはまだ検証されていませんが、Granite-Doclingの世界的な有用性の拡大に向けた重要なステップです。Granite-Doclingの多言語機能の拡大と強化は、Doclingエコシステムの将来のイテレーションにおいて重要な優先事項となるでしょう。

Granite-DoctlingとDoctlingライブラリー

Granite-Doclingは、Doctlingライブラリーに取って代わるものではなく、Doclingライブラリーを補完することを目的としています。それぞれに独自の強みとユースケースがあります。最適な成果を得るには、Doclingフレームワーク内でGranite-Doclingを使用することを推奨します。

Doclingライブラリーは、Tableformers、コード・パーサー、数式パーサー、ビジョン・モデル、ASRモデル、専用OCRモデル、汎用LLMなどの特殊なモデルからドキュメント変換用のアンサンブル・パイプラインを構築するための、完全にカスタマイズ可能なソフトウェア・レイヤーです。Granite-Doclingモデル自体は、Doclingの大規模なVLMパイプラインの一部として機能します。Doclingライブラリーのツールキットは、ベクトル・データベースやエージェント型ワークフローなどの外部サービスとの直接的な連携も推進しています。このように、Doclingライブラリーでは一般に、より優れたカスタマイズが可能であり、目的に合わせてさまざまなモデルから選択することができます。

Granite-Doclingは、複数の単一目的モデルをコンパクトなVLMに置き換え、Doclingパイプラインに貴重な追加機能を提供できます。これにより、自然言語とコードや複雑な数式などのさまざまなデータ・モダリティの両方に対する多言語、構造・レイアウトを保持する解析を含む主要な機能が、ドキュメントのバージョンに特化した単一のモデルに統合されます。

理論的には、ドキュメントを1回変換することで誤差が蓄積する可能性も低減されます。たとえば、アンサンブル・パイプラインの初期段階でテーブルの位置を間違えると、後の段階でテーブルのコンテンツを抽出する機能に歪みや逸脱が発生する可能性がありますが、Granite-Doclingは、間違った場所にあるテーブルでも正しく再現します。とはいえ、より大きなDoclingフレームワーク内で使用することで、モデル自体の目覚ましい精度とコスト効率とともに、Doclingライブラリーのカスタマイズ、統合、エラー処理機能が組み合わされます。

Doclingの今後

これまで、Granite-DoclingとDoclingライブラリーの開発は、活気あるDoclingコミュニティーからのフィードバックに基づいて行われ、それは今後も続くでしょう。その前身であるSolDoclingと同様に、新しいGranite-Doclingモデルをリリースするにあたり、IBM Researchの目標は、将来のリリースに向けたDoclingの機能の継続的な改良と拡張に役立つ、コミュニティーからのフィードバックを収集することです。

Dockerの継続的または計画された取り組みには、以下のようなものがあります。

  • ドキュメント理解ソリューションの評価・比較を目的とした、オープンソースのDocling-evalパッケージの継続的な開発これらの取り組みの中心となるのは、堅牢な新しい評価データセット(その一部は「benchmaxxing」を回避するために未公開のままとなる予定)のキュレーションと、これらのデータセットの性能によって情報が与えられ、標準化されたリーダーボードの作成です。

  • 約512Mおよび900Mパラメータのサイズを持つ大型のGranite-Doclingモデル。 IBM Researchでは、速度とハードウェアの柔軟性を優先するために、将来のすべてのGranite-Doclingモデルのパラメーター数を1B未満に抑える予定です。

  • IBM® watsonx.aiで使用可能なモデルとDocTagsの互換性。 DocTagsサンプルは、将来のIBM® Granite言語モデルのトレーニング・データ・レシピに組み込まれ、DocTags用語の特定のコーパスは、Graniteトークナイザーの語彙に追加されます。これにより、Granite-Doclingによって解析されたドキュメント・データの、IBM® watsonxを通じて調整されたより大規模なワークフローへのスムーズな統合が促進されます。

Granite-Doctlingを試す

Granite-Docling-258Mが、Hugging Faceで標準のApache 2.0ライセンスで利用できるようになりました。さまざまなドキュメント理解ベンチマークの性能評価や、Doclingパイプライン内でモデルを実行する手順など、Granite-Doclingの詳細については、Granite-DoclingのHugging Faceモデル・カード参照してください

DoclingとGranite-Doclingの詳細については、docling.aiにアクセスするか、次のチュートリアルと参考情報を確認してください。

Granite-Docling-258Mの詳細はこちら →

関連ソリューション
IBM Granite

エンタープライズ・グレードのパフォーマンスと透明性を競争力のある価格で提供する、オープンソースの小規模言語モデル。

Graniteの詳細はこちら
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションの詳細はこちら
AIコンサルティングとサービス

AIの導入によって重要なワークフローと業務を再構築し、エクスペリエンスとビジネス価値の最大化とリアルタイムの意思決定の最適化を達成します。

AIサービスの詳細はこちら
次のステップ

Graniteは、ビジネスに特化したAIモデルのファミリーであり、AI駆動型アプリケーションの信頼性と拡張性を確保できるようにゼロから設計されました。

Graniteについて モデルをダウンロード