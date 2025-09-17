Granite-Docling 专为高精度、高效率的文档转换而打造，不同于大多数基于 VLM 的光学字符识别 (OCR) 方法，这些方法通常试图将大型通用模型适应于该任务。即使只有超紧凑的 2.58 亿参数，Granite-Docling 的能力也可媲美数倍于其规模的系统，使其具有极高的性价比。该模型不仅仅限于文本提取：它能够处理内联和浮动的数学公式与代码，擅长识别表格结构，并保留原始文档的布局和结构。传统 OCR 模型会将文档直接转换为 Markdown，从而丢失与源内容的关联，而 Granite-Docling 独特的方法能够忠实地转换复杂的结构元素，使其输出非常适合下游的 RAG 应用。

Granite-Docling 由著名开源 Docling 库背后的团队开发，该库在本月初刚刚满一周年。Docling 提供用于文档转换的工具、模型和命令行界面，同时支持与自主型 AI 工作流的即插即用集成。Docling 库支持可定制的集成流水线，而 Granite-Docling 则是一个单一的 2.58 亿参数 VLM，能够一次性解析和处理文档。

全新的 Granite-Docling 是 IBM 研究院于 2025 年 3 月与 Hugging Face 合作发布的实验性 SmolDocling-256M-preview 模型的面向产品的升级版本。Granite-Docling 用基于 Granite 3 的架构取代了 SmolDocling 所使用的 SmolLM-2 语言骨干，并用更新后的 SigLIP2 替换了 SigLIP 视觉编码器，但在其他方面仍保留了 SmolDocling 的总体方法论（同时性能超越了它）。

最关键的是，Granite-Docling 解决了 SmolDocling-256M-preview 中存在的某些不稳定问题，例如在页面的某个位置偶尔出现重复生成同一标记而陷入循环的情况。尽管任何 模型都难免存在一些不完美，但在大规模企业应用中，可靠性要求保证没有单个错误会破坏整个工作流。IBM 研究院通过广泛的数据集过滤和清洗来缓解 Granite-Docling 的这些不稳定性，以移除具有不一致或缺失标注的样本，以及任何可能引入适得其反的模糊性的异常样本。

与之前的 SmolDocling 一样，Granite-Docling 能够在远低于大多数竞品计算需求的情况下，准确捕捉文档的内容和结构。Granite-Docling-258M 的 Hugging Face 模型卡提供了对常见文档理解基准的性能评估。