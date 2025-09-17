今天，IBM 发布了 Granite-Docling-258M，这是一款超紧凑、前沿的开源视觉-语言模型 (VLM)，用于将文档转换为机器可读格式，同时完整保留其布局、表格、公式、列表等内容。它现在可通过标准的 Apache 2.0 许可在 Hugging Face 上获取。
Granite-Docling 专为高精度、高效率的文档转换而打造，不同于大多数基于 VLM 的光学字符识别 (OCR) 方法，这些方法通常试图将大型通用模型适应于该任务。即使只有超紧凑的 2.58 亿参数，Granite-Docling 的能力也可媲美数倍于其规模的系统，使其具有极高的性价比。该模型不仅仅限于文本提取：它能够处理内联和浮动的数学公式与代码，擅长识别表格结构，并保留原始文档的布局和结构。传统 OCR 模型会将文档直接转换为 Markdown，从而丢失与源内容的关联，而 Granite-Docling 独特的方法能够忠实地转换复杂的结构元素，使其输出非常适合下游的 RAG 应用。
Granite-Docling 由著名开源 Docling 库背后的团队开发，该库在本月初刚刚满一周年。Docling 提供用于文档转换的工具、模型和命令行界面，同时支持与自主型 AI 工作流的即插即用集成。Docling 库支持可定制的集成流水线，而 Granite-Docling 则是一个单一的 2.58 亿参数 VLM，能够一次性解析和处理文档。
全新的 Granite-Docling 是 IBM 研究院于 2025 年 3 月与 Hugging Face 合作发布的实验性 SmolDocling-256M-preview 模型的面向产品的升级版本。Granite-Docling 用基于 Granite 3 的架构取代了 SmolDocling 所使用的 SmolLM-2 语言骨干，并用更新后的 SigLIP2 替换了 SigLIP 视觉编码器，但在其他方面仍保留了 SmolDocling 的总体方法论（同时性能超越了它）。
最关键的是，Granite-Docling 解决了 SmolDocling-256M-preview 中存在的某些不稳定问题，例如在页面的某个位置偶尔出现重复生成同一标记而陷入循环的情况。尽管任何 模型都难免存在一些不完美，但在大规模企业应用中，可靠性要求保证没有单个错误会破坏整个工作流。IBM 研究院通过广泛的数据集过滤和清洗来缓解 Granite-Docling 的这些不稳定性，以移除具有不一致或缺失标注的样本，以及任何可能引入适得其反的模糊性的异常样本。
与之前的 SmolDocling 一样，Granite-Docling 能够在远低于大多数竞品计算需求的情况下，准确捕捉文档的内容和结构。Granite-Docling-258M 的 Hugging Face 模型卡提供了对常见文档理解基准的性能评估。
Granite-Docling 高效性的核心是 DocTags，这是由 IBM 研究院开发的一种通用标记格式，可捕捉和描述所有页面元素（图表、表格、表单、代码、公式、脚注、说明文字等）以及它们之间的上下文关系和在文档布局中的位置。
像 HTML 或 Markdown 这样的通用标记语言并非为图像到序列的任务（如文档转换）设计，其词汇量有限，无法描述许多 PDF、幻灯片和信息图中常见元素所需的精确属性。因此，直接转换为常用标记语言通常会导致信息丢失和歧义，增加总的令牌数量，并限制保留结构元素的能力。
DocTags 定义了一个由明确标记和规则组成的结构化词汇表，可将文本内容与文档结构明确分开，从而最大限度地减少混淆和令牌的使用。这使得 Granite-Docling 能够隔离每个元素，描述其在页面上的具体位置，然后在其中执行 OCR。它还可以简明地描述不同元素之间的关系，例如正确的阅读顺序或层次结构，例如将标题链接到相应的图形/表格。
DocTags 针对大型语言模型 (LLM) 的可读性进行了优化。在 Granite-Docling 将原始文档以 DocTags 输出后，它可以轻松地直接转换为 Markdown、JSON 或 HTML（或输入到 Docling 库的流水线中），从而简化将专有文档转换为高质量数据集的流程，用于微调其他大型语言模型 (LLM) 或通过检索增强生成 (RAG) 提升 LLM 的响应能力。
SmolDocling-256-preview 是在英文语料库上训练的，但它能够合理处理使用标准拉丁字符撰写的任何语言的文档。毕竟，模型只需要能够解析和转录文档的文本，而不是（一定）理解它。但这显然排除了不 使用拉丁字母的语言，从而限制了 SmolDocling 在世界许多地区的适用性。
IBM 的目标是让 Granite-Docling 尽可能具备普适的实用性。为此，Granite-Docling 提供了针对额外目标语言的实验性多语言功能，包括阿拉伯语、中文和日语，其目标是将 Granite-Docling 扩展到更多世界上最广泛使用的字母体系。
尽管这些多语言功能仍处于早期实验阶段，尚未经过企业级性能或稳定性的验证，但它们是拓展 Granite-Docling 全球适用性的关键一步。扩展和增强 Granite-Docling 的多语言功能将是 Docling 生态系统未来迭代的关键优先事项。
Granite-Docling 的目的是补充 Docling 库，而不是替代或取代它。每个都有其独特的优势和适用场景。为了获得最佳效果，我们建议在 Docling 框架内使用 Granite-Docling。
Docling 库 是一个可完全自定义的软件层，用于将专用模型，如 Tableformer、代码解析器、公式解析器、视觉模型、语音识别模型、专用 OCR 模型以及通用大语言模型 (LLM)，组合成集成流水线，以实现文档转换。Granite-Docling 模型本身可以作为 Docling 中更大 VLM 流水线的一部分使用。Docling 库的工具包还可直接支持与外部服务的集成，例如向量数据库或智能体式工作流。因此，Docling 库通常提供更高的自定义能力，并可以从多种模型中进行选择以满足特定需求。
Granite-Docling 可以为 Docling 流水线提供宝贵的补充，用一个紧凑的 VLM 替代多个单一用途模型，将关键功能整合到一个专门针对文档版本的模型中，包括多语言支持、结构和布局保持的自然语言解析，以及对代码和复杂公式等多种数据类型的解析。
理论上，单次处理文档的转换方式也可以减少错误累积的可能性。例如，在集成流水线的早期阶段，如果表格位置错误，可能会扭曲或破坏后续阶段提取该表格内容的能力，而 Granite-Docling 即使表格位置不正确，也能正确重现该表格。也就是说，将其用于更大的 Docling 框架中，可以将模型本身的卓越准确性和成本效益，与 Docling 库的定制化、集成和错误处理功能相结合。
Granite-Docling 和 Docling 库的开发一直受到充满活力的 Docling 社区反馈的指导，并将继续以此为指导。与其 SmolDocling 前身一样，IBM 研究院发布新 Granite-Docling 模型的目标是收集社区反馈，以指导 Docling 功能在未来版本中的持续优化和扩展。
Docling 正在进行或计划中的举措包括：
Granite-Docling-258M 现可通过 Hugging Face 上的标准 Apache 2.0 许可证获得。要获取有关 Granite-Docling 的更多信息（包括其在各类文档理解基准测试中的性能评估，以及在 Docling 流水线中运行该模型的指南），请访问 Granite-Docling 的 Hugging Face 模型卡。
要了解更多关于 Docling 和 Granite-Docling 的信息，您还可以访问 docling.ai 或查看以下教程和资源：
开源小型语言模型以具有竞争力的价格提供企业级性能和透明度。
借助 IBM 业界领先的人工智能专业知识和解决方案组合，让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营，最大限度提升体验、实时决策和商业价值。