O Granite-Docling foi criado especificamente para document conversion precisa e eficiente, ao contrário da maioria das abordagens baseadas em VLM para reconhecimento óptico de caracteres (OCR), que visam adaptar grandes modelos de uso geral à tarefa. Mesmo sendo ultracompacto, com 258 milhões de parâmetros, os recursos do Granite-Docling rivalizam com os de sistemas com várias vezes seu tamanho, tornando-o extremamente econômico. O modelo vai muito além da mera extração de texto: ele lida com matemática e código flutuante e sequencial, se destaca em reconhecer estrutura de tabelas e preserva o layout e a estrutura do documento original. Enquanto os modelos de OCR convencionais convertem documentos diretamente para Markdown e perdem a conexão com o conteúdo de origem, o método exclusivo do Granite-Docling de traduzir fielmente elementos estruturais complexos torna sua saída ideal para aplicações RAG posteriores.

O Granite-Docling foi desenvolvido pela equipe por trás da celebrada biblioteca de código aberto Docling, que completou um ano no início deste mês. O Docling oferece ferramentas, modelos e uma interface de linha de comando para document conversion, bem como integração com fluxos de trabalho de IA agêntica. Enquanto a biblioteca Docling permite pipelines de conjunto personalizáveis, o Granite-Docling é um VLM único de 258 milhões de parâmetros que analisa e processa documentos de uma só vez.

O novo Granite-Docling é uma evolução pronta para o produto do modelo experimental SsolDocling-256M-preview, lançado pela IBM Research em parceria com a Hugging Face em março de 2025. O Granite-Docling substitui o backbone da linguagem SmoLM-2 usado para o do SsolDocling por uma arquitetura baseada no Granite 3 e substitui o codificador visual SigLIP pelo SigLIP2 atualizado, mas, por outro lado, mantém a metodologia geral do SsolDocling (embora exceda seu desempenho).

Crucialmente, o Granite-Docling lida com certas instabilidades presentes no SmolDocling-256M-preview, como a tendência ocasional de ficar preso em loops de repetição do mesmo token em um determinado local de uma página. Embora algumas imperfeições sejam inevitáveis em qualquer modelo, o uso empresarial confiável em escala exige a confiança de que nenhum erro individual irá prejudicar o fluxo de trabalho em si. A IBM Research mitigou essas instabilidades para o Granite-Docling por meio de filtragem e limpeza abrangentes do conjunto de dados para remover amostras com anotações inconsistentes ou ausentes, bem como quaisquer amostras com irregularidades que introduziam ambiguidades contraproducentes.

Assim como o SsolDocling, o Granite-Docling captura com precisão o conteúdo e a estrutura do documento com uma fração dos requisitos computacionais da maioria das ofertas da concorrência. As avaliações de desempenho em referências comuns de compreensão de documentos são fornecidas no cartão do modelo Hugging Face do Granite-Docling-258M.