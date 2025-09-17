Hoje, a IBM está lançando o Granite-Docling-258M, um modelo de linguagem de visão (VLM) ultracompacto e de código aberto para converter documentos em formatos legíveis por máquina, preservando totalmente layout, tabelas, equações, listas de código e muito mais. Agora está disponível no Hugging Face por meio de uma licença Apache 2.0 padrão.
O Granite-Docling foi criado especificamente para document conversion precisa e eficiente, ao contrário da maioria das abordagens baseadas em VLM para reconhecimento óptico de caracteres (OCR), que visam adaptar grandes modelos de uso geral à tarefa. Mesmo sendo ultracompacto, com 258 milhões de parâmetros, os recursos do Granite-Docling rivalizam com os de sistemas com várias vezes seu tamanho, tornando-o extremamente econômico. O modelo vai muito além da mera extração de texto: ele lida com matemática e código flutuante e sequencial, se destaca em reconhecer estrutura de tabelas e preserva o layout e a estrutura do documento original. Enquanto os modelos de OCR convencionais convertem documentos diretamente para Markdown e perdem a conexão com o conteúdo de origem, o método exclusivo do Granite-Docling de traduzir fielmente elementos estruturais complexos torna sua saída ideal para aplicações RAG posteriores.
O Granite-Docling foi desenvolvido pela equipe por trás da celebrada biblioteca de código aberto Docling, que completou um ano no início deste mês. O Docling oferece ferramentas, modelos e uma interface de linha de comando para document conversion, bem como integração com fluxos de trabalho de IA agêntica. Enquanto a biblioteca Docling permite pipelines de conjunto personalizáveis, o Granite-Docling é um VLM único de 258 milhões de parâmetros que analisa e processa documentos de uma só vez.
O novo Granite-Docling é uma evolução pronta para o produto do modelo experimental SsolDocling-256M-preview, lançado pela IBM Research em parceria com a Hugging Face em março de 2025. O Granite-Docling substitui o backbone da linguagem SmoLM-2 usado para o do SsolDocling por uma arquitetura baseada no Granite 3 e substitui o codificador visual SigLIP pelo SigLIP2 atualizado, mas, por outro lado, mantém a metodologia geral do SsolDocling (embora exceda seu desempenho).
Crucialmente, o Granite-Docling lida com certas instabilidades presentes no SmolDocling-256M-preview, como a tendência ocasional de ficar preso em loops de repetição do mesmo token em um determinado local de uma página. Embora algumas imperfeições sejam inevitáveis em qualquer modelo, o uso empresarial confiável em escala exige a confiança de que nenhum erro individual irá prejudicar o fluxo de trabalho em si. A IBM Research mitigou essas instabilidades para o Granite-Docling por meio de filtragem e limpeza abrangentes do conjunto de dados para remover amostras com anotações inconsistentes ou ausentes, bem como quaisquer amostras com irregularidades que introduziam ambiguidades contraproducentes.
Assim como o SsolDocling, o Granite-Docling captura com precisão o conteúdo e a estrutura do documento com uma fração dos requisitos computacionais da maioria das ofertas da concorrência. As avaliações de desempenho em referências comuns de compreensão de documentos são fornecidas no cartão do modelo Hugging Face do Granite-Docling-258M.
O DocTags é fundamental para a eficácia do Granite-Docling, um formato de marcação universal desenvolvido pela IBM Research que captura e descreve todos os elementos das páginas (gráficos, tabelas, formulários, código, equações, notas de rodapé, legendas e outros), bem como sua relação contextual entre si e a localização no layout do documento.
Linguagens de marcação de uso geral, como HTML ou Markdown, não foram projetadas para tarefas de imagens em sequência, como document conversion, e têm um vocabulário limitado para descrever atributos muito específicos necessários para renderizar com precisão muitos elementos comuns de PDFs, conjuntos de slides e infográficos. Assim, a conversão direta para linguagens de marcação comuns normalmente contém perdas e é ambígua, aumentando a contagem total de tokens e limitando a capacidade de preservar elementos estruturais.
O DocTags define um vocabulário estruturado de tags inequívocas e regras que separam explicitamente o conteúdo textual da estrutura do documento, minimizando a confusão e o uso de tokens. Isso permite que o Granite-Docling isole cada elemento, descreva sua localização específica na página e execute OCR dentro dele. Também pode descrever de forma concisa relações entre diferentes elementos, como ordem de leitura adequada ou hierarquia — por exemplo, vinculando uma legenda à sua figura/tabela correspondente.
O DocTags é otimizado para a legibilidade do LLM. Após o Granite-Docling gerar o(s) documento(s) original(is) no DocTags, ele pode ser facilmente convertido diretamente em Markdown, JSON ou HTML (ou alimentado em um pipeline da biblioteca Docling), simplificando o processo de conversão de documentos proprietários em conjuntos de dados de alta qualidade para ajustar outros LLMs ou aprimorar as respostas de LLM por meio da geração aumentada de recuperação (RAG).
O SsolDocling-256-preview foi treinado em um corpus em inglês, mas pode lidar razoavelmente com documentos escritos em qualquer idioma que use caracteres latinos padrão. Afinal, o modelo só precisa ser capaz de analisar e transcrever o texto do documento, não (necessariamente) entendê-lo. Mas isso obviamente omite idiomas que não usam scripts latinos, o que limita a utilidade do SmolDocling em muitas partes do mundo.
A intenção da IBM é tornar o Granite-Docling o mais universalmente útil possível. Para isso, o Granite-Docling oferece recursos experimentais multilíngues em idiomas-alvo adicionais, que incluem árabe, chinês e japonês, com o objetivo de estender o Granite-Docling a mais dos alfabetos mais usados do mundo.
Embora esses recursos multilíngues estejam em estágio experimental inicial e ainda não tenham sido validados para desempenho ou estabilidade prontos para empresas, eles representam um passo essencial em direção à ampliação da utilidade global do Granite-Docling. Expandir e fortalecer os recursos multilíngues do Granite-Docling será uma prioridade fundamental para as futuras iterações do ecossistema do Docling.
O Granite-Docling destina-se a complementar a biblioteca Docling, em vez de substituí-la ou assumir seu lugar. Cada um tem seus pontos fortes e casos de uso específicos. Para obter resultados ideais, recomendamos o uso do Granite-Docling dentro do framework Docling.
A biblioteca Docling é uma camada de software totalmente personalizável para criar pipelines de conjuntos a partir de modelos especializados, como Tableformers, analisadores de código, analisadores de equações, modelos de visão, modelos ASR, modelos OCR dedicados e LLMs generalistas, para document conversion. O próprio modelo Granite-Docling pode servir como parte de um pipeline de VLM maior na Docling. O toolkit da biblioteca Docling também facilita diretamente a integração com serviços externos, como bancos de dados de vetores ou fluxos de trabalho agênticos. Dessa forma, a biblioteca Docling geralmente oferece maior personalização e a capacidade de selecionar entre uma variedade de modelos para atender à finalidade específica.
O Granite-Docling pode fornecer uma adição inestimável aos pipelines da Docling, substituindo vários modelos de propósito único por um VLM compacto que consolida as características principais — incluindo análise multilíngue, com preservação de estrutura e layout, tanto da linguagem natural quanto de uma variedade de modalidades de dados, como código e equações complexas em um único modelo especializado para a versão de documentos.
Teoricamente, a conversão de documentos em uma única passagem também reduz o potencial de acúmulo de erros. Por exemplo, embora uma tabela mal localizada em um estágio inicial em um pipeline de conjunto possa distorcer ou atrapalhar a capacidade de extrair o conteúdo da tabela em estágios posteriores, o Granite-Docling reproduzirá corretamente uma tabela, mesmo que ela esteja no local errado. Dito isso, usá-lo no framework Docling maior combina a notável precisão e economia do modelo em si com as funções de personalização, integração e tratamento de erros da biblioteca Docling.
O desenvolvimento do Granite-Docling e da biblioteca Docling foi e continuará sendo guiado pelo feedback da vibrante comunidade do Docling. Tal como acontece com seu antecessor do SsolDocling, o objetivo da IBM Research ao lançar o novo modelo Granite-Docling é reunir feedback da comunidade que possa orientar o refinamento e a expansão contínuos dos recursos do Docling para lançamentos futuros.
As iniciativas em andamento ou planejadas para o Docling incluem:
O Granite-Docling-258M agora está disponível por meio de uma licença Apache 2.0 padrão no Hugging Face. Para mais informações sobre o Granite-Docling, incluindo avaliações de desempenho em uma série de benchmarks de compreensão de documentos e instruções para execução do modelo em um pipeline Docling, acesse o cartão do modelo Hugging Face do Granite-Docling.
Para saber mais sobre o Docling e o Granite-Docling, você também pode acessar docling.ai ou conferir os seguintes tutoriais e recursos:
