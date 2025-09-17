Hoy, IBM lanza Granite-Docling-258M, un modelo de lenguaje de visión (VLM) de código abierto ultracompacto y de vanguardia para convertir documentos a formatos legibles por máquina, conservando completamente su diseño, tablas, ecuaciones, listas y más. Ahora está disponible en Hugging Face a través de una licencia Apache 2.0 estándar.
Granite-Docling está diseñado específicamente para una conversión de documentos precisa y eficiente, a diferencia de la mayoría de los enfoques basados en VLM para el reconocimiento óptico de caracteres (OCR), que tienen como objetivo adaptar modelos grandes de uso general a la tarea. Incluso con un tamaño ultracompacto de 258 millones de parámetros, las capacidades de Granite-Docling compiten con las de sistemas de varias veces su tamaño, lo que lo hace muy rentable. El modelo va mucho más allá de la mera extracción de texto: maneja matemáticas y código tanto en línea como flotantes, destaca en el reconocimiento de la estructura de tablas y conserva el diseño y la estructura del documento original. Mientras que los modelos OCR convencionales convierten documentos directamente a Markdown y pierden la conexión con el contenido de origen, el método único de Granite-Docling de traducir fielmente elementos estructurales complejos hace que su resultado sea ideal para aplicaciones RAG posteriores.
Granite-Docling fue desarrollado por el equipo detrás de la célebre biblioteca Docling de código abierto, que cumplió un año a principios de este mes. Docling proporciona herramientas, modelos y una interfaz de línea de comandos para la conversión de documentos, así como la integración con flujos de trabajo de IA agéntica. Mientras que la biblioteca Docling permite pipelines de conjuntos personalizables, Granite-Docling es un único VLM de 258 millones de parámetros que analiza y procesa documentos de una sola vez.
El nuevo Granite-Docling es una evolución lista para el producto del modelo experimental SmolDocling-256M-preview lanzado por IBM Research en colaboración con Hugging Face en marzo de 2025. Granite-Docling reemplaza la red troncal del lenguaje SmolLM-2 utilizada para SmolDocling con una arquitectura basada en Granite 3 y reemplaza el codificador visual SigLIP con el SigLIP2 actualizado, pero por lo demás conserva la metodología general de SmolDocling (mientras supera su rendimiento).
Fundamentalmente, Granite-Docling aborda ciertas inestabilidades presentes en SmolDocling-256M-preview, como la tendencia ocasional a quedarse atascado en bucles de repetir el mismo token en un lugar determinado de una página. Si bien algunas imperfecciones son inevitables en cualquier modelo, el uso empresarial confiable a escala requiere la confianza de que ningún error individual desviará el flujo de trabajo en sí. IBM® Research mitigó estas inestabilidades para Granite-Docling mediante un amplio filtrado y limpieza de conjuntos de datos para eliminar muestras con anotaciones incoherentes o faltantes, así como cualquier muestra con irregularidades que introdujeran ambigüedades contraproducentes.
Al igual que SmolDocling, Granite-Docling captura con precisión el contenido y la estructura de los documentos a una fracción de los requisitos computacionales de la mayoría de las ofertas competitivas. Las evaluaciones de rendimiento sobre puntos de referencia comunes de comprensión de documentos se proporcionan en la tarjeta modelo Hugging Face de Granite-Docling-258M.
Un elemento central de la eficacia de Granite-Docling es DocTags, un formato de marcado universal desarrollado por IBM Research que captura y describe todos los elementos de la página (gráficos, tablas, formularios, código, ecuaciones, notas al pie, subtítulos y más), así como su relación contextual entre sí y su ubicación dentro de un diseño de documento.
Los lenguajes de marcado de uso general, como HTML o Markdown, no se diseñaron para tareas de imagen a secuencia, como la conversión de documentos, y tienen un vocabulario limitado para describir los atributos muy específicos necesarios para representar con precisión muchos elementos comunes de PDF, diapositivas e infografías. Como tal, la conversión directa a lenguajes de marcado comunes suele ser con pérdidas y ambigua, lo que aumenta el recuento total de tokens y limita la capacidad de preservar los elementos estructurales.
DocTags define un vocabulario estructurado de etiquetas y reglas inequívocas que separan explícitamente el contenido textual de la estructura del documento, minimizando tanto la confusión como el uso de token. Esto permite a Granite-Docling aislar cada elemento, describir su ubicación específica en la página y luego realizar OCR dentro de él. También puede describir de manera concisa las relaciones entre diferentes elementos, como el orden de lectura o la jerarquía adecuados, por ejemplo, vinculando un pie de foto a su figura/tabla correspondiente.
DocTags está optimizado para la legibilidad de LLM. Una vez que Granite-Docling ha generado los documentos originales en DocTags, se puede convertir fácilmente y de forma directa a Markdown, JSON o HTML (o alimentar a un pipeline de biblioteca Docling), agilizando el proceso de convertir documentos patentados en conjuntos de datos de alta calidad para ajustar otros LLM o mejorar las respuestas de LLM a través de generación aumentada por recuperación (RAG, por sus siglas en inglés).
SmolDocling-256-preview se entrenó en un corpus en inglés, pero puede manejar razonablemente documentos escritos en cualquier idioma que use caracteres latinos estándar. Después de todo, el modelo solo necesita poder analizar y transcribir el texto del documento, no (necesariamente) entenderlo. Pero esto obviamente omite los idiomas que no usan escritura latina, lo que limita la utilidad de SmolDocling en muchas partes del mundo.
La intención de IBM es hacer que Granite-Docling sea lo más universal posible. Con ese fin, Granite-Docling ofrece capacidades multilingües experimentales en idiomas de destino adicionales que incluyen árabe, chino y japonés, con el objetivo de extender Granite-Docling a más de los alfabetos más utilizados del mundo.
Aunque estas capacidades multilingües se encuentran en una etapa inicial y experimental y aún no se han validado para el rendimiento o la estabilidad listos para la empresa, representan un paso esencial hacia la ampliación de la utilidad de Granite-Docling. Ampliar y fortalecer las capacidades multilingües de Granite-Docling será una prioridad clave para futuras iteraciones del ecosistema de Docling.
Granite-Docling está previsto para complementar la biblioteca Docling, en lugar de reemplazarla. Cada uno tiene sus propias fortalezas y casos de uso particulares. Para obtener resultados óptimos, recomendamos utilizar Granite-Docling dentro de la infraestructura Docling.
La biblioteca Docling es una capa de software totalmente personalizable para crear pipelines de conjuntos a partir de modelos especializados, como Tableformers, analizadores de código, analizadores de ecuaciones, modelos de visión, modelos ASR, modelos OCR dedicados y LLM generalistas, para la conversión de documentos. El propio modelo Granite-Docling puede servir como parte de un pipeline de VLM más grande en Docling. El kit de herramientas de la biblioteca Docling también facilita directamente la integración con servicios externos, como bases de datos vectoriales o flujos de trabajo agénticos. Como tal, la biblioteca Docling generalmente proporciona una mayor personalización y la capacidad de seleccionar entre una variedad de modelos para adaptarse al propósito de uno.
Granite-Docling puede proporcionar una adición invaluable a los pipelines de Docling, reemplazando múltiples modelos de un solo propósito con un VLM compacto que consolida características clave, incluido el análisis multilingüe, que preserva la estructura y el diseño, tanto del lenguaje natural como de una variedad de modalidades de datos como código y ecuaciones complejas en un único modelo especializado para la versión del documento.
En teoría, la conversión de documentos en una sola pasada también reduce la posibilidad de acumulación de errores. Por ejemplo, mientras que una tabla mal ubicada en una etapa temprana de un pipeline de conjunto podría distorsionar o desviar la capacidad de extraer el contenido de la tabla en etapas posteriores, Granite-Docling reproducirá correctamente una tabla incluso si está en la ubicación incorrecta. Dicho esto, su uso dentro del marco más amplio de Docling combina la notable precisión y rentabilidad del modelo en sí con las funciones de personalización, integración y manejo de errores de la biblioteca Docling.
El desarrollo tanto de Granite-Docling como de la biblioteca Docling ha estado, y seguirá estando, guiado por el feedback de la vibrante comunidad de Docling. Al igual que con su predecesor SmolDocling, el objetivo de IBM Research al lanzar el nuevo modelo Granite-Docling es recopilar feedback de la comunidad que puedan guiar el refinamiento continuo y la expansión de las capacidades de Docling para futuras versiones.
Las iniciativas en curso o planificadas para Docling incluyen:
Granite-Docling-258M ahora está disponible a través de una licencia Apache 2.0 estándar en Hugging Face. Para obtener más información sobre Granite-Docling, incluidas las evaluaciones de rendimiento en una serie de puntos de referencia de comprensión de documentos e instrucciones para ejecutar el modelo dentro de un pipeline de Docling, vaya a la tarjeta del modelo Hugging Face de Granite-Docling.
Para obtener más información sobre Docling y Granite-Docling, también puede visitar docling.ai o consultar los siguientes tutoriales y recursos:
