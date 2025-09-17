IBM lanza hoy Granite-Docling-258M, un modelo de visión-lenguaje (VLM) de código abierto ultracompacto y de última generación para convertir documentos a formatos legibles por máquina, conservando completamente su diseño, tablas, ecuaciones, listas y más. Ahora está disponible en Hugging Face a través de una licencia Apache 2.0 estándar.
Granite-Docling está diseñado específicamente para convertir documentos de forma precisa y eficiente, a diferencia de la mayoría de los enfoques basados en VLM para el reconocimiento óptico de caracteres (OCR), que pretenden adaptar modelos grandes y de uso general a esta tarea. Incluso con unos 258M de parámetros ultracompactos, las capacidades de Granite-Docling rivalizan con las de sistemas varias veces mayores, lo que lo convierte en una solución extremadamente rentable. El modelo va mucho más allá de la mera extracción de texto: maneja matemáticas y código tanto en línea como flotantes, destaca en el reconocimiento de la estructura de la tabla y conserva el diseño y la estructura del documento original. Mientras que los modelos OCR convencionales convierten los documentos directamente a Markdown y pierden la conexión con el contenido original, el método único de Granite-Docling, que traduce fielmente elementos estructurales complejos, hace que su resultado sea ideal para aplicaciones RAG posteriores.
Granite-Docling fue desarrollado por el equipo detrás de la célebre biblioteca Docling de código abierto, que cumplió un año a principios de este mes. Docling proporciona herramientas, modelos y una interfaz de línea de comandos para la conversión de documentos, así como la integración con flujos de trabajo de IA agéntica. Mientras que la biblioteca Docling permite crear procesos de ensamblaje personalizables, Granite-Docling es un único VLM de 258 millones de parámetros que analiza y procesa documentos de una sola vez.
El nuevo Granite-Docling es una evolución lista para el producto del modelo experimental SmolDocling-256M-preview lanzado por IBM Research en colaboración con Hugging Face en marzo de 2025. Granite-Docling reemplaza la columna vertebral del lenguaje SmolLM-2 utilizada para SmolDocling con una arquitectura basada en Granite 3 y reemplaza el codificador visual SigLIP con el SigLIP2 actualizado, pero por lo demás conserva la metodología general de SmolDocling (aunque supera su rendimiento).
Fundamentalmente, Granite-Docling aborda ciertas inestabilidades presentes en SmolDocling-256M-preview, como la tendencia ocasional a quedarse atascado en bucles de repetir el mismo token en un punto determinado de una página. Aunque algunas imperfecciones son inevitables en cualquier modelo, el uso empresarial fiable a escala requiere la confianza de que ningún error individual descarrilará el flujo de trabajo en sí. IBM Research mitigó estas inestabilidades para Granite-Docling mediante un exhaustivo filtrado y limpieza del conjunto de datos con el fin de eliminar las muestras con anotaciones incoherentes o faltantes, así como cualquier muestra con irregularidades que introdujeran ambigüedades contraproducentes.
Al igual que SmolDocling antes, Granite-Docling captura con precisión el contenido y la estructura de los documentos con una fracción de los requisitos computacionales de la mayoría de las ofertas competitivas. Las evaluaciones de rendimiento sobre los puntos de referencia comunes de comprensión de documentos se proporcionan en la tarjeta modelo Hugging Face de Granite-Docling-258M.
Un elemento central de la eficacia de Granite-Docling es DocTags, un formato de marcado universal desarrollado por IBM Research que captura y describe todos los elementos de la página (gráficos, tablas, formularios, código, ecuaciones, notas al pie, subtítulos y más), así como su relación contextual entre sí y su ubicación dentro de un diseño de documento.
Los lenguajes de marcado de uso general como HTML o Markdown no se diseñaron para tareas de imagen a secuencia como la conversión de documentos y tienen un vocabulario limitado para describir los atributos muy específicos necesarios para representar con precisión muchos elementos comunes de PDF, diapositivas e infografías. Como tal, la conversión directa a lenguajes de marcado comunes suele ser con pérdidas y ambigua, lo que aumenta el recuento total de token y limita la capacidad de preservar los elementos estructurales.
Las DocTags definen un vocabulario estructurado de etiquetas y reglas inequívocas que separan explícitamente el contenido textual de la estructura del documento, minimizando tanto la confusión como el uso de token. Esto permite a Granite-Docling aislar cada elemento, describir su ubicación específica en la página y luego realizar OCR dentro de él. También puede describir de forma concisa las relaciones entre diferentes elementos, como el orden de lectura o la jerarquía adecuados, por ejemplo, vinculando un pie de foto a su figura/tabla correspondiente.
DocTags está optimizado para la legibilidad de LLM. Una vez que Granite-Docling ha generado los documentos originales en DocTags, puede convertirse fácilmente directamente en Markdown, JSON o HTML (o introducirse en un pipeline de biblioteca Docling), agilizando el proceso de conversión de documentos propietarios en conjuntos de datos de alta calidad para ajustar otros LLM o mejorar las respuestas de LLM mediante generación aumentada por recuperación (RAG).
SmolDocling-256-preview se entrenó en un corpus en inglés, pero puede gestionar razonablemente documentos escritos en cualquier idioma que utilice caracteres latinos estándar. Después de todo, el modelo solo necesita poder analizar y transcribir el texto del documento, no (necesariamente) entenderlo. Pero esto obviamente omite los idiomas que no utilizan la escritura latina, lo que limita los servicios de SmolDocling en muchas partes del mundo.
La intención de IBM es hacer que Granite-Docling sea lo más universal posible. Con ese fin, Granite-Docling ofrece capacidades multilingües experimentales en idiomas de destino adicionales que incluyen árabe, chino y japonés, con el objetivo de extender Granite-Docling a más de los alfabetos más utilizados del mundo.
Aunque estas capacidades multilingües se encuentran en una etapa temprana y experimental y aún no se han validado para el rendimiento o la estabilidad listos para la empresa, representan un paso esencial hacia la ampliación de los servicios globales de Granite-Docling. Ampliar y reforzar las capacidades multilingües de Granite-Docling será una prioridad clave para futuras iteraciones del ecosistema Docling.
Granite-Docling está diseñado para complementar la biblioteca Docling, en lugar de reemplazarla o reemplazarla. Cada uno tiene sus propias fortalezas y casos de uso particulares. Para obtener resultados óptimos, recomendamos utilizar Granite-Docling dentro del marco Docling.
La biblioteca Docling es una capa de software totalmente personalizable para crear pipelines de conjuntos a partir de modelos especializados, como Tableformers, analizadores de código, analizadores de ecuaciones, modelos de visión, modelos ASR, modelos OCR dedicados y LLM generalistas, para convertir documentos. El propio modelo Granite-Docling puede servir como parte de un pipeline VLM más grande en Docling. El kit de herramientas de la biblioteca Docling también facilita directamente la integración con servicios externos, como bases de datos vectoriales o flujos de trabajo agénticos. Como tal, la biblioteca Docling generalmente proporciona una mayor personalización y la capacidad de seleccionar entre una variedad de modelos para adaptarse a su propósito.
Granite-Docling puede proporcionar una valiosa adición a los pipelines de Docling, reemplazando múltiples modelos de un solo propósito con un VLM compacto que consolida características clave, incluido el análisis multilingüe, que preserva la estructura y el diseño, tanto del lenguaje natural como de una variedad de modalidades de datos como código y ecuaciones complejas, en un único modelo especializado para la versión del documento.
En teoría, la conversión de documentos en una sola pasada también reduce la posibilidad de acumulación de errores. Por ejemplo, mientras que una tabla mal ubicada en una etapa temprana de un pipeline de conjunto podría distorsionar o descarrilar la capacidad de extraer el contenido de la tabla en etapas posteriores, Granite-Docling reproducirá correctamente una tabla incluso si está en la ubicación incorrecta. Dicho esto, su uso dentro del marco más amplio de Docling combina la notable precisión y rentabilidad del propio modelo con las funciones de personalización, integración y gestión de errores de la biblioteca Docling.
El desarrollo tanto de Granite-Docling como de la biblioteca Docling ha estado, y seguirá estando, guiado por el feedback de la vibrante comunidad de Docling. Al igual que con su predecesor SmolDocling, el objetivo de IBM Research al lanzar el nuevo modelo Granite-Docling es recopilar comentarios de la comunidad que puedan guiar el perfeccionamiento y la expansión continuos de las capacidades de Docling para futuras versiones.
Las iniciativas en curso o previstas para Docling incluyen:
Granite-Docling-258M ya está disponible a través de una licencia Apache 2.0 estándar en Hugging Face. Para obtener más información sobre Granite-Docling, incluidas las evaluaciones de rendimiento en una serie de puntos de referencia de comprensión de documentos e instrucciones para ejecutar el modelo dentro de una canalización de Docling, vaya a la tarjeta del modelo Hugging Face de Granite-Docling.
Para obtener más información sobre Docling y Granite-Docling, también puede visitar docling.ai o consultar los siguientes tutoriales y recursos:
