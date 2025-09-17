Granite-Docling está diseñado específicamente para convertir documentos de forma precisa y eficiente, a diferencia de la mayoría de los enfoques basados en VLM para el reconocimiento óptico de caracteres (OCR), que pretenden adaptar modelos grandes y de uso general a esta tarea. Incluso con unos 258M de parámetros ultracompactos, las capacidades de Granite-Docling rivalizan con las de sistemas varias veces mayores, lo que lo convierte en una solución extremadamente rentable. El modelo va mucho más allá de la mera extracción de texto: maneja matemáticas y código tanto en línea como flotantes, destaca en el reconocimiento de la estructura de la tabla y conserva el diseño y la estructura del documento original. Mientras que los modelos OCR convencionales convierten los documentos directamente a Markdown y pierden la conexión con el contenido original, el método único de Granite-Docling, que traduce fielmente elementos estructurales complejos, hace que su resultado sea ideal para aplicaciones RAG posteriores.

Granite-Docling fue desarrollado por el equipo detrás de la célebre biblioteca Docling de código abierto, que cumplió un año a principios de este mes. Docling proporciona herramientas, modelos y una interfaz de línea de comandos para la conversión de documentos, así como la integración con flujos de trabajo de IA agéntica. Mientras que la biblioteca Docling permite crear procesos de ensamblaje personalizables, Granite-Docling es un único VLM de 258 millones de parámetros que analiza y procesa documentos de una sola vez.

El nuevo Granite-Docling es una evolución lista para el producto del modelo experimental SmolDocling-256M-preview lanzado por IBM Research en colaboración con Hugging Face en marzo de 2025. Granite-Docling reemplaza la columna vertebral del lenguaje SmolLM-2 utilizada para SmolDocling con una arquitectura basada en Granite 3 y reemplaza el codificador visual SigLIP con el SigLIP2 actualizado, pero por lo demás conserva la metodología general de SmolDocling (aunque supera su rendimiento).

Fundamentalmente, Granite-Docling aborda ciertas inestabilidades presentes en SmolDocling-256M-preview, como la tendencia ocasional a quedarse atascado en bucles de repetir el mismo token en un punto determinado de una página. Aunque algunas imperfecciones son inevitables en cualquier modelo, el uso empresarial fiable a escala requiere la confianza de que ningún error individual descarrilará el flujo de trabajo en sí. IBM Research mitigó estas inestabilidades para Granite-Docling mediante un exhaustivo filtrado y limpieza del conjunto de datos con el fin de eliminar las muestras con anotaciones incoherentes o faltantes, así como cualquier muestra con irregularidades que introdujeran ambigüedades contraproducentes.

Al igual que SmolDocling antes, Granite-Docling captura con precisión el contenido y la estructura de los documentos con una fracción de los requisitos computacionales de la mayoría de las ofertas competitivas. Las evaluaciones de rendimiento sobre los puntos de referencia comunes de comprensión de documentos se proporcionan en la tarjeta modelo Hugging Face de Granite-Docling-258M.