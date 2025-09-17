Granite-Docling está diseñado específicamente para una conversión de documentos precisa y eficiente, a diferencia de la mayoría de los enfoques basados en VLM para el reconocimiento óptico de caracteres (OCR), que tienen como objetivo adaptar modelos grandes de uso general a la tarea. Incluso con un tamaño ultracompacto de 258 millones de parámetros, las capacidades de Granite-Docling compiten con las de sistemas de varias veces su tamaño, lo que lo hace muy rentable. El modelo va mucho más allá de la mera extracción de texto: maneja matemáticas y código tanto en línea como flotantes, destaca en el reconocimiento de la estructura de tablas y conserva el diseño y la estructura del documento original. Mientras que los modelos OCR convencionales convierten documentos directamente a Markdown y pierden la conexión con el contenido de origen, el método único de Granite-Docling de traducir fielmente elementos estructurales complejos hace que su resultado sea ideal para aplicaciones RAG posteriores.

Granite-Docling fue desarrollado por el equipo detrás de la célebre biblioteca Docling de código abierto, que cumplió un año a principios de este mes. Docling proporciona herramientas, modelos y una interfaz de línea de comandos para la conversión de documentos, así como la integración con flujos de trabajo de IA agéntica. Mientras que la biblioteca Docling permite pipelines de conjuntos personalizables, Granite-Docling es un único VLM de 258 millones de parámetros que analiza y procesa documentos de una sola vez.

El nuevo Granite-Docling es una evolución lista para el producto del modelo experimental SmolDocling-256M-preview lanzado por IBM Research en colaboración con Hugging Face en marzo de 2025. Granite-Docling reemplaza la red troncal del lenguaje SmolLM-2 utilizada para SmolDocling con una arquitectura basada en Granite 3 y reemplaza el codificador visual SigLIP con el SigLIP2 actualizado, pero por lo demás conserva la metodología general de SmolDocling (mientras supera su rendimiento).

Fundamentalmente, Granite-Docling aborda ciertas inestabilidades presentes en SmolDocling-256M-preview, como la tendencia ocasional a quedarse atascado en bucles de repetir el mismo token en un lugar determinado de una página. Si bien algunas imperfecciones son inevitables en cualquier modelo, el uso empresarial confiable a escala requiere la confianza de que ningún error individual desviará el flujo de trabajo en sí. IBM® Research mitigó estas inestabilidades para Granite-Docling mediante un amplio filtrado y limpieza de conjuntos de datos para eliminar muestras con anotaciones incoherentes o faltantes, así como cualquier muestra con irregularidades que introdujeran ambigüedades contraproducentes.

Al igual que SmolDocling, Granite-Docling captura con precisión el contenido y la estructura de los documentos a una fracción de los requisitos computacionales de la mayoría de las ofertas competitivas. Las evaluaciones de rendimiento sobre puntos de referencia comunes de comprensión de documentos se proporcionan en la tarjeta modelo Hugging Face de Granite-Docling-258M.