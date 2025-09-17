Granite-Docling è progettato appositamente per convertire i documenti in modo accurato ed efficiente, a differenza della maggior parte degli approcci al riconoscimento ottico dei caratteri (OCR) basati su VLM che mirano ad adattare modelli di grandi dimensioni e generici all'attività in questione. Anche con 258 milioni di parametri ultracompatti, le funzionalità di Granite-Docling tengono testa a quelle di sistemi di dimensioni molto superiori, il che lo rende estremamente conveniente dal punto di vista economico. Il modello va ben oltre la semplice estrazione di testo: gestisce matematica e codice sia in linea che mobili, eccelle nel riconoscere la struttura delle tabelle e preserva il layout e la struttura del documento originale. Mentre i modelli OCR convenzionali convertono i documenti direttamente in Markdown e perdono la connessione al contenuto di origine, l'esclusivo metodo di Granite-Docling per tradurre fedelmente elementi strutturali complessi rende il suo output ideale per le applicazioni RAG a valle.

Granite-Docling è stato sviluppato dal team della celebre libreria open source Docling, che ha compiuto un anno all'inizio di questo mese. Docling fornisce strumenti, modelli e un'interfaccia a riga di comando per la conversione dei documenti, oltre all'integrazione plug-and-play con i workflow di agentic AI. Mentre la libreria Docling consente pipeline di ensemble personalizzabili, Granite-Docling è un singolo VLM con 258 milioni di parametri che analizza ed elabora i documenti in un colpo solo.

Il nuovo Granite-Docling è un'evoluzione pronta per il mercato del modello sperimentale SmolDocling-256M-preview rilasciato da IBM Research in collaborazione con Hugging Face nel marzo 2025. Granite-Docling sostituisce il backbone del linguaggio SmollM-2 utilizzato per SmoldoCling con un'architettura basata su Granite 3 e sostituisce l'encoder visivo SigLip con il SigLip2 aggiornato, ma per il resto mantiene la metodologia generale di SmoldoCling (pur superandone le prestazioni).

Fondamentalmente, Granite-Docling affronta alcune instabilità presenti in SmoldoCling-256M-Preview, come la tendenza occasionale a rimanere bloccati in cicli di ripetizione dello stesso token in un determinato punto di una pagina. Sebbene alcune imperfezioni siano inevitabili in qualsiasi modello, per consentire un utilizzo affidabile su larga scala a livello aziendale serve la certezza che nessun errore individuale possa compromettere il workflow stesso. IBM Research ha mitigato queste instabilità per Granite-Docling attraverso un'approfondita operazione di filtraggio e pulizia dei set di dati per rimuovere i campioni con annotazioni incoerenti o mancanti, nonché eventuali campioni con irregolarità che introducevano ambiguità controproducenti.

Come SmoldoCling prima di esso, Granite-Docling acquisisce con precisione il contenuto e la struttura dei documenti con una frazione dei requisiti computazionali della maggior parte delle soluzioni della concorrenza. Le valutazioni delle prestazioni sulla base dei benchmark comuni per la comprensione dei documenti sono fornite nella scheda del modello Hugging Face di Granite-Docling-258M.