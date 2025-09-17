Oggi, IBM rilascia Granite-Docling-258M, un modello di linguaggio visivo (VLM) all'avanguardia, ultracompatto e open source per la conversione di documenti in formati leggibili dalle macchine preservando completamente layout, tabelle, equazioni, elenchi di codici e altro ancora. Ora è disponibile su Hugging Face tramite una licenza Apache 2.0 standard.
Granite-Docling è progettato appositamente per convertire i documenti in modo accurato ed efficiente, a differenza della maggior parte degli approcci al riconoscimento ottico dei caratteri (OCR) basati su VLM che mirano ad adattare modelli di grandi dimensioni e generici all'attività in questione. Anche con 258 milioni di parametri ultracompatti, le funzionalità di Granite-Docling tengono testa a quelle di sistemi di dimensioni molto superiori, il che lo rende estremamente conveniente dal punto di vista economico. Il modello va ben oltre la semplice estrazione di testo: gestisce matematica e codice sia in linea che mobili, eccelle nel riconoscere la struttura delle tabelle e preserva il layout e la struttura del documento originale. Mentre i modelli OCR convenzionali convertono i documenti direttamente in Markdown e perdono la connessione al contenuto di origine, l'esclusivo metodo di Granite-Docling per tradurre fedelmente elementi strutturali complessi rende il suo output ideale per le applicazioni RAG a valle.
Granite-Docling è stato sviluppato dal team della celebre libreria open source Docling, che ha compiuto un anno all'inizio di questo mese. Docling fornisce strumenti, modelli e un'interfaccia a riga di comando per la conversione dei documenti, oltre all'integrazione plug-and-play con i workflow di agentic AI. Mentre la libreria Docling consente pipeline di ensemble personalizzabili, Granite-Docling è un singolo VLM con 258 milioni di parametri che analizza ed elabora i documenti in un colpo solo.
Il nuovo Granite-Docling è un'evoluzione pronta per il mercato del modello sperimentale SmolDocling-256M-preview rilasciato da IBM Research in collaborazione con Hugging Face nel marzo 2025. Granite-Docling sostituisce il backbone del linguaggio SmollM-2 utilizzato per SmoldoCling con un'architettura basata su Granite 3 e sostituisce l'encoder visivo SigLip con il SigLip2 aggiornato, ma per il resto mantiene la metodologia generale di SmoldoCling (pur superandone le prestazioni).
Fondamentalmente, Granite-Docling affronta alcune instabilità presenti in SmoldoCling-256M-Preview, come la tendenza occasionale a rimanere bloccati in cicli di ripetizione dello stesso token in un determinato punto di una pagina. Sebbene alcune imperfezioni siano inevitabili in qualsiasi modello, per consentire un utilizzo affidabile su larga scala a livello aziendale serve la certezza che nessun errore individuale possa compromettere il workflow stesso. IBM Research ha mitigato queste instabilità per Granite-Docling attraverso un'approfondita operazione di filtraggio e pulizia dei set di dati per rimuovere i campioni con annotazioni incoerenti o mancanti, nonché eventuali campioni con irregolarità che introducevano ambiguità controproducenti.
Come SmoldoCling prima di esso, Granite-Docling acquisisce con precisione il contenuto e la struttura dei documenti con una frazione dei requisiti computazionali della maggior parte delle soluzioni della concorrenza. Le valutazioni delle prestazioni sulla base dei benchmark comuni per la comprensione dei documenti sono fornite nella scheda del modello Hugging Face di Granite-Docling-258M.
Al centro dell'efficacia di Granite-Docling c'è DocTags, un formato di markup universale sviluppato da IBM Research che acquisisce e descrive tutti gli elementi della pagina (grafici, tabelle, moduli, codice, equazioni, note a piè di pagina, didascalie e altro ancora), nonché la loro relazione contestuale tra di essi e la loro posizione all'interno del layout di un documento.
I linguaggi di markup generici come HTML o Markdown non sono stati progettati per attività “da immagini a sequenza” come la conversione dei documenti e hanno un vocabolario limitato per descrivere gli attributi molto specifici necessari per rendere accuratamente molti elementi comuni di PDF, presentazioni e infografiche. Pertanto, la conversione diretta in linguaggi di markup comuni è tipicamente soggetta a perdite e ambiguità, aumentando il numero totale di token e limitando la capacità di preservare gli elementi strutturali.
DocTags definisce un vocabolario strutturato di tag e regole non ambigui che separano esplicitamente il contenuto testuale dalla struttura del documento, riducendo al minimo sia la confusione che l'utilizzo dei token. Ciò consente a Granite-Docling di isolare ogni elemento, descriverne la posizione specifica nella pagina e quindi eseguire l'OCR al suo interno. Può anche descrivere in modo conciso le relazioni tra i diversi elementi, come l'ordine di lettura o la gerarchia corretti, ad esempio collegando una didascalia alla figura/tabella corrispondente.
DocTags è ottimizzato per la leggibilità dei LLM. Dopo che Granite-Docling ha prodotto l'output dei documenti originali in DocTags, questi possono essere facilmente convertiti direttamente in Markdown, JSON o HTML (o inseriti in una pipeline della libreria Docling), semplificando il processo di conversione dei documenti proprietari in set di dati di alta qualità per la messa a punto di altri LLM o il miglioramento delle risposte degli LLM attraverso Retrieval-Augmented Generation (RAG).
SmolDocling-256-preview è stato addestrato su un corpus in lingua inglese, ma può ragionevolmente gestire documenti creati in qualsiasi lingua con caratteri latini standard. Dopotutto, il modello deve solo essere in grado di analizzare e trascrivere il testo del documento, e non (necessariamente) di comprenderlo. Tuttavia, questo ovviamente esclude le lingue che non utilizzano i caratteri latini, il che limita l'utilità di SmolDocling in molte parti del mondo.
L'intento di IBM è rendere Granite-Docling il più universalmente utile possibile. A tal fine, Granite-Docling offre funzionalità multilingue sperimentali in altre lingue di destinazione, tra cui arabo, cinese e giapponese, con l'obiettivo di estendere Granite-Docling ad altri degli alfabeti più utilizzati al mondo.
Sebbene queste capacità multilingue siano in una fase iniziale e sperimentale e non siano ancora state convalidate per prestazioni o stabilità di livello enterprise, rappresentano un passo essenziale verso l'ampliamento dell'utilità globale di Granite-Docling. L'espansione e il consolidamento delle funzionalità multilingue di Granite-Docling saranno una priorità fondamentale per le future iterazioni dell'ecosistema Docling.
Granite-Docling è concepito per integrare la libreria Docling, anziché sostituirla. Ogni soluzione ha i propri punti di forza e casi d'uso particolari. Per ottenere risultati ottimali, si consiglia di utilizzare Granite-Docling all'interno del framework Docling.
La libreria Docling è un livello software completamente personalizzabile per creare pipeline di ensemble a partire da modelli specializzati, come Tableformer, parser di codice, parser di equazioni, modelli di visione, modelli ASR, modelli OCR dedicati e LLM generalisti, per la conversione di documenti. Il modello Granite-Docling stesso può essere utilizzato nell'ambito di una pipeline VLM più ampia in Docling. Il toolkit della libreria Docling facilita anche direttamente l'integrazione con servizi esterni, come database vettoriali o workflow agentici. Per questo motivo, la libreria Docling offre in genere una maggiore personalizzazione e la possibilità di scegliere tra una varietà di modelli adatti al proprio scopo.
Granite-Docling può rappresentare un'aggiunta preziosa alle pipeline di Docling, sostituendo più modelli monouso con un VLM compatto che consolida le caratteristiche principali, tra cui l'analisi multilingue, che preserva la struttura e il layout del linguaggio naturale e di una serie di modalità di dati come codice ed equazioni complesse, in un unico modello specializzato per la versione del documento.
Dal punto di vista teorico, la conversione dei documenti in un unico passaggio riduce anche il rischio di accumulare errori. Ad esempio, mentre una tabella posizionata in modo errato in una fase iniziale di una pipeline di ensemble potrebbe distorcere o compromettere la capacità di estrarre il contenuto della tabella nelle fasi successive, Granite-Docling riprodurrà correttamente la tabella anche se si trova nella posizione sbagliata. Detto questo, il suo utilizzo all'interno del più ampio framework Docling combina la notevole precisione e l'efficienza dei costi del modello stesso con le funzioni di personalizzazione, integrazione e gestione degli errori della libreria Docling.
Lo sviluppo di Granite-Docling e della libreria Docling è stato e continuerà ad essere guidato dal feedback della attiva community di Docling. Come per il suo predecessore SmoldoCling, l'obiettivo di IBM Research nel rilascio del nuovo modello Granite-Docling è raccogliere il feedback della community per poter guidare il continuo perfezionamento e l'espansione delle funzionalità di Docling per le versioni future.
Le iniziative in corso o programmate per Docling includono:
Granite-Docling-258M è ora disponibile tramite una licenza Apache 2.0 standard su Hugging Face. Per ulteriori informazioni su Granite-Docling, comprese le valutazioni delle prestazioni su una serie di benchmark di comprensione dei documenti e istruzioni per l'esecuzione del modello all'interno di una pipeline Docling, vai alla scheda del modello Hugging Face di Granite-Docling.
Per saperne di più su Docling e Granite-Docling, puoi anche visitare docling.ai o consultare i seguenti tutorial e risorse:
