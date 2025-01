Dalla scrittura creativa alla RAG, l'AI generativa è sostanzialmente un motore che funziona con i dati. Il vero potenziale dei modelli linguistici di grandi dimensioni non può essere realizzato se alcuni di questi dati sono salvati in formati che i modelli non sono in grado di riconoscere. Gli LLM sono una realtà piuttosto recente, ma questo problema non lo è: come dichiarava un titolo del Washington Post di dieci anni fa, "le soluzioni a tutti i nostri problemi potrebbero nascondersi in PDF che nessuno legge".

Ecco perché IBM Deep Search ha sviluppato Docling, un potente strumento per analizzare documenti nei formati più diffusi tra cui PDF, DOCX, immagini, PPTX, XLSX, HTML e AsciiDoc e convertirli in formati compatibili con i modelli come Markdown o JSON. Ciò consente a tali documenti, e alle informazioni in essi contenute, di essere facilmente accessibili per modelli come Granite, che possono utilizzarle per la RAG e altri workflow. Docling consente una facile integrazione con framework basati su agenti come LlamaIndex, LangChain e Bee, permettendo agli sviluppatori di incorporare la sua assistenza nel proprio ecosistema preferito.

Distribuito come open source con licenza MIT, Docling è una soluzione sofisticata che va oltre il semplice riconoscimento ottico dei caratteri (OCR) e l'estrazione di testo. Come spiega William Caban di Red Hat, Docling integra una serie di tecniche di pre-elaborazione contestuali e basate su elementi: se una tabella si estende su più pagine, Docling sa come estrarla come una singola tabella; se una determinata pagina combina corpo del testo, immagini e tabelle, ciascuna deve essere estratta separatamente in base al contesto originale.

Il team di Docling sta lavorando attivamente su funzioni aggiuntive, tra cui l'estrazione di equazioni e codice e l'estrazione di metadati. Per vedere Docling in azione, guarda questo tutorial su come creare un sistema di risposta alle domande sui documenti con Docling e Granite.