Granite-Docling dibangun khusus untuk konversi dokumen yang akurat dan efisien, tidak seperti kebanyakan pendekatan berbasis VLM untuk pengenalan karakter optik (OCR) yang bertujuan untuk mengadaptasi model tujuan umum yang luas untuk tugas tersebut. Bahkan pada parameter 258M yang sangat ringkas, kemampuan Granite-Docling menyaingi kemampuan sistem dengan kapasitas beberapa kali lebih besar, membuatnya sangat hemat biaya. Model ini lebih dari sekadar ekstraksi teks: model ini menangani operasi matematika dan kode inline dan floating, unggul dalam mengenali struktur tabel dan mempertahankan tata letak dan struktur dokumen asli. Model OCR konvensional mengonversi dokumen langsung ke Markdown dan kehilangan koneksi ke konten sumber, sedangkan metode unik Granite-Docling untuk menerjemahkan elemen struktural kompleks dengan akurat membuat output ideal untuk aplikasi RAG hilir.

Granite-Docling dikembangkan oleh tim di balik pustaka Docling sumber terbuka yang terkenal, yang berusia satu tahun awal bulan ini. Docling menyediakan alat, model, dan antarmuka baris perintah untuk konversi dokumen, serta Integrasi plug-and-play dengan alur kerja AI agen. Pustaka Docling memungkinkan pipeline ansambel yang dapat disesuaikan, sedangkan Granite-Docling adalah VLM parameter 258M tunggal yang mengurai dan memproses dokumen dalam satu langkah.

Granite-Docling baru adalah evolusi yang siap diluncurkan dari model pratinjau eksperimental Smoldocling-256M yang dirilis oleh IBM Research dalam kemitraan dengan Hugging Face pada Maret 2025. Granite-Docling menggantikan bahasa utama SmolLM-2 yang digunakan untuk SmolDocling dengan arsitektur berbasis Granite 3 dan menggantikan encoder visual SigLIP dengan SigLIP2 yang diperbarui, tetapi mempertahankan metodologi umum SmolDocling (yang melebihi kinerjanya).

Yang terpenting, Granite-Docling mengatasi ketidakstabilan tertentu yang ada di SmolDocling-256M-preview, seperti kecenderungan untuk sesekali tertahan dalam siklus pengulangan token yang sama di tempat tertentu dari halaman. Sementara beberapa ketidaksempurnaan tidak dapat dihindari dari model apa pun, penggunaan yang andal dalam skala besar untuk perusahaan membutuhkan keyakinan bahwa tidak ada satu kesalahan yang akan menggagalkan alur kerja itu sendiri. IBM Research mengurangi ketidakstabilan ini untuk Granite-Docling melalui penyaringan dan pembersihan kumpulan data yang besar untuk menghapus sampel dengan anotasi yang tidak konsisten atau tidak tersedia, serta sampel dengan penyimpangan yang menimbulkan ambiguitas kontraproduktif.

Seperti SmoldoCling sebelumnya, Granite-Docling secara akurat menangkap konten dan struktur dokumen pada sebagian kecil dari persyaratan komputasi dari penawaran paling kompetitif. Evaluasi kinerja pada tolok ukur pemahaman dokumen umum disediakan dalam kartu model Hugging Face Granite-Docling-258M.