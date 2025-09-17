Hari ini, IBM merilis Granite-Docling-258M, model bahasa visi (VLM) sumber terbuka yang sangat ringkas dan mutakhir untuk mengonversi dokumen ke format yang dapat dibaca mesin sambil sepenuhnya mempertahankan tata letak, tabel, persamaan, daftar, dan banyak lagi. Model ini sekarang tersedia di Hugging Face melalui lisensi Apache 2.0 standar.
Granite-Docling dibangun khusus untuk konversi dokumen yang akurat dan efisien, tidak seperti kebanyakan pendekatan berbasis VLM untuk pengenalan karakter optik (OCR) yang bertujuan untuk mengadaptasi model tujuan umum yang luas untuk tugas tersebut. Bahkan pada parameter 258M yang sangat ringkas, kemampuan Granite-Docling menyaingi kemampuan sistem dengan kapasitas beberapa kali lebih besar, membuatnya sangat hemat biaya. Model ini lebih dari sekadar ekstraksi teks: model ini menangani operasi matematika dan kode inline dan floating, unggul dalam mengenali struktur tabel dan mempertahankan tata letak dan struktur dokumen asli. Model OCR konvensional mengonversi dokumen langsung ke Markdown dan kehilangan koneksi ke konten sumber, sedangkan metode unik Granite-Docling untuk menerjemahkan elemen struktural kompleks dengan akurat membuat output ideal untuk aplikasi RAG hilir.
Granite-Docling dikembangkan oleh tim di balik pustaka Docling sumber terbuka yang terkenal, yang berusia satu tahun awal bulan ini. Docling menyediakan alat, model, dan antarmuka baris perintah untuk konversi dokumen, serta Integrasi plug-and-play dengan alur kerja AI agen. Pustaka Docling memungkinkan pipeline ansambel yang dapat disesuaikan, sedangkan Granite-Docling adalah VLM parameter 258M tunggal yang mengurai dan memproses dokumen dalam satu langkah.
Granite-Docling baru adalah evolusi yang siap diluncurkan dari model pratinjau eksperimental Smoldocling-256M yang dirilis oleh IBM Research dalam kemitraan dengan Hugging Face pada Maret 2025. Granite-Docling menggantikan bahasa utama SmolLM-2 yang digunakan untuk SmolDocling dengan arsitektur berbasis Granite 3 dan menggantikan encoder visual SigLIP dengan SigLIP2 yang diperbarui, tetapi mempertahankan metodologi umum SmolDocling (yang melebihi kinerjanya).
Yang terpenting, Granite-Docling mengatasi ketidakstabilan tertentu yang ada di SmolDocling-256M-preview, seperti kecenderungan untuk sesekali tertahan dalam siklus pengulangan token yang sama di tempat tertentu dari halaman. Sementara beberapa ketidaksempurnaan tidak dapat dihindari dari model apa pun, penggunaan yang andal dalam skala besar untuk perusahaan membutuhkan keyakinan bahwa tidak ada satu kesalahan yang akan menggagalkan alur kerja itu sendiri. IBM Research mengurangi ketidakstabilan ini untuk Granite-Docling melalui penyaringan dan pembersihan kumpulan data yang besar untuk menghapus sampel dengan anotasi yang tidak konsisten atau tidak tersedia, serta sampel dengan penyimpangan yang menimbulkan ambiguitas kontraproduktif.
Seperti SmoldoCling sebelumnya, Granite-Docling secara akurat menangkap konten dan struktur dokumen pada sebagian kecil dari persyaratan komputasi dari penawaran paling kompetitif. Evaluasi kinerja pada tolok ukur pemahaman dokumen umum disediakan dalam kartu model Hugging Face Granite-Docling-258M.
Inti dari keampuhan Granite-Docling adalah DocTags, sebuah format markup universal yang dikembangkan oleh IBM Research yang mencatat dan mendeskripsikan semua elemen halaman—grafik, tabel, formulir, kode, persamaan, catatan kaki, keterangan, dan banyak lagi—serta hubungan kontekstual komponen tersebut satu sama lain dan lokasinya di dalam tata letak dokumen.
Bahasa markup tujuan umum seperti HTML atau Markdown tidak dirancang untuk tugas-tugas gambar-ke-urutan seperti konversi dokumen dan memiliki kosakata yang terbatas untuk mendeskripsikan atribut yang sangat spesifik yang diperlukan untuk merender banyak elemen umum PDF, slide presentasi, dan infografis secara akurat. Dengan demikian, konversi langsung ke bahasa markup umum biasanya bersifat lossy dan ambigu, sehingga meningkatkan jumlah total token dan membatasi kemampuan untuk mempertahankan elemen struktural.
DocTags mendefinisikan kosakata terstruktur dari tag dan aturan yang tidak ambigu yang secara eksplisit memisahkan konten tekstual dari struktur dokumen, sehingga meminimalkan kebingungan dan penggunaan token. Hal ini memungkinkan Granite-Docling untuk mengisolasi setiap elemen, mendeskripsikan lokasi spesifiknya pada halaman, dan kemudian melakukan OCR di dalamnya. Hal ini juga dapat secara ringkas menggambarkan hubungan antara elemen yang berbeda, seperti urutan hierarki pembacaan yang tepat—misalnya, menautkan keterangan ke gambar/tabel yang sesuai.
DocTags dioptimalkan untuk keterbacaan LLM. Setelah Granite-Docling mengeluarkan dokumen asli dalam DocTags, dokumen tersebut dapat dengan mudah dikonversi langsung ke dalam Markdown, JSON, atau HTML (atau dimasukkan ke dalam pipeline pustaka Docling), sehingga menyederhanakan proses konversi dokumen kepemilikan menjadi kumpulan data berkualitas tinggi untuk menyempurnakan LLM lain atau meningkatkan respons LLM melalui Retrieval-Augmented Generation (RAG).
SmolDocling-256-preview dilatih menggunakan korpus berbahasa Inggris, tetapi dapat menangani dokumen yang ditulis dalam bahasa apa pun yang menggunakan karakter Latin standar. Lagi pula, model hanya perlu dapat mengurai dan menyalin teks dokumen—tidak (harus) memahaminya. Namun, ini jelas menghilangkan bahasa yang tidak menggunakan aksara Latin, yang membatasi utilitas SmolDocling di banyak tempat di dunia.
Tujuan IBM adalah membuat Granite-Docling bermanfaat secara universal semaksimal mungkin. Untuk itu, Granite-Docling menawarkan kemampuan multibahasa eksperimental di seluruh bahasa target tambahan yang mencakup bahasa Arab, Cina , dan Jepang, dengan tujuan memperluas Granite-Docling ke lebih banyak lagi abjad yang paling banyak digunakan di dunia.
Meskipun kemampuan multibahasa ini berada dalam tahap awal, eksperimental dan belum divalidasi untuk kinerja atau stabilitas yang sesuai untuk perusahaan, kemampuan ini menunjukkan langkah penting menuju perluasan utilitas global Granite-Docling. Memperluas dan memperkuat kemampuan multibahasa Granite-Docling akan menjadi prioritas utama untuk iterasi ekosistem Docling di masa depan.
Granite-Docling dimaksudkan untuk melengkapi pustaka Docling, bukan mengganti atau memperbaruinya. Masing-masing memiliki kekuatan dan contoh penggunaan khusus sendiri. Untuk mendapatkan hasil yang optimal, sebaiknya gunakan Granite-Docling dalam kerangka kerja Docling.
Pustaka Docling adalah lapisan perangkat lunak yang sepenuhnya dapat disesuaikan untuk membangun pipeline ansambel dari model khusus—seperti Tableformers, pengurai kode, pengurai persamaan, model visi, model ASR, model OCR khusus, dan LLM umum—untuk konversi dokumen. Model Granite-Docling itu sendiri dapat berfungsi sebagai bagian dari pipeline VLM yang lebih besar di Docling. Toolkit pustaka Docling juga secara langsung memfasilitasi integrasi dengan layanan eksternal, seperti basis data vektor atau alur kerja agen. Dengan demikian, pustaka Docling secara umum menyediakan penyesuaian yang lebih besar dan kemampuan untuk memilih dari berbagai model yang sesuai dengan tujuan pengguna.
Granite-Docling dapat memberikan tambahan yang tak ternilai pada pipeline Docling, menggantikan beberapa model tujuan tunggal dengan VLM ringkas yang mengonsolidasikan fitur-fitur utama—termasuk penguraian multibahasa yang mempertahankan struktur dan tata letak terhadap bahasa alami dan berbagai modalitas data, seperti kode dan persamaan kompleks—ke dalam satu model yang dikhususkan untuk versi dokumen.
Secara teoretis, mengonversi dokumen dalam satu pass juga mengurangi potensi akumulasi kesalahan. Misalnya, sementara tabel yang salah lokasi pada tahap awal dalam pipeline ansambel dapat mendistorsi atau menggagalkan kemampuan untuk mengekstrak konten tabel pada tahap selanjutnya, Granite-Docling akan mereproduksi tabel dengan benar meskipun berada di lokasi yang salah. Dengan demikian, menggunakannya dalam kerangka kerja Docling yang lebih besar menggabungkan akurasi dan efisiensi biaya yang luar biasa dari model itu sendiri dengan fungsi penyesuaian, integrasi, dan penanganan kesalahan dari pustaka Docling.
Pengembangan Granite-Docling dan pustaka Docling telah dan akan terus dilakukan berdasarkan masukan dari komunitas Docling yang dinamis. Seperti pendahulunya SmolDocling, tujuan IBM Research dalam merilis model Granite-Docling baru adalah untuk mengumpulkan masukan komunitas yang dapat mendasari penyempurnaan berkelanjutan dan perluasan kemampuan Docling untuk rilis mendatang.
Inisiatif yang sedang berlangsung atau direncanakan untuk Docling meliputi:
Granite-Docling-258M sekarang tersedia melalui lisensi Apache 2.0 standar di Hugging Face. Untuk informasi lebih lanjut mengenai Granite-Docling, termasuk evaluasi kinerja pada serangkaian tolok ukur pemahaman dokumen dan petunjuk untuk menjalankan model dalam pipeline Docling, kunjungi kartu model Hugging Face dari Granite-Docling.
Untuk mempelajari lebih lanjut tentang Docling dan Granite-Docling, Anda juga dapat mengunjungi docling.ai atau lihat tutorial dan sumber daya berikut:
