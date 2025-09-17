تم تصميم Granite-Docling خصيصًا لتحويل المستندات بدقة وكفاءة، على عكس معظم النُهج المعتمدة على VLM للتعرُّف الضوئي على الأحرف (OCR) التي تسعى إلى تكييف نماذج عامة وكبيرة لهذا الغرض. حتى مع حجم صغير جدًا يبلغ 258 مليون مَعلمة، تنافِس قدرات Granite-Docling أنظمة تفوقه حجمًا عدة مرات، ما يجعله فعَّالًا من حيث التكلفة بشكل كبير. يتجاوز النموذج مجرد استخراج النصوص: فهو يتعامل مع المعادلات والكود سواء أكانت ضمن النص أم عائمة، ويتفوق في التعرُّف على هيكل الجداول، ويحافظ على تخطيط المستند الأصلي وبنيته. بينما تعمل نماذج OCR التقليدية على تحويل المستندات مباشرةً إلى Markdown وتفقد الصلة بالمحتوى الأصلي، فإن طريقة Granite-Docling الفريدة في ترجمة العناصر المنظمة المعقدة بدقة تجعل مخرجاته مثالية لتطبيقات RAG اللاحقة.

تم تطوير Granite-Docling من قِبَل الفريق المسؤول عن مكتبة Docling مفتوحة المصدر الشهيرة، التي أتمَّت عامها الأول في وقت سابق من هذا الشهر. توفِّر Docling الأدوات والنماذج وواجهة سطر الأوامر لتحويل المستندات، بالإضافة إلى إمكانية التكامل الفوري مع مهام سير عمل الذكاء الاصطناعي الوكيل. بينما تُتيح مكتبة Docling إنشاء مسارات متكاملة قابلة للتخصيص، يُعَد Granite-Docling نموذج VLM واحدًا بـ 258 مليون مَعلمة يعمل على تحليل المستندات ومعالجتها في خطوة واحدة.

يُعَد Granite-Docling الجديد تطورًا جاهزًا للاستخدام التجاري للنموذج التجريبي SmolDocling-256M-preview الذي أطلقته IBM Research بالتعاون مع Hugging Face في مارس 2025. يستخدم Granite-Docling بنية مبنية على Granite 3 بدلًا من العمود الفقري اللغوي SmolLM-2 المستخدم في SmolDocling، ويستخدم الإصدار المحدَّث SigLIP2 بدلًا من المشفِّر البصري SigLIP، لكنه يحتفظ بخلاف ذلك بالمنهجية العامة لـ SmolDocling مع تحسين أدائه.

والأهم من ذلك، يعالج Granite-Docling بعض حالات عدم الاستقرار التي كانت موجودة في SmolDocling-256M-preview، مثل ميله أحيانًا للدخول في حلقات تكرار نفس الرموز في موضع معين من الصفحة. رغم أن بعض العيوب أمر لا مفر منه في أي نموذج، فإن الاستخدام المؤسسي الموثوق به على نطاق واسع يتطلب التأكد من أن أي خطأ فردي لن يعرقل سير العمل نفسه. تمكَّنت IBM Research من تخفيف حالات عدم الاستقرار هذه في Granite-Docling من خلال تصفية وتنظيف مجموعات البيانات بشكل موسَّع لإزالة العينات ذات التعليقات التوضيحية غير المتسقة أو المفقودة، بالإضافة إلى أي عينات تحتوي على مخالفات تسبِّب غموضًا غير مرغوب فيه.

مثل SmolDocling السابق، يلتقط Granite-Docling محتوى المستند وبنيته بدقة مع استهلاك جزء بسيط فقط من الموارد الحاسوبية مقارنةً بمعظم الحلول المنافسة. يتم توفير تقييمات الأداء على معايير فهم المستندات الشائعة في بطاقة نموذج Granite-Docling-258M على Hugging Face.