اليوم، تطلق IBM نموذج Granite-Docling-258M، وهو نموذج لغة-رؤية مفتوح المصدر مضغوط للغاية ومتقدم، لتحويل المستندات إلى صيغ قابلة للمعالجة آليًا مع الحفاظ الكامل على التخطيط والجداول والمعادلات والقوائم وغيرها. وهو متاح الآن على Hugging Face من خلال ترخيص Apache 2.0 القياسي.
تم تصميم Granite-Docling خصيصًا لتحويل المستندات بدقة وكفاءة، على عكس معظم النُهج المعتمدة على VLM للتعرُّف الضوئي على الأحرف (OCR) التي تسعى إلى تكييف نماذج عامة وكبيرة لهذا الغرض. حتى مع حجم صغير جدًا يبلغ 258 مليون مَعلمة، تنافِس قدرات Granite-Docling أنظمة تفوقه حجمًا عدة مرات، ما يجعله فعَّالًا من حيث التكلفة بشكل كبير. يتجاوز النموذج مجرد استخراج النصوص: فهو يتعامل مع المعادلات والكود سواء أكانت ضمن النص أم عائمة، ويتفوق في التعرُّف على هيكل الجداول، ويحافظ على تخطيط المستند الأصلي وبنيته. بينما تعمل نماذج OCR التقليدية على تحويل المستندات مباشرةً إلى Markdown وتفقد الصلة بالمحتوى الأصلي، فإن طريقة Granite-Docling الفريدة في ترجمة العناصر المنظمة المعقدة بدقة تجعل مخرجاته مثالية لتطبيقات RAG اللاحقة.
تم تطوير Granite-Docling من قِبَل الفريق المسؤول عن مكتبة Docling مفتوحة المصدر الشهيرة، التي أتمَّت عامها الأول في وقت سابق من هذا الشهر. توفِّر Docling الأدوات والنماذج وواجهة سطر الأوامر لتحويل المستندات، بالإضافة إلى إمكانية التكامل الفوري مع مهام سير عمل الذكاء الاصطناعي الوكيل. بينما تُتيح مكتبة Docling إنشاء مسارات متكاملة قابلة للتخصيص، يُعَد Granite-Docling نموذج VLM واحدًا بـ 258 مليون مَعلمة يعمل على تحليل المستندات ومعالجتها في خطوة واحدة.
يُعَد Granite-Docling الجديد تطورًا جاهزًا للاستخدام التجاري للنموذج التجريبي SmolDocling-256M-preview الذي أطلقته IBM Research بالتعاون مع Hugging Face في مارس 2025. يستخدم Granite-Docling بنية مبنية على Granite 3 بدلًا من العمود الفقري اللغوي SmolLM-2 المستخدم في SmolDocling، ويستخدم الإصدار المحدَّث SigLIP2 بدلًا من المشفِّر البصري SigLIP، لكنه يحتفظ بخلاف ذلك بالمنهجية العامة لـ SmolDocling مع تحسين أدائه.
والأهم من ذلك، يعالج Granite-Docling بعض حالات عدم الاستقرار التي كانت موجودة في SmolDocling-256M-preview، مثل ميله أحيانًا للدخول في حلقات تكرار نفس الرموز في موضع معين من الصفحة. رغم أن بعض العيوب أمر لا مفر منه في أي نموذج، فإن الاستخدام المؤسسي الموثوق به على نطاق واسع يتطلب التأكد من أن أي خطأ فردي لن يعرقل سير العمل نفسه. تمكَّنت IBM Research من تخفيف حالات عدم الاستقرار هذه في Granite-Docling من خلال تصفية وتنظيف مجموعات البيانات بشكل موسَّع لإزالة العينات ذات التعليقات التوضيحية غير المتسقة أو المفقودة، بالإضافة إلى أي عينات تحتوي على مخالفات تسبِّب غموضًا غير مرغوب فيه.
مثل SmolDocling السابق، يلتقط Granite-Docling محتوى المستند وبنيته بدقة مع استهلاك جزء بسيط فقط من الموارد الحاسوبية مقارنةً بمعظم الحلول المنافسة. يتم توفير تقييمات الأداء على معايير فهم المستندات الشائعة في بطاقة نموذج Granite-Docling-258M على Hugging Face.
الركيزة الأساسية لكفاءة Granite-Docling هي DocTags، وهو صياغة ترميزية شاملة طوّرتها IBM Research لتسجيل ووصف جميع عناصر الصفحة -مثل المخططات والجداول والنماذج والكود والمعادلات والحواشي التوضيحية والعناوين والمزيد- بالإضافة إلى علاقاتها السياقية مع بعضها ومواقعها ضمن تصميم المستند.
لم يتم تصميم لغات الترميز العامة مثل HTML أو Markdown لمهام تحويل الصور إلى تسلسل مثل تحويل المستندات، ولديها مفردات محدودة لوصف الخصائص الدقيقة المطلوبة لعرض العديد من عناصر PDF والعروض التقديمية والمخططات المعلوماتية (الإنفوجرافيك) بدقة. وعلى هذا النحو، فإن التحويل المباشر إلى لغات الترميز الشائعة يكون عادةً غامضًا وغير واضح، ما يؤدي إلى زيادة العدد الإجمالي للرموز المميزة والحد من القدرة على الحفاظ على العناصر المنظمة.
تحدِّد علامات DocTags مفردات منظمة من العلامات والقواعد التي لا لبس فيها والتي تفصِل بشكل واضح بين المحتوى النصي وبنية المستند، ما يقلل من الالتباس واستخدام الرموز المميزة. يُتيح هذا لـ Granite-Docling عزل كل عنصر، ووصف موقعه المحدد على الصفحة، ثم إجراء التعرُّف الضوئي على الأحرف (OCR) بداخله. كما يمكنه وصف العلاقات بين العناصر المختلفة بشكل موجز، مثل ترتيب القراءة الصحيح أو التسلسل الهرمي - على سبيل المثال، ربط التسمية التوضيحية بالشكل أو الجدول المقابل لها.
تم تحسين DocTags لتتمكَّن النماذج اللغوية الكبيرة (LLM) من قراءتها. بعد أن يقوم Granite-Docling بإنتاج المستند الأصلي أو المستندات بصيغة DocTags، يمكن تحويلها بسهولة مباشرةً إلى Markdown أو JSON أو HTML (أو إدخالها ضمن مسار لمكتبة Docling)، ما يبسِّط عملية تحويل المستندات الخاصة إلى مجموعات بيانات عالية الجودة لتدريب النماذج اللغوية الكبيرة الأخرى أو تحسين استجاباتها من خلال التوليد المعزز بالاسترجاع (RAG).
تم تدريب SmolDocling-256-preview على مجموعة نصوص باللغة الإنجليزية، لكنه قادر بشكل معقول على معالجة المستندات المكتوبة بأي لغة تستخدم الأحرف اللاتينية القياسية. فالنموذج يحتاج في النهاية فقط إلى القدرة على تحليل نص المستند ونسخه، دون الحاجة إلى فهمه بالضرورة. لكن هذا بالطبع يستثني اللغات التي لا تستخدم الحروف اللاتينية، ما يَحُدّ من فائدة SmolDocling في العديد من مناطق العالم.
تهدف IBM إلى جعل Granite-Docling مفيدًا على نطاق عالمي قدر الإمكان. ولتحقيق ذلك، يوفر Granite-Docling قدرات تجريبية متعددة اللغات تشمل لغات إضافية مثل العربية والصينية واليابانية، بهدف توسيع استخدامه ليشمل المزيد من أبجديات العالم الأكثر شيوعًا.
رغم أن هذه القدرات متعددة اللغات لا تزال في مرحلة مبكرة وتجريبية ولم يتم التحقق بعد من جاهزيتها أو استقرارها للاستخدام المؤسسي، فإنها تمثِّل خطوة أساسية نحو توسيع الفائدة العالمية لنموذج Granite-Docling. توسيع وتعزيز القدرات متعددة اللغات لنموذج Granite-Docling سيكون من الأولويات الرئيسية في النُسخ المستقبلية من منظومة Docling.
تم تصميم Granite-Docling ليكون مكمِّلًا لمكتبة Docling، دون أن يحل محلها أو يتفوق عليها. كل واحد منهم لديه نقاط القوة وحالات الاستخدام الخاصة به. للحصول على أفضل النتائج، نوصي باستخدام Granite-Docling ضمن إطار عمل Docling.
مكتبة Docling هي طبقة برمجية قابلة للتخصيص بالكامل لبناء مسارات متكاملة من نماذج متخصصة -مثل Tableformers، ومحلِّلات الكود، ومحلِّلات المعادلات، ونماذج الرؤية، ونماذج التعرُّف على الكلام، ونماذج التعرُّف الضوئي على الأحرف المخصصة، والنماذج اللغوية الكبيرة العامة- لاستخدامها في تحويل المستندات. يمكن أن يعمل نموذج Granite-Docling نفسه كجزء من مسار VLM أكبر ضمن Docling. تُتيح أدوات مكتبة Docling أيضًا التكامل المباشر مع الخدمات الخارجية، مثل قواعد بيانات المتجهات أو مهام سير العمل الوكيلة. وبذلك، توفِّر مكتبة Docling عمومًا إمكانيات تخصيص أكبر والقدرة على الاختيار من بين مجموعة متنوعة من النماذج لتناسب الأغراض المختلفة.
يمكن أن يشكِّل Granite-Docling إضافة قيّمة لمسارات Docling، حيث يحل محل عدة نماذج أحادية الغرض بنموذج VLM مضغوط يجمع الميزات الأساسية -بما في ذلك التحليل متعدد اللغات مع الحفاظ على البنية والتخطيط لكلٍّ من اللغة الطبيعية ومجموعة متنوعة من بيانات مثل الكود والمعادلات المعقدة- في نموذج واحد مخصص لإصدارات المستندات.
من الناحية النظرية، يقلِّل تحويل المستندات في تمريرة واحدة أيضًا من احتمال تراكم الأخطاء. على سبيل المثال، بينما قد يؤدي وضع جدول في مكان خطأ في مرحلة مبكرة من مسار متكامل إلى تشويه أو تعطيل القدرة على استخراج محتوى الجدول في المراحل اللاحقة، يضمن Granite-Docling إعادة إنتاج الجدول بشكل صحيح حتى لو كان في موقع غير مناسب. ومع ذلك، فإن استخدامه ضمن إطار Docling الأكبر يجمع بين دقة النموذج وكفاءته من حيث التكلفة من جهة، وبين وظائف التخصيص والتكامل ومعالجة الأخطاء لمكتبة Docling من جهة أخرى.
تم تطوير كلٍّ من Granite-Docling ومكتبة Docling، وسيستمر تطويرهما، استنادًا إلى الملاحظات والتعليقات من مجتمع Docling النشط. وكما هو الحال مع سلفه SmolDocling، تهدف IBM Research من خلال إصدار نموذج Granite-Docling الجديد إلى جمع ملاحظات وتعليقات المجتمع التي يمكن أن توجِّه التحسين المستمر وتوسيع قدرات Docling للإصدارات المستقبلية.
تشمل المبادرات الجارية أو المخطط لها لنموذج Docling ما يلي:
أصبح Granite-Docling-258M متاحًا الآن بموجب ترخيص Apache 2.0 القياسي على Hugging Face. للمزيد من المعلومات حول Granite-Docling، بما في ذلك تقييمات الأداء على مجموعة من معايير فهم المستندات وتعليمات تشغيل النموذج ضمن مسار Docling،انتقِل إلى بطاقة نموذج Granite-Docling على Hugging Face.
لمعرفة المزيد عن Docling وGranite-Docling، يمكنك أيضًا زيارة docling.ai أو الاطِّلاع على البرامج التعليمية والموارد التالية:
نماذج لغوية صغيرة مفتوحة المصدر توفِّر أداءً على مستوى المؤسسات وشفافية بسعر تنافسي.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.