من الكتابة الإبداعية إلى استرجاع المعلومات المعزّز، يعتبر الذكاء الاصطناعي التوليدي في نهاية المطاف محركًا يعمل بالبيانات. لا يمكن تحقيق الإمكانات الحقيقية للنماذج اللغوية الكبيرة إذا كانت بعض تلك البيانات محصورة في تنسيقات لا تستطيع النماذج التعرف عليها. تُعد النماذج اللغوية الكبيرة حديثة إلى حد ما، ولكن المشكلة ليست كذلك: فكما جاء في عنوان صحيفة Washington Post منذ عقد من الزمن، "the solutions to all our problems may be buried in PDFs that nobody reads".

لهذا السبب طور IBM Deep Search أداة Docling، وهي أداة قوية لتحليل المستندات بتنسيقات شائعة مثل PDF وDOCX والصور وPPTX وXLSX وHTML وAsciiDoc وتحويلها إلى تنسيقات ملائمة للنماذج مثل Markdown أو JSON. يتيح ذلك سهولة الوصول إلى تلك المستندات - والمعلومات الموجودة فيها - عن طريق نماذج مثل Granite لأغراض استرجاع المعلومات المعزّز وغيرها من مهام سير العمل. يتيح Docling التكامل بسهولة مع أطر العمل القائمة على الوكلاء مثل LlamaIndex وLangChain وBee، ما يتيح للمطورين دمج مساعدته في النظام البنائي الذي يختارونه.

وفقًا لترخيص MIT المتساهل، تعد أداة Docling، مفتوحة المصدر حلاً متطورًا يتجاوز مجرد التعرف البصري على الحروف (OCR) واستخراج النصوص. وكما يوضح William Caban من Red Hat، فإن أداة Docling تدمج عددًا من تقنيات المعالجة المسبقة القائمة على السياق والعناصر: إذا كان الجدول يمتد على عدة صفحات، فإن Docling تعرف كيفية استخراجه في صورة جدول واحد؛ وإذا كانت صفحة معينة تخلط بين النص الأساسي والصور والجداول، فيجب استخراج كل منها على حِدةٍ وفقًا لسياقها الأصلي.

يعمل فريق تطوير Docling بنشاط على ميزات إضافية، بما في ذلك استخراج المعادلات والأكواد واستخراج البيانات الوصفية. للاطلاع على Docling في أثناء تنفيذ المهام، راجع هذا البرنامج التعليمي لبناء نظام للإجابة على أسئلة المستندات باستخدام Docling وGranite.