تعمل DataStax Astra DB على IBM watsonx.data على تبسيط وصول الآلات وتطوير التطبيقات على قاعدة المعرفة التي تضم 120 مليون إدخال، مع زيادة سرعة الاستعلام 30 ضعفًا وتقليل وقت البناء بنسبة 90%.
تُعرَف Wikipedia بشموليتها، وسهولة الوصول إليها، والثقة التي اكتسبتها. السر وراء هذه الخصائص هو إنشاء Wikipedia وصيانتها عبر مجتمع المستخدمين. هذا التجميع الضخم للمعرفة -الذي يشمل 300 لغة و25 مليار مشاهدة شهريًا- يشكِّل مصدرًا موثوقًا به وتعاونيًا ومفتوحًا للمعلومات يستخدمه عدد لا يحصى من الأشخاص يوميًا.
ومع ذلك، مع صعود الذكاء الاصطناعي، أصبح الوصول الآلي يمثِّل تحديًا جديدًا للمؤسسات التي تطوِّر وتدعم Wikipedia. كانت Wikidata، المنصة المرتبطة والمفتوحة التي تُتيح بيانات Wikipedia لآلاف المطورين في مجال المصادر المفتوحة، بحاجة إلى جعل هذا الرسم البياني المعرفي الضخم متعدد اللغات (الذي يضم نحو 120 مليون إدخال و2.4 مليار تعديل حتى الآن) أكثر سهولة واستخدامًا من قِبل النماذج اللغوية الكبيرة (LLMs).
بعد تجربة عدة قواعد بيانات متجهات، توجَّهت Wikimedia Deutschland، المؤسسة المسؤولة عن تطوير Wikidata، إلى DataStax Astra DB على IBM watsonx.data. بالمقارنة مع حساب المتجهات محليًا، عززت Astra DB ذات قابلية التوسع العالية وزمن الانتقال القصير سرعة الاستعلام -وهو عامل حاسم لتطبيقات التوليد المعزز بالاسترجاع (RAG)- بنحو 30 ضعفًا. شهد وقت التطوير في Wikimedia Deutschland انخفاضًا بنسبة 90%، إذ يمكن لفريق التطوير الآن التركيز على الابتكار بدلًا من استضافة وصيانة البنية التحتية للبيانات.
تعتمد حالة استخدام Wikimedia على حقيقة أن اعتماد النماذج اللغوية الكبيرة (LLMs) في تزايد، وأن الفِرق تريد استخدام بيانات موثوق بها لجعل الذكاء الاصطناعي التوليدي أكثر موثوقية وشفافية. كما تريد منح المجتمع مزيدًا من التحكم في البيانات التي يتم الرجوع إليها.
لكن الوصول كان يمثِّل عقبة: يتم الوصول إلى Wikidata بشكل أساسي عبر SPARQL (لغة استعلام دلالية). إنها أداة قوية، لكنها تتطلب من المستخدمين تعلُّم لغة الاستعلام وبنية Wikidata الخاصة بالمجال.
سعت Wikimedia إلى طريقة أبسط لتمكين المطورين من استكشاف العناصر ذات الصلة واسترجاعها قبل كتابة استعلامات الرسم البياني الدقيقة.
أدى بناء طبقة واجهة برمجة التطبيقات فوق قاعدة بيانات متجهات إلى توفير هذا الوصول للمطورين، وبالتالي دعم التطبيقات التابعة. تشمل هذه التطبيقات تجارب مستخدم متعددة اللغات (مثل OpenStreetMap) ومحركات بحث تحتاج إلى سياق سريع وموثوق به، مثل المعلومات عن المتاحف والكتب والمؤسسات الثقافية.
ويساعد هذا على تقليل الوقت المستغرق في صياغة الاستعلامات المعقدة، والتخفيف من منحنى التعلم للمطورين الجدد، وتسريع تكرار تطوير أنظمة مسارات التوليد المعزز بالاسترجاع.
توفِّر طبقة واجهة برمجة التطبيقات في Wikidata وصول الآلات إلى قاعدة بيانات المتجهات عبر مسارين:
يبدأ مسار البحث باستعلام بلغة طبيعية مع مَعلمات التكوين، ويقوم بتنفيذ بحث هجين من خلال الجمع بين:
يتم دمج نتائج البحث بالكلمات المفتاحية وبالمتجهات باستخدام دمج الترتيب المتبادل، وهي طريقة بسيطة تكافئ العناصر ذات الترتيب العالي والتي تظهر في القائمتين.
أخيرًا، تضيف Wikimedia خطوة إعادة الترتيب الاختيارية. عند تفعيلها، يستدعي النظام واجهة برمجة تطبيقات Wikidata لجلب أحدث معلومات العناصر، ثم يطبق نموذج إعادة ترتيب Jina.ai لإعادة ترتيب النتائج حسب الصلة. تُعَد خطوة إعادة الترتيب اختيارية عمدًا، لأنه في بعض حالات استخدام RAG يتم تمرير القائمة الكاملة إلى النموذج اللغوي الكبير (LLM) ويصبح الترتيب أقل أهمية. يمكن للمستخدمين تخطي خطوة إعادة الترتيب للحصول على أوقات استجابة أسرع.
قاعدة بيانات المتجهات Astra DB مقسَّمة حسب:
يبدأ مسار درجة التشابه باستعلام بلغة طبيعية وقائمة من كيانات Wikidata يحددها المستخدم. بدلًا من استرجاع المرشحين، يقيس النظام مدى قرب كل كيان مقدَّم من الاستعلام.
تبدأ العملية بتمثيل الاستعلام باستخدام نموذج Jina.ai نفسه. ثم تبحث في المتجهات المخزَّنة للكيانات المحددة في Astra DB وتحسب درجات التشابه بينها وبين متجه الاستعلام.
يدعم هذا المسار تطبيقات مثل التصنيف، وربط الكيانات، أو توضيح الكيانات المسماة، حيث يمكن للأنظمة اللاحقة استخدام درجات التشابه مباشرةً لاختيار أفضل تسمية أو تحديد الكيان الذي تُشير إليه الإشارة.
تعمل عناصر واجهة برمجة التطبيقات (API) على Wikimedia Cloud Services، وهي بنية تحتية مستضافة من قبل Wikimedia Foundation. ترتبط أسباب Wikimedia لاستضافة بنيتها التحتية الخاصة بالخصوصية، بما في ذلك حماية مجتمع المساهمين وتحمُّل مسؤولية إدارة البيانات. كما أنها مرتبطة بالتحكم في مكان ونوع المعلومات المخزَّنة ومن يمكنه الوصول إليها.
يهدف هذا المشروع في النهاية إلى جعل أصل المعرفة الأساسي، الذي يُعَاد استخدامه على نطاق واسع، أسهل في الاستخدام ضمن مسارات الذكاء الاصطناعي الحديثة - دون الحاجة إلى أن يصبح كل مطور خبيرًا في استعلامات الرسوم البيانية أولًا.
الاعتماد على Astra DB أسفر عن بعض الفوائد الواضحة:
اكتشفت Wikimedia أيضًا رؤى مهمة متعددة اللغات: في البداية، بدا إنشاء متجهات منفصلة لكل لغة أمرًا مكررًا، لكن التجارب أظهرت تحسُّن الدقة مع دمج المزيد من اللغات. أشارت النتائج إلى أن طريقة التضمين التمثيلي التقطت الفروق الدقيقة في اللغة بدلًا من الاكتفاء بالترجمة الحرفية.
قامت Wikimedia بترويج إطلاق هذه الواجهة البرمجية في أكتوبر 2025، وهي ملتزمة بتحديثها باستمرار لتحسين الوصول إلى بيانات الأساس لخدمة مستخدمي Wikidata ومطوِّري الذكاء الاصطناعي.
تركِّز الخطوات التالية لـ Wikimedia على توسيع نطاق اللغات المدعومة، وتشجيع الاستخدام العملي، وجمع ملاحظات المطوّرين الذين يبنون تطبيقاتهم على Astra DB. تهدف Wikimedia أيضًا إلى الاستمرار في تطوير تكامل بروتوكول سياق النموذج (MCP) لـ Wikidata، الذي يستخدم Astra DB لدعم الاستكشاف مع الحفاظ على دقة استعلامات الرسوم البيانية. تستكشف Wikimedia أيضًا تقنيات RAG المتقدمة، بما في ذلك GraphRAG، التي تدمج البيانات المنظمة على شكل رسوم بيانية للتعامل مع الاستعلامات المعقدة جدًا.
من خلال فصل طبقة واجهة برمجة التطبيقات، ودمج استرجاع الكلمات المفتاحية والمتجهات، وجعل إعادة الترتيب اختيارية، أنشأت Wikimedia مسارًا مرنًا يمكنه خدمة كلٌّ من الاستكشاف التفاعلي وتدفقات الاسترجاع الإنتاجية للذكاء الاصطناعي. وقد تم ذلك دون إجبار Wikimedia على إعادة بناء بنيتها التحتية الأساسية أو تعديل سياسات الحوكمة لديها.
توفِّر ميزة قاعدة بيانات المتجهات المدارَة، والأداء، وإمكانية التوسع، وتقليل عبء التطوير عند استخدام Astra DB، دعماً لـ Wikimedia للتحرك بسرعة مع الحفاظ على التركيز على نتائج المستخدم. تعني هذه النتائج استرجاعًا أفضل، واستجابات أسرع، وإمكانية وصول مبسَّطة إلى Wikidata للمطورين الذين يبنون الجيل القادم من التجارب المدعومة بالذكاء الاصطناعي.