قاعدة بيانات Milvus هي قاعدة بيانات متجهية مفتوحة المصدر طورتها Zilliz. تشتهر Milvus بتوفير تخزين قابل للتوسع لكميات كبيرة من التضمينات المتجهة ودعم عمليات البحث عن التشابه عالية الأداء للبيانات المتجهة.
طوّرت Zilliz قاعدة بيانات Milvus لأول مرة في عام 2017 وأسهمت بالمشروع في مؤسسة ®Linux في عام 2020. أصبحت Milvus متاحة الآن كبرنامج مفتوح المصدر بموجب رخصة Apache 2.0 وكخدمة سحابية مُدارة بالكامل من Zilliz.
تقوم قواعد بيانات المتجهات بتخزين مجموعات البيانات وإدارتها في شكل متجهات. إذ يمكن أن تساعد المؤسسات على إدارة البيانات غير المنظمة، وهي ضرورية لجهود الذكاء الاصطناعي المتقدم (AI) والتعلم الآلي (ML).
المتجهات هي مصفوفات من الأرقام التي تمثل مفاهيم وعناصر معقدة، مثل الكلمات والصور.
تشكل البيانات غير المنظمة - مثل النصوص والفيديو والصوت - جزءًا كبيرًا من بيانات المؤسسة اليوم، ولكن قواعد البيانات التقليدية غالبًا ما تكون غير مناسبة لتنظيم هذه البيانات وإدارتها.
يمكن للمؤسسات تغذية هذه البيانات بنماذج تضمين التعلّم العميق المتخصصة، والتي تُخرج تمثيلات متجهة تسمى ”التضمينات“. على سبيل المثال، يمكن تمثيل كلمة ”cat" (قطة) بالمتجه [0.2، -0.4، 0.7]، بينما يمكن تمثيل كلمة ”dog" (كلب) بالمتجه [0.6، 0.1، 0.5].
يؤدي تحويل البيانات إلى متجهات إلى تمكين المؤسسات من تخزين أنواع مختلفة من البيانات غير المنظمة بتنسيق مشترك في قاعدة بيانات متجهات واحدة.
تساعد المتجهات أيضًا المؤسسات على إطلاق قيمة هذه البيانات للذكاء الاصطناعي والتعلم الآلي. تجسد المتجهات العلاقات الدلالية بين العناصر، ما يتيح المعالجة الفعالة من خلال النماذج اللغوية الكبيرة وأدوات الذكاء الاصطناعي التوليدي. تعتمد معظم تطبيقات الذكاء الاصطناعي والتعلم الآلي المتقدمة اليوم على المتجهات لأغراض التدريب وإنشاء المحتوى.
ومثل قواعد بيانات المتجهات الأخرى، توفر Milvus للمؤسسات طريقة لإدارة متجهات التضمين وتنظيمها. جعلت قاعدة بيانات المتجهات Milvus ذات التخزين القابل للتوسع بدرجة كبيرة وقدرات البحث الفعالة في المتجهات من قاعدة بيانات المتجهات خيارًا شائعًا للتوليد المعزز للاسترجاع (RAG) وأنظمة التوصيات وتطبيقات الذكاء الاصطناعي الأخرى.
قاعدة بيانات Milvus هي قاعدة بيانات متجهة سحابية أصلية مع بنية متعددة الطبقات قائمة على الخدمات المصغرة. تفصل Milvus بين موارد التخزين وموارد الحوسبة، ما يمكّن المؤسسات من توسيع نطاق كل طبقة بشكل مستقل وأفقي.
تتوافق Milvus مع العديد من نماذج التضمين المختلفة. يمكن للمؤسسات ربط نماذجها بقاعدة بيانات Milvus، والتي تقوم بتضمين النماذج مع البيانات الوصفية وغيرها من المعلومات ذات الصلة. تدعم Milvus عمليات تحميل التضمين المتدفقة وعلى دفعات.
تحتوي Milvus على أربع طبقات:
طبقة الوصول: هذه هي الطبقة المواجهة للخارج، والتي تقبل المدخلات من المستخدمين والخدمات وترجع المخرجات.
خدمة المنسق: تشير Zilliz إلى هذه الطبقة باعتبارها "عقل" النظام لأنها تنظم موازنة التحميل وإدارة البيانات وتنفيذ الاستعلامات والمهام المهمة الأخرى.
العقد العاملة: تنفذ هذه الطبقة الاستعلامات وتحديث البيانات وإنشاء الفهارس.
طبقة تخزين الكائنات: تتضمن هذه الطبقة مخزن بيانات وصفية ووسيط سجل يسجل تغييرات البيانات في الوقت الفعلي ومخزن كائنات يحتفظ بلقطات السجل وملفات الفهرس ونتائج الحسابات الوسيطة.
يدعم Milvus عمليات البحث عالية الأداء عن تشابه المتجهات، وهو نوع من عمليات البحث عن المتجهات التي تعيد نتائج متشابهة دلاليًا مع استعلام ما. تكمن ميزة البحث عن التشابه في أنه لا يقتصر على المطابقات الدقيقة، كما هو الحال في البحث التقليدي عن الكلمات الرئيسية.
على سبيل المثال، سيعرض البحث بالكلمة الرئيسية عن ”أفضل مطعم بيتزا“ نتائج تحتوي فقط على كلمات ”أفضل“ و”بيتزا“ و”مطعم“. سيجد بحث التشابه للكلمة الرئيسية نفسها أي نتائج لأماكن البيتزا الموصى بها للغاية، حتى لو لم يتم استخدام الكلمات ”أفضل مطعم بيتزا“ بالضبط في المحتوى.
تدعم Milvus العديد من أنواع البحث عن التشابه، بما في ذلك الجار الأقرب التقريبي (ANN) ونطاق ANN.
تدعم Milvus أيضًا عمليات البحث الهجينة، التي تجمع بين عمليات البحث في المتجهات الدلالية ومعايير أخرى، مثل تصفية البيانات الوصفية أو البحث بالكلمات الرئيسية.
يمكن لعمليات البحث الهجينة أن تجعل عمليات البحث أكثر كفاءة وملاءمة. فكر في البحث الذي يجمع بين البحث بالكلمات الرئيسية والبحث بالمتجهات. يمكن أن يستخدم البحث أولاً كلمات رئيسية محددة لتصفية النتائج استنادًا إلى التطابقات التامة ثم يتم استخدام البحث بالمتجهات المتشابهة للبحث في تلك النتائج التي تمت تصفيتها عن المحتوى الأكثر صلة من الناحية الدلالية.
تدعم Milvus الكثير من أنواع الفهرسة، بما في ذلك الفهرسة الهرمية القابلة للتنقل في العالم الصغير (HNSW) والملف المقلوب (IVF) والفهارس القائمة على وحدة معالجة الرسومات.
يمكن أن تساعد فهرسة المتجهات على تسريع عمليات البحث. على سبيل المثال، يجمع HNSW المتجهات المتشابهة معًا في أثناء عملية إنشاء الفهرس، ما يسهل العثور على النتائج ذات الصلة بشكل أسرع.
يمكن أن تتوسع طبقات Milvus بشكل مستقل عن بعضها، ما يمنح المؤسسات طريقة فعالة من حيث التكلفة وموارد للتعامل مع كميات هائلة من بيانات المتجهات وعمليات البحث المكثفة.
تقدم Milvus الكثير من مجموعات تطوير البرمجيات (SDKs) لدعم التطوير بلغات مختلفة، بما في ذلك Python (pymilvus) وJava وGo.
يمكن أن تتكامل Milvus أيضًا مع أدوات التحليلات مثل Apache Spark وأطر العمل مثل LangChain ونماذج الذكاء الاصطناعي التوليدي مثل نماذج ™IBM watsonx وLlama من Meta وGPT من OpenAI.
يسهم مجتمع كبير مفتوح المصدر في إصلاحات الأخطاء والتحديثات والتحسينات الأخرى في مستودعات GitHub الخاصة بقاعدة بيانات Milvus.
توفر كل من Pinecone وMilvus بحثًا يمتاز بزمن انتقال قصير وتخزينًا قابلًا للتوسع، بيد أن Pinecone هي قاعدة بيانات متجهات مملوكة ومتاحة فقط كخدمة مُدارة.
مثلها مثل Milvus، تُعد Weaviate قاعدة بيانات مفتوحة المصدر تدعم عمليات البحث الهجينة. ويتمثل أحد الاختلافات الرئيسية في أن Milvus يقدم أنواع فهرسة أكثر من Weaviate.
تشتهر Qdrant، وهي قاعدة بيانات متجهات أخرى مفتوحة المصدر، بقدراتها الفعالة في تصفية البيانات الوصفية. في حين أن Qdrant مناسبة تمامًا للاستخدامات متوسطة النطاق، يمكن لـ Milvus بشكل عام التعامل مع أحجام أكبر من البيانات المتجهة.
تركز Chroma على سهولة الاستخدام والنشر المحلي السريع. ولا تحتوي Chroma على بنية موزعة، ما يجعلها أقل قابلية للتوسع. بينما تُستخدم Chroma بشكل شائع للنماذج الأولية والاختبار، يمكن لـ Milvus دعم مجموعة واسعة من حالات الاستخدام.
تستخدم المؤسسات Milvus لدعم العديد من تطبيقات الذكاء الاصطناعي، بما في ذلك:
التوليد المعزَّز بالاسترجاع (RAG)
أنظمة التوصية
عمليات البحث عن الوسائط
كشف الحالات الشاذة والاحتيال
التوليد المعزز بالاسترجاع (RAG) هو بنية تربط نماذج الذكاء الاصطناعي بقواعد المعرفة الخارجية لمساعدتها على تقديم نتائج أكثر صلة ودقة.
تُعد Milvus شائعة في تطبيقات التوليد المعزز بالاسترجاع بسبب دعمها لعمليات البحث الهجينة الفعالة. فمن خلال الجمع بين الفهم السياقي للبحث الدلالي ودقة البحث بالكلمات الرئيسية وتصفية البيانات الوصفية، يمكن أن تساعد Milvus على إظهار المستندات ومقتطفات التعليمات البرمجية والمعلومات الأخرى ذات الصلة من مصادر التوليد المعزز بالاسترجاع.
تساعد CacheGPT، وهي ذاكرة تخزين مؤقت دلالي مفتوحة المصدر للنماذج اللغوية الكبيرة (LLMs) التي طوترها Zilliz، قاعدة بيانات Milvus في دعم تطبيقات التوليد المعزز بالاسترجاع. وتقوم CacheGPT بتخزين الاستجابات من تطبيقات الذكاء الاصطناعي التوليدي كتضمينات متجهة.
لا تحتاج الخدمات المتصلة - مثل واجهات التوليد المعزز بالاسترجاع- إلى إجراء مكالمة من واجهة برمجة التطبيقات إلى الذكاء الاصطناعي التوليدي لكل بحث. فبدلاً من ذلك، يمكنها التحقق من ذاكرة التخزين المؤقت أولاً واستدعاء الذكاء الاصطناعي التوليدي فقط إذا لم تكن الإجابة موجودة.
يشيع استخدام Milvus في أنظمة التوصيات التي تطابق المحتوى والمنتجات والإعلانات مع المستخدمين بناءً على السلوكيات السابقة.
يمكن تمثيل تفضيلات المستخدمين على شكل متجهات، ويمكن أن يُظهر البحث عن التشابه التمثيلات المتجهة للمنتجات والإعلانات والمحتوى القريب من تفضيلات المستخدمين.
يمكن أن تساعد قدرات البحث عن التشابه في Milvus على تبسيط البحث عن الصور وتسجيلات الأصوات ومقاطع الفيديو وغيرها من عمليات البحث عن الوسائط.
يمكن استخدام Milvus للمساعدة على اكتشاف العيوب في المنتجات من خلال مقارنة متجهات صور المنتجات مع المتجهات التي تمثل الأشكال الصحيحة لتلك المنتجات. فقد تشير الاختلافات بين المتجهات إلى وجود عيوب.
ويمكن أن تساعد Milvus أيضًا في اكتشاف الحالات الشاذة في سياقات أخرى. ففي مجال الأمن الإلكتروني، يمكن مقارنة المتجهات التي تمثل نشاط الشبكة المصرح به مع المتجهات التي تمثل نشاطًا ضارًا معروفًا. وبالمثل، في مجال التمويل، يمكن تحليل المتجهات التي تمثل المعاملات لتحديد الانحرافات التي قد تشير إلى الاحتيال.