ما المقصود بقاعدة البيانات الموجهة؟

ما المقصود بقاعدة البيانات الموجهة؟

تقوم قاعدة بيانات المتجهات بتخزين، وإدارة، وفهرسة بيانات المتجهات عالية الأبعاد.

في قاعدة بيانات المتجهات، يتم تخزين نقاط البيانات كمصفوفات من الأرقام تسمى "المتجهات"، والتي يمكن مقارنتها وتجميعها بناء على التشابه. يتيح هذا التصميم إمكانية الاستعلام في زمن انتقال قصير، مما يجعله مثاليًا لتطبيقات الذكاء الاصطناعي.

تزداد شعبية قواعد البيانات المتجهة لأنها توفر السرعة والأداء اللازمين لدفع حالات استخدام الذكاء الاصطناعي التوليدي. في الواقع، وفقًا لبحث أجري عام 2025، فإن اعتماد قاعدة بقاعدة بيانات المتجهات قد شهد نموًا بنسبة 377% على أساس سنوي - وهو أسرع نمو تم تسجيله عبر أي تقنية ذات صلة بالنماذج اللغوية الكبيرة (LLM).

قواعد بيانات المتجهات مقابل قواعد البيانات التقليدية

لقد تغيرت طبيعة البيانات بشكل كبير في السنوات الأخيرة. لم يعد الأمر يقتصر على المعلومات المنظمة المخزنة بدقة في صفوف وأعمدة قواعد البيانات التقليدية. البيانات غير المنظمة— بما في ذلك منشورات وسائل التواصل الاجتماعي والصور ومقاطع الفيديو والصوت — تنمو من حيث الحجم والقيمة، مما يعيد تشكيل استراتيجيات الذكاء الاصطناعي للمؤسسات مع فرض متطلبات جديدة على البنية التحتية للبيانات.

تتفوق قواعد البيانات العلائقية التقليدية في إدارة مجموعات البيانات المنظمة وشبه المنظمة ضمن مخططات محددة. ومع ذلك، فإن تحميل البيانات غير المنظمة وإعدادها في قاعدة بيانات علائقية لأحمال تشغيل الذكاء الاصطناعي يتطلب عمالة كثيفة.

يضاعف البحث التقليدي من هذا القيد: فهو يعتمد على رمز مميز منفصل مثل الكلمات المفتاحية أو العلامات أو البيانات الوصفية ويعيد النتائج بناءً على التطابقات التامة. على سبيل المثال، يؤدي البحث عن "هاتف ذكي" إلى استرداد المحتوى الذي يحتوي على هذا المصطلح المحدد فقط.

تتخذ قواعد بيانات المتجهات نهجًا مختلفًا جوهريًا. فبدلاً من الصفوف والأعمدة، يتم تمثيل نقاط البيانات كمتجهات كثيفة حيث يمثل كل بُعد خاصية مكتسبة من البيانات. توجد تضمينات المتجهات عالية الأبعاد هذه في فضاء متجهي، حيث يمكن قياس العلاقات بين العناصر هندسيًا.

نظرًا لأن كل بُعد يمثل ميزة كامنة - خاصية مستنتجة تم تعلمها من خلال النماذج الرياضية والخوارزميات - فإن تمثيلات المتجهات تلتقط الأنماط المخفية. يمكن لاستعلام البحث المتجه عن "هاتف ذكي" أن يعرض أيضاً النتائج الدلالية مثل "هاتف محمول" أو "هاتف جوال"، حتى لو لم تظهر تلك الكلمات بالضبط.

من خلال نمذجة البيانات في مساحة عالية الأبعاد وتطبيق تقنيات الفهرسة المتخصصة، تتيح قواعد بيانات المتجهات إجراء بحث التشابه بزمن انتقال قصير عبر مجموعات البيانات الكبيرة — وهو أمر لم تصمم قواعد البيانات العلائقية لدعمه.

لماذا تعتبر قاعدة بيانات المتجهات مهمة؟

لقد غير الصعود السريع للنماذج اللغوية الكبيرة (LLMs)، وأنظمة الذكاء الاصطناعي التوليدي، ومهام سير العمل معالجة اللغة الطبيعية (NLP) المتقدمة طريقة معالجة المؤسسات للبيانات وتخزينها. تعتمد أحمال تشغيل الذكاء الاصطناعي اليوم على التفاعل السريع والفوري مع بيانات المتجهات بالإضافة إلى التكامل السلس مع مسارات التوليد المعزز بالاسترجاع (RAG).

توفر قواعد بيانات المتجهات البنية التحتية اللازمة لدعم هذه المتطلبات. فهي تتيح البحث عن التشابه بزمن انتقال قصير عبر كميات كبيرة من البيانات غير المنظمة، مما يدعم تطبيقات الذكاء الاصطناعي مثل روبوتات المحادثة وأنظمة التوصية.

المفاهيم الأساسية داخل قاعدة بيانات المتجهات

لفهم كيفية عمل قواعد بيانات المتجهات، يساعد على ذلك تأسيس مفهومين أساسيين: المتجهات، التي تصف البيانات بشكل رقمي، وتضمينات المتجهات، التي تترجم المحتوى غير المنظم إلى تمثيلات عالية الأبعاد تلتقط المعنى والسياق.

المتجهات

تُعدّ المتجهات مجموعة فرعية من الموترات. في مجال التعلم الآلي (ML) يُعرف الموتّر بأنه مصطلح عامّ يشير إلى مجموعة من الأرقام، أو تجمُّع يضم مجموعات من الأرقام، في مساحة ذات بُعد n. تعمل الموترات كوسيلة لضبط الحسابات الرياضية للبيانات. بدءًا من أصغر عنصر:

  • العدد القياسي هو موتر ذو بُعد صفري، ويحتوي على رقم واحد. فمثلاً، نظام نمذجة بيانات الطقس قد يمثل درجة الحرارة العظمى ليوم واحد (بالفهرنهايت) في شكل عدد قياسي مثل 85.
  • المتجه هو موتر أحادي البُعد (أو من الدرجة الأولى أو من المرتبة الأولى) ، يحتوي على عدة مقاييس من نفس النوع من البيانات. بناءً على المثال، قد يستخدم نموذج الطقس درجات الحرارة الدنيا، والمتوسطة، والعظمى ليوم واحد في شكل متجه: 62، 77، 85. كل عنصر عدد قياسي هو سمة، أي إنه بُعد للمتجه، يمثل سمة من سمات طقس ذلك اليوم.

بعبارة أخرى، المتجهات هي طريقة لتنظيم الأرقام في شكل منظم. ولكن لكي تتمكن أنظمة الذكاء الاصطناعي من معالجة تلك المعلومات غير المنظمة، يجب ترجمة البيانات إلى مصفوفات رقمية. يتم تحقيق هذه الترجمة من خلال تضمينات المتجهات.

تضمينات المتجهات

تضمينات المتجهات هي تمثيلات رقمية لنقاط البيانات تحوِّل أنواعًا مختلفة من البيانات — بما في ذلك النصوص والصور—إلى مصفوفات من الأرقام يمكن لنماذج التعلم الآلي معالجتها.

لتحقيق ذلك، تتعلم نماذج التضمين كيفية تحويل بيانات الإدخال إلى فضاء متجهي عالي الأبعاد. يعكس هذا الفضاء المتجهي الأنماط المكتسبة من خلال دالة خسارة خاصة بالمهمة، والتي تحدد أخطاء التنبؤ. يمكن بعد ذلك استخدام تضمينات المتجهات بواسطة نماذج الذكاء الاصطناعي النهائية، مثل الشبكات العصبية المستخدمة في التعلم العميق، لأداء مهام مثل التصنيف أو الاسترجاع أو التجميع.

ضع في اعتبارك مجموعة صغيرة من الكلمات، حيث يتم تمثيل عمليات تضمين الكلمات كمتجهات ثلاثية الأبعاد:

  • قطة [0.2، -0.4، 0.7]
  • كلب [0.6، 0.1، 0.5]

في هذا المثال ، ترتبط كل كلمة ("قطة") بمتجه فريد ([0.2 ، -0.4 ، 0.7]). تمثل القيم الموجودة في المتجه موضع الكلمة في فضاء متجهي ثلاثي الأبعاد. ومن المتوقع أن تكون للكلمات ذات المعاني أو السياقات المتشابهة تمثيلات متجهة متشابهة. سيكون المتجهان لكلمة "قطة" و"كلب" قريبين من بعضهما، مما يعكس علاقتهما الدلالية.

وبالمثل، فإن كلمتي "سيارة" و"مركبة" تشتركان في نفس المعنى ولكنهما تُكتبان بشكل مختلف. ليتمكن تطبيق الذكاء الاصطناعي من إجراء البحث الدلالي، يجب أن تلتقط التمثيلات المتجهة لكلمتي "سيارة" و"مركبة" المعنى المشترك بينهما. ترمز تضمينات المتجهات هذا المعنى رقمياً، مما يجعلها العمود الفقري لمحركات التوصية، وروبوتات الدردشة، والتطبيقات التوليدية مثل ChatGPT من OpenAI.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

كيف تعمل قواعد بيانات المتجهات؟

لتسهيل الاسترجاع الدلالي السريع والقابل للتوسع، تعتمد قواعد بيانات المتجهات على ثلاث وظائف أساسية:

  • تخزين المتجهات
  • فهرسة المتجهات
  • بحث المتجهات

تخزين المتجهات

على المستوى الأساسي، تقوم قواعد بيانات المتجهات بتخزين التضمينات. لكل منها عدد ثابت من الأبعاد ويتم تخزينها عادةً إلى جانب البيانات الوصفية مثل العنوان أو المصدر أو التوقيت الزمني أو الفئة، والتي يمكن الاستعلام عنها باستخدام فلاتر البيانات الوصفية.

نظرًا لأن التضمينات يتم إنشاؤها مسبقًا وتخزينها، يمكن لقواعد بيانات المتجهات استرداد تضمينات متجهات مماثلة دون إعادة حساب التمثيلات في وقت الاستعلام. يدعم هذا الفصل بين التوليد والاسترجاع إمكانية البحث في التشابه بزمن انتقال قصير على نطاق واسع.

تدعم العديد من الأنظمة أيضًا البحث الهجين الذي يجمع بين تشابه المتجهات وقيود البيانات الوصفية - على سبيل المثال، استرجاع المستندات المتشابهة دلاليًا التي تم إنشاؤها ضمن نطاق تاريخ أو فئة محددة.

فهرسة المتجهات

لتسريع البحث عن التشابه في الفضاء عالي الأبعاد، تنشئ قاعدة بيانات المتجهات فهارس على تضمينات المتجهات المخزنة. تقوم الفهرسة بربط المتجهات بهياكل بيانات جديدة تمكِّن عمليات بحث أسرع عن التشابه أو المسافة بين المتجهات.

تدعم هذه الفهارس بحث الجار الأقرب التقريبي (ANN)، والذي يسترجع المتجهات المتشابهة دون إجراء مسح لمجموعة البيانات بأكملها. تتضمن خوارزميات فهرسة الجار الأقرب التقريبي (ANN) الشائعة خوارزمية HNSW (عالم صغير هرمي يمكن التنقل فيه)، أو خوارزمية LSH (التجزئة الحساسة للمكان):

  • تقوم خوارزمية HNSW بإنشاء رسم بياني هرمي متعدد الطبقات يستخدم روابط بعيدة المدى في الطبقات العليا وروابط محلية كثيفة في الطبقة السفلية.1
  • وتقوم خوارزمية LSH بتجميع المتجهات في مجموعات باستخدام دالة تجزئة بحيث تقع المتجهات المتشابهة في نفس المجموعة.

بالإضافة إلى فهارس الجار الأقرب التقريبي (ANN)، تستخدم قاعدة بيانات المتجهات غالبًا تقنية التكميم بالمنتجات (PQ) لتقليل استخدام الذاكرة. تقوم PQ بتحويل كل مجموعة بيانات إلى رمز قصير يحافظ على المسافة النسبية (بدلاً من تخزين كل متجه)، مما يسمح للأنظمة بتخزين مجموعات أكبر مع الحفاظ على أداء بحث فعال.

بحث المتجهات

يُعد بحث المتجهات طبقة الاسترجاع في قاعدة بيانات المتجهات والتي تُستخدم لاكتشاف ومقارنة نقاط البيانات المتشابهة. فبدلاً من مطابقة الكلمات الرئيسية أو القيم الدقيقة، فإنها تلتقط العلاقات الدلالية بين العناصر. تدعم هذه القدرة على الاسترجاع الواعية للسياق أنظمة التوليد المعزّز بالاسترجاع (RAG)، والتي بدورها توفر سياقاً ذا صلة لأنظمة الذكاء الاصطناعي ونماذج التعلم الآلي القائمة على الاسترجاع.

عندما يطلب المستخدم من نموذج الذكاء الاصطناعي، يُنشئ النموذج تضمينًا لهذا الاستعلام، يُعرف باسم متجه الاستعلام. ثم تقارن قاعدة البيانات متجه الاستعلام بالمتجهات المفهرسة وتحسب درجات التشابه لتحديد أقرب الجيران.

يطبق بحث المتجهات خوارزميات متعددة لإجراء بحث الجار الأقرب التقريبي (ANN). يتم جمع هذه الخوارزميات في مسار لاسترجاع البيانات المجاورة للمتجه الذي يتم الاستعلام عنه بسرعة ودقة (على سبيل المثال، المنتجات التي تتشابه بصرياً في كتالوج التجارة الإلكترونية). نظرًا لأن التضمينات يتم حسابها مسبقًا وتخزينها بشكل مفهرس، يتم عرض النتائج خلال أجزاء من الثانية.

بمجرد تحديد المتجهات ذات الصلة، تتم مقارنتها إما عن طريق حساب تشابهها أو باستخدام مقاييس المسافة. تتضمن الطرق الشائعة ما يلي:

  • تشابه جيب التمام: يقيس المسافة الزاوية بين المتجهات لتحديد مدى توافقها في الاتجاه.
  • تشابه Jaccard: يقارن التداخل بين مجموعتين بالنسبة إلى عناصرهما الإجمالية.
  • حاصل الضرب النقطي: يُقيِّم التشابه بناءً على مقدار المتجهات واتجاهها.
  • المسافة الإقليدية: يحسب المسافة المستقيمة بين المتجهات في فضاء عالي الأبعاد.
  • مسافة Hamming: تحسب المواضع المختلفة بين المتجهات الثنائية.

تقوم قاعدة البيانات بعرض المتجهات الأعلى تصنيفًا وفقًا لحسابات التشابه هذه، مما يدعم مهام التعلم الآلي مثل البحث الدلالي ومهام سير عمل معالجة اللغة الطبيعية الأخرى.

ما هي فوائد قواعد بيانات المتجهات؟

أصبحت قواعد بيانات المتجهات محورية بشكل متزايد في استراتيجيات الذكاء الاصطناعي للمؤسسات لأنها تقدم مجموعة من الفوائد:

  • السرعة والأداء: تستخدم قواعد بيانات المتجهات تقنيات فهرسة متنوعة لتمكين البحث بشكل أسرع. يمكن لخوارزميات فهرسة المتجهات وحساب المسافة أن تساعد في تحسين الأداء عند البحث عن النتائج ذات الصلة عبر مجموعات بيانات تحتوي على ملايين، إن لم يكن مليارات، من نقاط البيانات.
  • قابلية التوسع: بإمكان قواعد بيانات المتجهات تخزين وإدارة كميات هائلة من البيانات غير المنظمة عن طريق التوسع أفقيًّا باستخدام عُقد إضافية، مع الحفاظ على الأداء كلما زادت طلبات الاستعلام وزاد حجم البيانات.
  • تكلفة ملكية أقل: نظراً لأنها تتيح استرجاع البيانات بشكل أسرع، فإن قاعدة بيانات المتجهات تسرع تدريب نماذج الأساس.
  • إدارة البيانات: عادة ما توفر قواعد بيانات المتجهات ميزات إدارة بيانات مدمجة لتحديث وإدراج بيانات جديدة غير منظمة بسهولة.
  • المرونة: تم إنشاء قواعد بيانات المتجهات للتعامل مع التعقيد الإضافي الذي يظهر عند استخدام الصور، أو مقاطع الفيديو، أو البيانات الأخرى متعددة الأبعاد.

حالات استخدام قواعد بيانات المتجهات

يمكن تخصيص قواعد بيانات المتجهات لتلبية حالات الاستخدام المحددة للأعمال والذكاء الاصطناعي. في كثير من الأحيان، تبدأ المؤسسات بنموذج تضمين للأغراض العامة مثل ™IBM® Granite أو Llama-2 من Meta أو Flan من Google. يتم بعد ذلك تحسين النماذج باستخدام بيانات المؤسسة المخزنة في قاعدة بيانات متجهات. يعمل هذا المزيج على تحسين ملاءمة ودقة تطبيقات الذكاء الاصطناعي النهائية.

تطبيقات قواعد بيانات المتجهات واسعة وتتوسع باستمرار. تتضمن حالات الاستخدام الرئيسية ما يلي:

  • التوليد المعزز بالاسترجاع (RAG)
  • الذكاء الاصطناعي الحواري
  • محركات التوصية
  • الكشف عن الخلل

التوليد المعزَّز بالاسترجاع (RAG)

يتيح التوليد المعزز بالاسترجاع (RAG) للنماذج اللغوية الكبيرة إمكانية استرجاع الحقائق من قاعدة معرفية خارجية. تفضل الشركات بشكل متزايد RAG لسرعة وصولها إلى السوق، وكفاءة الاستدلال والمخرجات الموثوقة، لا سيما في مجالات مثل خدمة العملاء والموارد البشرية وإدارة المواهب.

من خلال تأصيل النموذج في بيانات المؤسسة الموثوق بها، يقلل التوليد المعزّز بالاسترجاع (RAG) من الهلوسة ويمنح المستخدمين إمكانية الوصول إلى المصادر الأساسية للتحقق. نظرًا لأن مرحلة الاستدلال تقوم بأكبر عمليات الاسترجاع من حيث الحجم، فإنها تتطلب وصولًا سريعًا ودقيقًا وقابلًا للتوسع إلى تضمينات المتجهات عالية الأبعاد.

تتفوق قواعد بيانات المتجهات في الفهرسة والتخزين واسترجاع هذه التضمينات، مما يوفر السرعة والدقة والحجم اللازمين لتطبيقات مثل أنظمة كشف الاحتيال ومنصات الصيانة التنبؤية .

الذكاء الاصطناعي الحواري

تساعد قواعد بيانات المتجهات، خاصةً عند استخدامها لتنفيذ أطر عمل التوليد المعزَّز بالاسترداد، في تحسين تفاعلات الوكيل الافتراضي من خلال تحسين قدرة الوكيل على تحليل قواعد المعارف ذات الصلة بكل دقة وكفاءة. يمكن للوكلاء تقديم إجابات سياقية عن استفسارات المستخدم في الوقت الفعلي، علاوة على مستندات المصدر وأرقام الصفحات كمرجع.

محركات التوصية

يمكن لمواقع التجارة الإلكترونية استخدام المتجهات لتمثيل تفضيلات العملاء وخصائص المنتجات. وهذا يسمح لهم بتحسين تجربة العملاء والاحتفاظ بهم من خلال اقتراح عناصر مشابهة للمشتريات السابقة. تطبق منصات البث وتطبيقات وسائل التواصل الاجتماعي نفس النهج، حيث توصي بمقاطع فيديو أو موسيقى أو منشورات بناءً على التشابه مع محتوى سبق للمستخدم مشاهدته أو مشاركته.

الكشف عن الخلل

من خلال تمثيل السلوك الطبيعي كمتجهات في الفضاء عالي الأبعاد، يمكن للمؤسسات اكتشاف القيمة الخارجية بناء على مسافة المتجه. قد تشير نقاط البيانات التي تقع بعيداً عن المعايير المحددة إلى وجود احتيال أو أعطال في النظام أو أنماط نشاط غير عادية. نظرًا لأنه يتم حساب التشابه رياضيًا، يمكن الكشف عن الحالات الشاذة في الوقت الفعلي عبر مجموعات بيانات ضخمة - بدءًا من حركة مرور الشبكة إلى قراءات أجهزة الاستشعار في الأنظمة الصناعية. وهذا يسمح للفرق بالتدخل قبل أن تتصاعد الانحرافات الصغيرة وتتحول إلى حوادث مكلفة.

بينما تعتبر قواعد بيانات المتجهات مناسبة جداً لاسترجاع الحقائق عبر العديد من تطبيقات الذكاء الاصطناعي، إلا أنها ليست مثالية لكل أنواع الاستعلامات.

تتطلب أحمال تشغيل مثل تلخيص المواضيع أو التحليل الموضوعي واسع النطاق أن يقوم أحد النماذج اللغوية الكبيرة (LLM) بقراءة جميع السياقات ذات الصلة بدلاً من الاعتماد فقط على تطابق أقرب الجيران. في هذه السيناريوهات، قد يوفر فهرس القائمة أو أي بنية أخرى غير متجهة نتائج أسرع وأكثر كفاءة، حيث يمكن أن تظهر العناصر الأولى ذات الصلة بسرعة دون التنقل في الفضاء المتجهي.

من سيستخدم قاعدة بيانات المتجهات؟

تدعم قواعد البيانات المتجهة مجموعة واسعة من أحمال التشغيل المتعلقة بالذكاء الاصطناعي، لكن القيمة التي تقدمها تختلف حسب الدور. في معظم المؤسسات، ينقسم المستخدمون إلى مجموعتين رئيسيتين: مطوّرو البرمجيات، الذين يصممون وينفذون تجارب مستندة إلى الذكاء الاصطناعي، والمشغلون الذين يقومون بتوسيع وصيانة تلك الأنظمة أثناء الإنتاج.

المطوّرون

يقوم المطورون بإنشاء التطبيقات والمسارات والنماذج التي تعتمد على بحث المتجهات، باستخدام قواعد بيانات المتجهات لتخزين التضمينات وتشغيل تطبيقات الذكاء الاصطناعي.

المطورون

يعتمد المطورون على قواعد بيانات المتجهات لمجموعات تطوير البرمجيات (SDKs) الخاصة باللغات وواجهات برمجة التطبيقات (APIs) المتوقعة. غالبا ما يدمجون البحث المتجهي في تطبيقات مثل روبوت المحادثة ومحركات التوصية.

مهندسو البيانات

يقوم مهندسو البيانات بتصميم المسارات التي تقوم بإنشاء التضمينات وتحويلها والتحقق من صحتها. تعمل قواعد بيانات المتجهات على تبسيط مهام سير عمل الاستيعاب والتقاط البيانات الوصفية وتتبع دورة حياة البيانات عبر بيئات البيانات الموزعة.

مهندسو الذكاء الاصطناعي والتعلم الآلي

يقوم مهندسو الذكاء الاصطناعي والتعلم الآلي بتفعيل نماذج التضمين وإدارة منطق الاسترجاع للتوليد المعزز بالاسترجاع (RAG) وأحمال التشغيل الاستدلالية الأخرى. ويعتمدون على قواعد بيانات المتجهات من أجل عمليات بحث ذات زمن انتقال قصير وإدارة إصدار التضمين.

علماء البيانات

يقوم علماء البيانات بتقييم جودة التضمين وتحليل أداء النموذج. يستخدمون مخازن المتجهات لاستكشاف البيانات عالية الأبعاد، وإثراء مجموعات التدريب، والتحقق من صحة العلاقات الدلالية عبر مجموعات البيانات.

المُشغلون 

يضمن المشغلون بقاء أحمال التشغيل قابلة للتوسع وموثوقة. ويديرون كيفية تشغيل قواعد بيانات المتجهات في الإنتاج وكيفية تناسبها مع منظومة البيانات والذكاء الاصطناعي الأوسع.

فرق العمليات و فرق هندسة موثوقية الموقع (SRE)

تراقب فرق العمليات وفرق هندسة موثوقية الموقع (SRE) الأداء لضمان أن استعلامات المتجهات تلبي متطلبات زمن الانتقال ومعدل النقل والتوافر.

مهندسو المؤسسات

يحدد مهندسو المؤسسات كيفية اندماج قاعدة بيانات المتجهات مع المستودعات، وإطارات عمل الحوكمة، ومنصات البيانات القائمة، مع تقييم التشغيل البيني والتوافق الهندسي البنائي طويل الأمد.

فرق الأمن والحوكمة

تضمن فرق الأمن والحوكمة امتثال التضمينات والبيانات الوصفية لمتطلبات المؤسسة والمتطلبات التنظيمية. فهي تفرض ضوابط الوصول وتؤكد احتفاظ البيانات المتجهة بمستويات الخصوصية والحماية المناسبة.

المديرون التنفيذيون للأعمال والبيانات

يقوم المديرون التنفيذيون بتقييم كيفية دعم قواعد بيانات المتجهات لاستراتيجية الذكاء الاصطناعي للمؤسسات. تركز هذه النماذج على كفاءة التكلفة، والحوكمة، وإدارة المخاطر، وكيفية اندماج قدرات المتجهات مع نماذج التشغيل الحالية.

كيفية اختيار قاعدة بيانات متجهات

تتاح للمؤسسات مجموعة كبيرة من الخيارات عند اختيار إحدى قدرات قواعد بيانات المتجهات. للعثور على ما يلبي احتياجات البيانات والذكاء الاصطناعي، تضع العديد من المؤسسات في حسبانها ما يلي:

  • أنواع قواعد بيانات المتجهات
  • التكامل مع إحدى منظومات البيانات
  • أدوات لإنشاء ونشر قواعد بيانات المتجهات

أنواع قواعد بيانات المتجهات

هناك بعض الخيارات التي يمكن للمؤسسات الاختيار من بينها، بما في ذلك:

  • قواعد بيانات متجهات مستقلة: قواعد بيانات مملوكة وموجهة بالكامل مثل Pinecone.
  • قواعد بيانات متجهات مفتوحة المصدر: حلول مفتوحة المصدر مثل Weaviate أو Milvus، والتي توفر واجهات برمجة تطبيقات RESTful مدمجة ودعمًا للغات البرمجة Python وJava .
  • مستودعات بحيرات البيانات التي تحتوي على قدرات متجهات مدمجة: مستودعات بحيرات البيانات التي تحتوي على قدرات قاعدة بيانات المتجهات المدمجة، مثل ™IBM® watsonx.data.
  • ملحقات المتجهات لقواعد البيانات الحالية: قاعدة بيانات المتجهات وملحقات البحث في قواعد البيانات - مثل ملحق pgvector مفتوح المصدر الخاص بـ PostgreSQL - الذي يوفر قدرات البحث في تشابه المتجهات. بإمكان قاعدة بيانات متجهات SQL أن تجمع بين مزايا قاعدة بيانات SQL التقليدية وقوة قاعدة بيانات المتجهات.
  • محركات البحث التي تدعم المتجهات: منصات مثل OpenSearch، التي توفر ميزات بحث متجهات مدمجة إلى جانب واجهات برمجة تطبيقات RESTful لاستيعاب واستعلام التضمينات.

أحد الخيارات الناشئة لتشغيل أحمال تشغيل المتجهات هو قاعدة بيانات المتجهات بدون خادم. تعمل التصميمات بدون خادم على إزالة الحاجة إلى إدارة أو توفير البنية التحتية، مما يسمح للفرق بالتركيز على تضمين التوليد وتطوير التطبيقات بدلاً من عمليات المجموعة. يمكن توسيع السعة تلقائيًا استنادًا إلى حجم الاستعلام وحجم البيانات، مما يساعد الفرق على التعامل مع أحمال التشغيل غير المتوقعة دون ضبط الأداء.

تُعد قواعد بيانات المتجهات بدون خادم مفيدة بشكل خاص للنماذج الأولية السريعة وتطبيقات الذكاء الاصطناعي القائمة على الأحداث وبيئات التطوير حيث يكون التحكم في التكاليف والبساطة التشغيلية من الأولويات.

التكامل مع إحدى منظومات البيانات

لا ينبغي اعتبار قواعد بيانات المتجهات قدرات قائمة بذاتها، بل هي جزء من نظام أوسع للبيانات والذكاء الاصطناعي.

يقدم العديد منها واجهات برمجة تطبيقات أو وظائف إضافية أصلية أو يمكن دمجها مع قواعد البيانات. ولأن قواعد بيانات المتجهات مصممة لاستخدام بيانات المؤسسة لتحسين النماذج، يجب أن تتميز المؤسسات أيضًا بحوكمة وأمن ملائمَين للبيانات لضمان إمكانية الوثوق بالبيانات المستخدمة لتدريب النماذج اللغوية الكبيرة (LLM).

بعيداً عن واجهات برمجة التطبيقات (APIs)، تستخدم العديد من قواعد بيانات المتجهات مجموعات تطوير برامج SDK خاصة بلغة البرمجة يمكنها الالتفاف حول واجهات برمجة التطبيقات. وبفضل استخدام مجموعات تطوير البرامج (SDK)، يجد المطورون التعامل مع البيانات في تطبيقاتهم أسهل غالبًا.

أدوات لإنشاء ونشر قواعد بيانات المتجهات

لتحسين تطوير قاعدة بيانات المتجهات،LangChain  هو إطار عمل تنسيق مفتوح المصدر لتطوير التطبيقات التي تستخدم النماذج اللغوية الكبيرة (LLM).

تتوفر أدوات LangChain وواجهات برمجة التطبيقات الخاصة به في المكتبات القائمة على لغة Python والمكتبات القائمة على لغة JavaScript، وهي تبسّط عملية إنشاء تطبيقات تعتمد على النماذج اللغوية الكبيرة (LLM) مثل الوكلاء الافتراضيين باستخدام مخازن المتجهات المحلية والمستندة إلى السحابة. في الواقع، يوفر LangChain وصولاً إلى منظومة واسعة تضم أكثر من 1000 عملية تكامل في الإجمالي عبر النماذج اللغوية الكبيرة، والتضمين، ومخازن المتجهات، ومحمّلات المستندات، والأدوات، وغير ذلك. 

يمكن إقران مستودع بحيرة البيانات مع قاعدة بيانات المتجهات لمساعدة المؤسسات على توحيد وتنظيم وتحضير تضمينات المتجهات لتطبيقات الذكاء الاصطناعي التوليدي الخاصة بها. وهذا يعزز من ملاءمة ودقة أحمال تشغيل الذكاء الاصطناعي الخاصة بهم، وفي نهاية المطاف، يحقق نتائج أفضل للأعمال.

المؤلفين

Tom Krantz

Staff Writer

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

  1. استكشف حلول إدارة البيانات
  2. اكتشف watsonx.data
الحواشي