ما المقصود بقاعدة البيانات الموجهة؟
استكشف الحل الذي تقدمه IBM لقواعد بيانات المتجهات اشترِك في رسالة Think الإخبارية
رسم توضيحي يحتوي على مجموعة من الصور التوضيحية للسُحب، والمخطط الدائري، والرسوم البيانية

تم التحديث: 29 يوليو 2024
المساهمون: جيم هولدوورث، وماثيو كوسينسكي

ما المقصود بقاعدة البيانات الموجهة؟

تقوم قاعدة بيانات المتجهات بتخزين، وإدارة، وفهرسة بيانات المتجهات عالية الأبعاد. يتم تخزين نقاط البيانات كمصفوفات من الأرقام تسمى "المتجهات"، والتي يتم تجميعها على أساس التماثل. ويتيح هذا التصميم الحصول على استعلامات ذات زمن انتقال قصير، وهو ما يجعله مثاليًّا للاستخدام في تطبيقات الذكاء الاصطناعي.

اكتسبت قواعد بيانات المتجهات شهرة ورواجًا متزايدًا لأنها توفر السرعة والأداء اللازمَين لتشغيل حالات استخدام الذكاء الاصطناعي التوليدي وتطبيقاته. وفقًا لشركة الأبحاث Gartner، سيعتمد أكثر من 30% من المؤسسات، بحلول عام 2026، قواعد بيانات المتجهات لبناء نماذجها الأساسية باستخدام بيانات الأعمال ذات الصلة.1

قواعد بيانات المتجهات مقارنة بقواعد البيانات التقليدية 

على عكس قواعد البيانات العلائقية التقليدية التي تحتوي على صفوف وأعمدة، يتم تمثيل نقاط البيانات في قاعدة بيانات المتجهات بواسطة متجهات ذات عدد ثابت من الأبعاد. ولأنها تستخدم تضمينات متجهات عالية الأبعاد، فإن قواعد بيانات المتجهات تكون أكثر قدرةً على التعامل مع مجموعات البيانات غير المنظمة.

حقًا لقد شهدت طبيعة البيانات تحولاً جذريًا. فلم يَعُد الأمر يقتصر على المعلومات المنظَّمة المخزَّنة بسهولة في قواعد بيانات تقليدية. بل ازداد نمو وانتشار البيانات غير المنظَّمة، والتي تشمل منشورات وسائل التواصل الاجتماعي، والصور، ومقاطع الفيديو، والمقاطع الصوتية، والمزيد، بنسبة تراوحت بين 30% و60% مقارنةً بالعام الماضي.2

تتفوق قواعد البيانات العلائقية في إدارة مجموعات البيانات المنظمة وشبه المنظمة بتنسيقات محددة. ويُعدّ تحميل مصادر البيانات غير المنظمة إلى قاعدة البيانات العلائقية التقليدية لتخزين البيانات وإدارتها وإعدادها للذكاء الاصطناعي عملية مجهدة تتطلب كثيرًا من العمل، خاصةً مع حالات الاستخدام التوليدية الجديدة كالبحث عن التشابه أو التماثل.

البحث التقليدي يمثل البيانات عادةً باستخدام رموز مميزة أو ميزات منفصلة، مثل الكلمات الرئيسية، أو العلامات، أو البيانات الوصفية. تعتمد عمليات البحث التقليدية على المطابقات الدقيقة لاسترداد نتائج ذات صلة. فمثلاً، قد يؤدي البحث عن "هاتف ذكي" إلى ظهور نتائج تحتوي على كلمة "هاتف ذكي".

وعلى العكس من ذلك، يمثل بحث المتجهات البيانات كمتجهات كثيفة، وهي متجهات تكون معظم عناصرها أو كلها غير صفرية. حيث يتم تمثيل المتجهات في مساحة متجهة مستمرة، وهي المساحة الرياضية التي يتم فيها تمثيل البيانات كمتجهات.

تتيح عمليات التمثيل المتجهة إمكانية البحث عن التشابه. فمثلاً، قد يؤدي أيضًا البحث المتجه عن "الهاتف الذكي" إلى عرض نتائج لكل من "الهاتف المحمول" و"الأجهزة المحمولة".

كل بُعد من أبعاد المتجه الكثيف يتوافق مع ميزة كامنة أو جانب كامن من البيانات. تُعدّ الميزة الكامنة سمة أو خاصية أساسية لا تتم ملاحظتها بشكل مباشر، لكن يتم استنتاجها من البيانات عبر النماذج الرياضية أو الخوارزميات.

تعمل الميزات الكامنة على التقاط الأنماط والعلاقات المخفية في البيانات، وهو ما يتيح تمثيلاً أكثر دقةً وذا مغزى أكبر للعناصر كمتجهات في فضاء عالي الأبعاد.

كيفية اختيار نموذج أساس الذكاء الاصطناعي المناسب

استخدم إطار عمل تحديد النماذج هذا لاختيار النموذج الأنسب مع تحقيق التوازن بين متطلبات الأداء في مؤسستك، واحتياجات التكلفة، والنشر، والمخاطر.

محتوى ذو صلة التسجيل للحصول على كتاب إلكتروني عن مخازن بيانات الذكاء الاصطناعي
ما المقصود بالمتجهات؟

تُعدّ المتجهات مجموعة فرعية من الموترات، وهو مصطلح معروف في التعلم الآلي بأنه مصطلح عامّ يشير إلى مجموعة من الأرقام، أو تجمُّع يضم مجموعات من الأرقام، في الفضاء ذي البُعد n. تعمل الموترات كوسيلة لضبط الحسابات الرياضية للبيانات. بدءًا من أصغر عنصر:

  • العدد القياسي هو موتر ذو بُعد صفري، ويحتوي على رقم واحد. فمثلاً، نظام نمذجة بيانات الطقس قد يمثل درجة الحرارة العظمى ليوم واحد (بالفهرنهايت) في شكل عدد قياسي مثل 85.

  • والمتجه هو موتر أحادي البعد (أو من الدرجة الأولى)، يحتوي على أشكال عددية متعددة للنوع نفسه من البيانات. فمثلاً، قد يستخدم نموذج الطقس درجات الحرارة الدنيا، والمتوسطة، والعظمى ليوم واحد في شكل متجه كالتالي: 62، 77، 85. كل عنصر عدد قياسي هو سمة، أي إنه بُعد للمتجه، يمثل سمة من سمات طقس ذلك اليوم.

قد تمثل الأرقام المتجهة كائنات معقدة، كالكلمات، والصور، ومقاطع الفيديو والصوت التي يتم إنشاؤها بواسطة نموذج من نماذج التعلم الآلي. تُعد بيانات المتجهات عالية الأبعاد هذه، والتي تحتوي على سمات متعددة، ضرورية للتعلم الآلي، ومعالجة اللغة الطبيعية (NLP)، ومهام الذكاء الاصطناعي الأخرى. فيما يلي بعض الأمثلة على استخدامات بيانات المتجهات: 

  • النصوص: تحتاج روبوتات المحادثة إلى فهم اللغة الطبيعية. يتم ذلك من خلال الاعتماد على المتجهات التي تمثل الكلمات، والفقرات، والمستندات بأكملها.

  • الصور: يمكن وصف وحدات البكسل في الصورة بواسطة بيانات رقمية ودمجها لتكوين متجه عالي الأبعاد لتلك الصورة. 

  • الكلام أو المقاطع الصوتية: مثلها مثل الصور، يمكن أيضًا تقسيم الموجات الصوتية إلى بيانات رقمية وتمثيلها كمتجهات، فينجح تمكين تطبيقات الذكاء الاصطناعي كالتعرف على الصوت. 
ما المقصود بالتضمينات المتجهة؟ 

التضمينات المتجهة هي تمثيلات رقمية لنقاط البيانات تحوِّل أنواعًا مختلفة من البيانات إلى مجموعات من الأرقام يمكن لنماذج التعلم الآلي معالجتها بنجاح، كالبيانات غير الرياضية، مثل الكلمات، أو الصوت، أو الصور.

نماذج الذكاء الاصطناعي، بدءًا من خوارزميات الانحدار الخطي البسيطة إلى الشبكات العصبية المعقدة المستخدمة في التعلم العميق والتي تعمل باستخدام المنطق الرياضي.

يجب تسجيل أي بيانات يستخدمها نموذج الذكاء الاصطناعي رقميًّا، ومنها البيانات غير المنظمة. يُعدّ تضمين المتجهات طريقة لتحويل نقطة بيانات غير منظمة إلى مجموعة من الأرقام تعبِّر عن المعنى الأصلي لتلك البيانات.

فيما يلي مثال مبسَّط على تضمينات الكلمات لمجموعة صغيرة جدًّا من النصوص (كلمتَين)، حيث يتم تمثيل كل كلمة كمتجه ثلاثي الأبعاد:

  • قطة          [0.2، -0.4، 0.7]
  • كلب         [0.6، 0.1، 0.5]

في هذا المثال، ترتبط كل كلمة ("قطة") بمتجه فريد ([0.2، -0.4، 0.7]). والقيم الموجودة في المتجه تمثل موضع الكلمة في مساحة متجهة ثلاثية الأبعاد مستمرة.

ومن المتوقع أن تكون للكلمات ذات المعاني أو السياقات المتشابهة تمثيلات متجهة متشابهة. فمثلاً، المتجهات الخاصة بكلمتي "قطة" و"كلب" قريبة من بعضها، وهو ما يشير إلى وجود علاقة دلالية بينهما.

يتم تدريب نماذج التضمين لتحويل نقاط البيانات إلى متجهات. تقوم قواعد بيانات المتجهات بتخزين وفهرسة مخرجات نماذج التضمين هذه. داخل قاعدة البيانات، يمكن تجميع المتجهات معًا أو تحديدها على أنها أضداد بناءً على المعنى الدلالي أو الميزات عبر أي نوع بيانات.

تُعدّ عمليات تضمين المتجهات هي الأساس للتوصيات، وروبوتات المحادثة، والتطبيقات التوليدية مثل ChatGPT.

فمثلاً، لنأخذ الكلمتَين "سيارة" و"مركبة". الكلمتان لهما معانٍ متشابهة، لكن تتم تهجئتهما بحروف مختلفة. وليتمكن تطبيق الذكاء الاصطناعي من تمكين البحث الدلالي الفعال، يجب أن تلتقط التمثيلات المتجهة لكلمتي "السيارة" و"المركبة" التشابه الدلالي بينهما. في التعلم الآلي، تمثل التضمينات متجهات عالية الأبعاد والتي تقوم بتشفير هذه المعلومات الدلالية. 

درس تعليمي: تنفيذ الذكاء الاصطناعي التوليدي في الأتمتة الذكية لسير العمل باستخدام منصة IBM watsonx
كيف يتم استخدام قواعد بيانات المتجهات؟

قواعد بيانات المتجهات تخدم ثلاث وظائف رئيسية في تطبيقات الذكاء الاصطناعي والتعلم الآلي:

  • تخزين المتجهات
  • فهرسة المتجهات
  • البحث عن التشابه بناءً على الاستعلام أو المطالبة

عند التشغيل، تعمل قواعد بيانات المتجهات باستخدام خوارزميات متعددة لإجراء بحث عن الجار الأقرب التقريبي (ANN). ثم يتم بعد ذلك تجميع الخوارزميات في مسار لاسترجاع وتسليم البيانات المجاورة للمتجه الذي يجري الاستعلام عنه بسرعة ودقة.

فمثلاً، يمكن أن يؤدي بحث ANN إلى البحث عن المنتجات المتشابهة بصريًّا في كتالوج التجارة الإلكترونية. تتضمن الاستخدامات الإضافية اكتشاف حالات الخلل غير الطبيعي والتصنيف والبحث الدلالي. ولأن مجموعة البيانات تعمل من خلال النموذج مرة واحدة فقط، يتم إرجاع النتائج في أجزاء من الثانية.

تخزين المتجهات

تقوم قواعد بيانات المتجهات بتخزين مخرجات إحدى خوارزميات نموذج التضمين، وهي تضمينات المتجهات. كما تقوم أيضًا بتخزين البيانات الوصفية لكل متجه، بما في ذلك العنوان والوصف ونوع البيانات، والتي يمكن الاستعلام عنها باستخدام عوامل تصفية البيانات الوصفية.

ومن خلال استيعاب وتخزين هذه التضمينات، يمكن لقاعدة البيانات تسهيل الاسترجاع السريع للبحث عن التشابه، ومطابقة مطالبة المستخدم مع تضمين متجه مشابه. 

فهرسة المتجهات

تحتاج المتجهات إلى فهرستها لتسريع عمليات البحث في مساحات البيانات عالية الأبعاد. حيث تنشئ قواعد بيانات المتجهات فهارس على تضمينات المتجهات لخدمة وظائف البحث.

تقوم قاعدة بيانات المتجهات بفهرسة المتجهات باستخدام إحدى خوارزميات التعلم الآلي. ثم تقوم الفهرسة بربط المتجهات بهياكل بيانات جديدة تمكِّن عمليات بحث أسرع عن التشابه أو المسافة، مثل عمليات البحث عن الجار الأقرب، بين المتجهات.

يمكن فهرسة المتجهات باستخدام خوارزميات مثل خوارزمية HNSW (عالم صغير هرمي يمكن التنقل فيه)، أو خوارزمية LSH (التجزئة الحساسة للمكان) أو خوارزمية PQ (التمثيل الكمّي للمنتج).

  • خوارزمية HNSW تحظى بشهرة كبيرة لأنها تنشئ بنية تشبه الشجرة. حيث تعرض كل عقدة من الشجرة مجموعة من المتجهات كاملة مع تسلسلات هرمية في كل منها. وتظهر أوجه الشبه بين المتجهات عند الحواف بين العُقد.

  • خوارزمية LSH تقوم بفهرسة المحتوى باستخدام البحث التقريبي لأقرب جار. ولتحقيق سرعة إضافية، يمكن تحسين الفهرس من خلال إرجاع نتيجة تقريبية، لكن غير شاملة.

  • خوارزمية PQ تقوم بتحويل كل مجموعة بيانات إلى تمثيل قصير وذي كفاءة من ناحية الذاكرة. يتم تخزين التمثيلات القصيرة فقط، وليس كل المتجهات.
البحث عن التشابه بناءً على الاستعلام أو المطالبة

تُعد متجهات الاستعلام تمثيلات متجهات لاستعلامات البحث. عندما يقوم المستخدم بالاستعلام أو المطالبة بنموذج الذكاء الاصطناعي، يقوم النموذج بحساب تضمين الاستعلام أو المطالبة. ثم تقوم قاعدة البيانات بحساب المسافات بين متجهات الاستعلام والمتجهات المخزنة في الفهرس لإرجاع النتائج المتشابهة.

يمكن لقواعد البيانات قياس المسافة بين المتجهات باستخدام خوارزميات مختلفة، مثل خوارزمية البحث عن الجار الأقرب. كما أن القياسات تعتمد أيضًا على مقاييس تشابه متنوعة، مثل تشابه جيب التمام.

حيث تقوم قاعدة البيانات بإرجاع المتجهات الأكثر تشابهًا أو أقرب الجيران لمتجه الاستعلام حسب درجة التشابه. وتدعم هذه العمليات الحسابية مهام التعلم الآلي المتنوعة، مثل أنظمة التوصية، والبحث الدلالي، والتعرف على الصور، وغيرها من مهام معالجة اللغة الطبيعية. 

مزايا قواعد بيانات المتجهات

تُعدّ قواعد بيانات المتجهات طريقة شائعة لتشغيل التطبيقات المستندة إلى الذكاء الاصطناعي للمؤسسة، وذلك لأنها توفر العديد من الفوائد:

  • السرعة والأداء العالي
  • قابلية التوسع
  • انخفاض تكلفة الملكية
  • إدارة البيانات
  • المرونة
السرعة والأداء العالي

تستخدم قواعد بيانات المتجهات تقنيات فهرسة متنوعة لتمكين البحث بشكل أسرع. تساعد خوارزميات فهرسة المتجهات وحساب المسافة، مثل البحث عن الجار الأقرب، في تحسين الأداء عند البحث عن النتائج ذات الصلة في مجموعات البيانات الكبيرة التي تحتوي على ملايين من نقاط البيانات، إن لم يكن المليارات.

أحد الاعتبارات هو أن قواعد بيانات المتجهات توفر نتائج تقريبية. قد تحتاج التطبيقات التي تتطلب دقة أكبر إلى استخدام نوع مختلف من قواعد البيانات، حتى ولو جاء هذا على حساب سرعة المعالجة حيث تكون أبطأ.

قابلية التوسع

بإمكان قواعد بيانات المتجهات تخزين وإدارة كميات هائلة من البيانات غير المنظمة عن طريق التوسع أفقيًّا باستخدام عُقد إضافية، مع الحفاظ على الأداء كلما زادت طلبات الاستعلام وزاد حجم البيانات.

انخفاض تكلفة الملكية

ولأنها تتيح استرجاع البيانات بسرعة أكبر، تعمل قواعد بيانات المتجهات على تسريع تدريب نماذج الأساس.

إدارة البيانات

توفر قواعد بيانات المتجهات عادةً ميزات مضمنة لتحديث البيانات غير المنظمة الجديدة ولسهولة إدراجها. 

المرونة

تم إنشاء قواعد بيانات المتجهات للتعامل مع التعقيد الإضافي الذي يظهر عند استخدام الصور، أو مقاطع الفيديو، أو البيانات الأخرى متعددة الأبعاد.

نظرًا إلى حالات الاستخدام المتعددة التي تتراوح بين البحث الدلالي وتطبيقات الذكاء الاصطناعي الحواري، يمكن تخصيص قواعد بيانات المتجهات لتلبية متطلبات الأعمال والذكاء الاصطناعي بشكل مخصص يلائم الكل. يمكن أن تبدأ المؤسسات باستخدام نموذج عامّ مثل نماذج سلسلة IBM Granite أو نماذج Llama-2 من شركة Meta أو نماذج Flan من شركة Google، ثم توفير بياناتها الخاصة في قاعدة بيانات متجهات لتحسين كل من مخرجات النماذج وتطبيقات الذكاء الاصطناعي.

اعتبارات لقواعد بيانات المتجهات واستراتيجية البيانات

تتاح للمؤسسات مجموعة كبيرة من الخيارات عند اختيار إحدى قدرات قواعد بيانات المتجهات. للعثور على ما يلبي احتياجات البيانات والذكاء الاصطناعي، تضع العديد من المؤسسات في حسبانها ما يلي:

  • أنواع قواعد بيانات المتجهات
  • التكامل مع إحدى منظومات البيانات
  • عندما لا تكون فهرسة المتجهات في حالتها المثلى
  • أدوات لإنشاء ونشر قواعد بيانات المتجهات
أنواع قواعد بيانات المتجهات

يوجد عدد قليل جدًّا من البدائل للاختيار من بينها.

  • قواعد بيانات مستقلة ومملوكة وموجهة بالكامل مثل Pinecone.

  • الحلول مفتوحة المصدر مثل Weaviate أو Milvus، والتي توفر واجهات RESTful API مدمجة ودعمًا للغات البرمجة  Python و Java.

  • المنصات التي تم دمج قدرات قواعد بيانات المتجهات فيها، مثل IBM watsonx.data.

  • قاعدة بيانات المتجهات والوظائف الإضافية الخاصة بالبحث في قاعدة البيانات مثل الوظيفة الإضافية pgvector مفتوحة المصدر الخاصة بنظام PostgreSQL، والتي توفر قدرات البحث عن تشابه المتجهات. بإمكان قاعدة بيانات متجهات SQL أن تجمع بين مزايا قاعدة بيانات SQL التقليدية وقوة قاعدة بيانات المتجهات.
التكامل مع إحدى منظومات البيانات

لا ينبغي اعتبار قواعد بيانات المتجهات قدرات قائمة بذاتها، بل هي جزء من نظام أوسع للبيانات والذكاء الاصطناعي.

يقدم العديد منها واجهات برمجة تطبيقات أو وظائف إضافية أصلية أو يمكن دمجها مع قواعد البيانات. ولأن قواعد بيانات المتجهات مصممة لاستخدام بيانات المؤسسة لتحسين النماذج، يجب أن تتميز المؤسسات أيضًا بحوكمة وأمن ملائمَين للبيانات لضمان إمكانية الوثوق بالبيانات المستخدمة لتدريب النماذج اللغوية الكبيرة (LLM). 

علاوة على واجهات برمجة التطبيقات، يستخدم العديد من قواعد بيانات المتجهات حزم تطوير البرامج (SDK) حسب كل لغة برمجة، والتي يمكنها التحكم الكامل في واجهات برمجة التطبيقات. وبفضل استخدام حزم تطوير البرامج (SDK)، يجد المطورون التعامل مع البيانات في تطبيقاتهم أسهل غالبًا.

عندما لا تكون فهرسة المتجهات في حالتها المثلى

يُعدّ من الملائم تمامًأ استخدام مخزن متجهات وفهرس متجهات للتطبيقات التي تعتمد على حقائق أو الاستعلام المبني على حقائق، مثل استخراج معلومات محددة من مستندات معقدة. 

لكن طلب ملخص للموضوعات لن يعمل بشكل جيد مع فهرس المتجهات. في هذه الحالة، سوف يمر النموذج اللغوي الكبير (LLM) خلال كل السياقات المحتملة المختلفة حول هذا الموضوع ضمن البيانات.

وقد يكون أسرع خيار هو استخدام نوع مختلف من الفهرس، مثل فهرس القائمة بدلاً من فهرس المتجهات؛ لأن فهرس القائمة سيجلب العنصر الأول فورًا في كل قائمة.

أدوات لإنشاء ونشر قواعد بيانات المتجهات

لتحسين تطوير قاعدة بيانات المتجهات، يُعدّ LangChain إطار عمل تنسيق مفتوح المصدر لتطوير التطبيقات التي تستخدم النماذج اللغوية الكبيرة (LLM).

تعمل أدوات LangChain وواجهات برمجة التطبيقات المتوفرة في كل من المكتبات المستندة إلى Python و JavaScript على تبسيط عملية إنشاء التطبيقات المستندة إلى النماذج اللغوية الكبيرة (LLM)، مثل برامج روبوت المحادثة والوكلاء الافتراضيين.توفر LangChain عمليات تكامل لأكثر من 25 طريقة تضمين مختلفة، ولأكثر من 50 مخزن متجهات مختلفة (سواء أكانت مستضافة على خدمة سحابية أم محلية).

لتفعيل الذكاء الاصطناعي على مستوى المؤسسة، قد يتم إقران مستودع البيانات بقاعدة بيانات متجهات متكاملة. بإمكان المؤسسات توحيد، وتنسيق، وتجهيز التضمينات الموجَّهة بحيث تخدم تطبيقات الذكاء الاصطناعي التوليدي الخاصة بكل مؤسسة على نطاق واسع، وذلك عبر بياناتها الموثوق بها التي يتم التحكم فيها. يؤدي ذلك إلى تحسين أهمية أعباء عمل الذكاء الاصطناعي ودقتها لدى المؤسسة، بما في ذلك روبوتات المحادثة، وأنظمة التوصية المخصصة، وتطبيقات البحث عن تشابه الصور.

حالات استخدام لقواعد بيانات المتجهات

تتسم قواعد بيانات المتجهات بأن لها تطبيقات واسعة النطاق وآخذة في الزيادة. تتضمن بعض حالات الاستخدام الرئيسية ما يلي:

  • التوليد المعزَّز بالاسترداد (RAG)
  • الذكاء الاصطناعي الحواري
  • محركات التوصية
  • بحث المتجهات
التوليد المعزَّز بالاسترداد (RAG)

التوليد المعزَّز بالاسترداد هو إطار عمل للذكاء الاصطناعي لتمكين نماذج اللغة الكبيرة (LLM) من استرداد الحقائق من قاعدة معارف خارجية. تعتبر قواعد بيانات المتجهات أساسية لدعم تطبيقات التوليد المعزَّز بالاسترداد.

تفضِّل الشركات بشكل متزايد استخدام التوليد المعزَّز بالاسترداد في سير عمل الذكاء الاصطناعي التوليدي لسرعة دخول منتجاته إلى السوق ونظرًا إلى استدلاله الفعال ومخرجاته الموثوق بها. ويُعدّ إطار العمل هذا مفيدًا بشكل خاص في بعض حالات الاستخدام، مثل خدمة العملاء، والموارد البشرية، وإدارة المواهب.

يساعد التوليد المعزَّز بالاسترداد على التأكد من أن النموذج مرتبط بالحقائق الأكثر حداثةً وموثوقيةً، وأن المستخدمين لديهم إمكانية الوصول إلى مصادر النموذج حتى يمكن التحقق من ادعاءاته. كما أن تثبيت نموذج اللغة الكبير (LLM) في البيانات الموثوق بها يساعد في تقليل هلوسة النماذج.

يستخدم التوليد المعزَّز بالاسترداد بيانات متجهات عالية الأبعاد لإثراء المطالبات وتزويدها بالمعلومات ذات الصلة اللغوية للتعلم في السياق من قِبَل نماذج الأساس. يتطلب التوليد المعزَّز بالاسترداد تخزينًا واسترجاعًا فعالاً خلال مرحلة الاستدلال التي تتعامل مع أكبر حجم من البيانات.

تتفوق قواعد بيانات المتجهات في فهرسة هذه المتجهات عالية الأبعاد وتخزينها واسترجاعها بكفاءة، وهو ما يوفر السرعة، والدقة، والأحجام اللازمة لتطبيقات مثل محركات التوصية وروبوتات المحادثة.

الذكاء الاصطناعي الحواري

تساعد قواعد بيانات المتجهات، خاصةً عند استخدامها لتنفيذ أطر عمل التوليد المعزَّز بالاسترداد، في تحسين تفاعلات الوكيل الافتراضي من خلال تحسين قدرة الوكيل على تحليل قواعد المعارف ذات الصلة بكل دقة وكفاءة. يمكن للوكلاء تقديم إجابات سياقية عن استفسارات المستخدم في الوقت الفعلي، علاوة على مستندات المصدر وأرقام الصفحات كمرجع.

محركات التوصية

فمثلاً، يمكن لمواقع التجارة الإلكترونية استخدام المتجهات لتمثيل تفضيلات العملاء وخصائص المنتج؛ حيث إن هذا يمكّنهم من اقتراح عناصر مشابهة للمشتريات السابقة، بناءً على تشابه المتجهات، وهو ما يعزز تجربة المستخدم ويزيد من الاحتفاظ به كعميل دائم.

بحث المتجهات

تُستخدم تقنية البحث هذه لاكتشاف العناصر أو نقاط البيانات المشابهة، والتي يتم تمثيلها عادةً كمتجهات، في مجموعات كبيرة. بإمكان بحث المتجهات التقاط العلاقات الدلالية بين العناصر، وهو ما يتيح المعالجة الفعالة من قِبَل نماذج التعلم الآلي وتطبيقات الذكاء الاصطناعي. 

وتتخذ عمليات البحث هذه أشكالاً عديدة.

  • البحث الدلالي: لإجراء عمليات بحث استنادًا إلى المعنى أو سياق الاستعلام، وهو ما يتيح الحصول على نتائج أكثر دقةً وملاءمةً. ولأنه يمكن تمثيل كل من الكلمات والعبارات كمتجهات، فإن وظائف البحث الدلالي للمتجهات تفهم مقصود المستخدم بشكل أفضل من الكلمات الرئيسية العامة. 

  • البحث عن التشابه وتطبيقاته: للبحث عن الصور، أو الصوت، أو الفيديو، أو البيانات النصية المشابهة لدعم التعرف المتقدم على الصور والكلام ومعالجة اللغة الطبيعية. يمكن فهرسة الصور والفيديو واسترجاعهما على أساس درجة التشابه.
الحلول
watsonx

تُعدّ IBM watsonx منصة للذكاء الاصطناعي والبيانات تم تصميمها لخدمة مجال الأعمال، حيث يمكنك إنشاء تطبيقات الذكاء الاصطناعي المخصصة بسهولة وإدارة جميع مصادر البيانات وتسريع سير عمل الذكاء الاصطناعي المسؤول؛ كل ذلك من منصة واحدة. 

تعرّف على المزيد عن watsonx

خدمة IBM Cloud Databases for Elasticsearch

تجمع IBM Cloud Databases for Elasticsearch بين مرونة محرك البحث النصي الكامل وقوة فهرسة قواعد بيانات مستندات JSON. من خلال الجمع بين نماذج التعلم الآلي (ML) المتكاملة، وعُقد التعلم الآلي المتخصصة، وأنواع البيانات، وخوارزميات البحث، فإن خدمة IBM Cloud Databases for Elasticsearch جاهزة لدعم مؤسستك وتحسين أدائها.

تعرَّف على المزيد عن IBM Cloud Databases for Elasticsearch
IBM Cloud Databases for PostgreSQL

تُعدّ IBM Cloud Databases for PostgreSQL أحد العروض المقدمة لطرح قاعدة بيانات PostgreSQL كخدمة، وهي تتيح لفِرق العمل قضاء مزيد من الوقت في البناء مع ضمان التوفر العالي، وتنظيم عملية النسخ الاحتياطي، والاسترداد في نقطة زمنية معينة (PITR)، وقراءة النسخ المكررة بسهولة.

تعرَّف على المزيد عن IBM Cloud Databases for PostgreSQL
الموارد كيف أطلقت نماذج الأساس ومخازن البيانات الميزات الكامنة في الذكاء الاصطناعي التوليدي لخدمة مجال الأعمال؟

يمكن للمؤسسات التي تستخدم نماذج الذكاء الاصطناعي التوليدي بشكل صحيح أن تحصد عددًا لا يحصى من المزايا؛ بدءًا من زيادة الكفاءة التشغيلية وتحسين عملية اتخاذ القرار إلى الإنشاء السريع للمحتوى التسويقي.

مساعدو الذكاء الاصطناعي التوليدي من IBM: دليل المشتري الكامل لعام 2024

استخدم هذا الدليل لفهم ما يقدمه مساعدو الذكاء الاصطناعي من IBM، والجمهور المستفيد، وكيفية مقارنتهم بالخيارات الأخرى، وكيفية البدء في استخدامهم.

ما المقصود بجيل التوليد المعزَّز بالاسترداد؟

يُعدّ التوليد المعزَّز بالاسترداد إطار عمل للذكاء الاصطناعي لاسترداد الحقائق من قاعدة معارف خارجية لتأسيس النماذج اللغوية الكبيرة بناءً على معلومات أكثر دقةً وحداثةً ولمنح المستخدمين رؤية للعملية التوليدية في النماذج اللغوية الكبيرة.

اتخِذ الخطوة التالية

يمكنك توسيع نطاق أحمال تشغيل الذكاء الاصطناعي ليشمل جميع بياناتك، في أي مكان، مع IBM watsonx.data، وهو مخزن بيانات مناسب حسب الغرض مبني على أساس مستودع بيانات مفتوح.

استكشف watsonx.data احجز عرضًا توضيحيًا مباشرًا
الحواشي

تؤدي كل الروابط إلى صفحات خارج ibm.com.

1 بحث Gartner Innovation Insight: قواعد بيانات المتجهات، Gartner، بتاريخ 4 سبتمبر 2023.

2 خارطة الطريق الاستراتيجية للتخزين لعام 2024، Gartner، بتاريخ 27 مايو 2024.