تم التحديث: 29 يوليو 2024
المساهمون: جيم هولدوورث، وماثيو كوسينسكي
اكتسبت قواعد بيانات المتجهات شهرة ورواجًا متزايدًا لأنها توفر السرعة والأداء اللازمَين لتشغيل حالات استخدام الذكاء الاصطناعي التوليدي وتطبيقاته. وفقًا لشركة الأبحاث Gartner، سيعتمد أكثر من 30% من المؤسسات، بحلول عام 2026، قواعد بيانات المتجهات لبناء نماذجها الأساسية باستخدام بيانات الأعمال ذات الصلة.1
على عكس قواعد البيانات العلائقية التقليدية التي تحتوي على صفوف وأعمدة، يتم تمثيل نقاط البيانات في قاعدة بيانات المتجهات بواسطة متجهات ذات عدد ثابت من الأبعاد. ولأنها تستخدم تضمينات متجهات عالية الأبعاد، فإن قواعد بيانات المتجهات تكون أكثر قدرةً على التعامل مع مجموعات البيانات غير المنظمة.
حقًا لقد شهدت طبيعة البيانات تحولاً جذريًا. فلم يَعُد الأمر يقتصر على المعلومات المنظَّمة المخزَّنة بسهولة في قواعد بيانات تقليدية. بل ازداد نمو وانتشار البيانات غير المنظَّمة، والتي تشمل منشورات وسائل التواصل الاجتماعي، والصور، ومقاطع الفيديو، والمقاطع الصوتية، والمزيد، بنسبة تراوحت بين 30% و60% مقارنةً بالعام الماضي.2
تتفوق قواعد البيانات العلائقية في إدارة مجموعات البيانات المنظمة وشبه المنظمة بتنسيقات محددة. ويُعدّ تحميل مصادر البيانات غير المنظمة إلى قاعدة البيانات العلائقية التقليدية لتخزين البيانات وإدارتها وإعدادها للذكاء الاصطناعي عملية مجهدة تتطلب كثيرًا من العمل، خاصةً مع حالات الاستخدام التوليدية الجديدة كالبحث عن التشابه أو التماثل.
البحث التقليدي يمثل البيانات عادةً باستخدام رموز مميزة أو ميزات منفصلة، مثل الكلمات الرئيسية، أو العلامات، أو البيانات الوصفية. تعتمد عمليات البحث التقليدية على المطابقات الدقيقة لاسترداد نتائج ذات صلة. فمثلاً، قد يؤدي البحث عن "هاتف ذكي" إلى ظهور نتائج تحتوي على كلمة "هاتف ذكي".
وعلى العكس من ذلك، يمثل بحث المتجهات البيانات كمتجهات كثيفة، وهي متجهات تكون معظم عناصرها أو كلها غير صفرية. حيث يتم تمثيل المتجهات في مساحة متجهة مستمرة، وهي المساحة الرياضية التي يتم فيها تمثيل البيانات كمتجهات.
تتيح عمليات التمثيل المتجهة إمكانية البحث عن التشابه. فمثلاً، قد يؤدي أيضًا البحث المتجه عن "الهاتف الذكي" إلى عرض نتائج لكل من "الهاتف المحمول" و"الأجهزة المحمولة".
كل بُعد من أبعاد المتجه الكثيف يتوافق مع ميزة كامنة أو جانب كامن من البيانات. تُعدّ الميزة الكامنة سمة أو خاصية أساسية لا تتم ملاحظتها بشكل مباشر، لكن يتم استنتاجها من البيانات عبر النماذج الرياضية أو الخوارزميات.
تعمل الميزات الكامنة على التقاط الأنماط والعلاقات المخفية في البيانات، وهو ما يتيح تمثيلاً أكثر دقةً وذا مغزى أكبر للعناصر كمتجهات في فضاء عالي الأبعاد.
استخدم إطار عمل تحديد النماذج هذا لاختيار النموذج الأنسب مع تحقيق التوازن بين متطلبات الأداء في مؤسستك، واحتياجات التكلفة، والنشر، والمخاطر.
تُعدّ المتجهات مجموعة فرعية من الموترات، وهو مصطلح معروف في التعلم الآلي بأنه مصطلح عامّ يشير إلى مجموعة من الأرقام، أو تجمُّع يضم مجموعات من الأرقام، في الفضاء ذي البُعد n. تعمل الموترات كوسيلة لضبط الحسابات الرياضية للبيانات. بدءًا من أصغر عنصر:
قد تمثل الأرقام المتجهة كائنات معقدة، كالكلمات، والصور، ومقاطع الفيديو والصوت التي يتم إنشاؤها بواسطة نموذج من نماذج التعلم الآلي. تُعد بيانات المتجهات عالية الأبعاد هذه، والتي تحتوي على سمات متعددة، ضرورية للتعلم الآلي، ومعالجة اللغة الطبيعية (NLP)، ومهام الذكاء الاصطناعي الأخرى. فيما يلي بعض الأمثلة على استخدامات بيانات المتجهات:
التضمينات المتجهة هي تمثيلات رقمية لنقاط البيانات تحوِّل أنواعًا مختلفة من البيانات إلى مجموعات من الأرقام يمكن لنماذج التعلم الآلي معالجتها بنجاح، كالبيانات غير الرياضية، مثل الكلمات، أو الصوت، أو الصور.
نماذج الذكاء الاصطناعي، بدءًا من خوارزميات الانحدار الخطي البسيطة إلى الشبكات العصبية المعقدة المستخدمة في التعلم العميق والتي تعمل باستخدام المنطق الرياضي.
يجب تسجيل أي بيانات يستخدمها نموذج الذكاء الاصطناعي رقميًّا، ومنها البيانات غير المنظمة. يُعدّ تضمين المتجهات طريقة لتحويل نقطة بيانات غير منظمة إلى مجموعة من الأرقام تعبِّر عن المعنى الأصلي لتلك البيانات.
فيما يلي مثال مبسَّط على تضمينات الكلمات لمجموعة صغيرة جدًّا من النصوص (كلمتَين)، حيث يتم تمثيل كل كلمة كمتجه ثلاثي الأبعاد:
في هذا المثال، ترتبط كل كلمة ("قطة") بمتجه فريد ([0.2، -0.4، 0.7]). والقيم الموجودة في المتجه تمثل موضع الكلمة في مساحة متجهة ثلاثية الأبعاد مستمرة.
ومن المتوقع أن تكون للكلمات ذات المعاني أو السياقات المتشابهة تمثيلات متجهة متشابهة. فمثلاً، المتجهات الخاصة بكلمتي "قطة" و"كلب" قريبة من بعضها، وهو ما يشير إلى وجود علاقة دلالية بينهما.
يتم تدريب نماذج التضمين لتحويل نقاط البيانات إلى متجهات. تقوم قواعد بيانات المتجهات بتخزين وفهرسة مخرجات نماذج التضمين هذه. داخل قاعدة البيانات، يمكن تجميع المتجهات معًا أو تحديدها على أنها أضداد بناءً على المعنى الدلالي أو الميزات عبر أي نوع بيانات.
تُعدّ عمليات تضمين المتجهات هي الأساس للتوصيات، وروبوتات المحادثة، والتطبيقات التوليدية مثل ChatGPT.
فمثلاً، لنأخذ الكلمتَين "سيارة" و"مركبة". الكلمتان لهما معانٍ متشابهة، لكن تتم تهجئتهما بحروف مختلفة. وليتمكن تطبيق الذكاء الاصطناعي من تمكين البحث الدلالي الفعال، يجب أن تلتقط التمثيلات المتجهة لكلمتي "السيارة" و"المركبة" التشابه الدلالي بينهما. في التعلم الآلي، تمثل التضمينات متجهات عالية الأبعاد والتي تقوم بتشفير هذه المعلومات الدلالية.
قواعد بيانات المتجهات تخدم ثلاث وظائف رئيسية في تطبيقات الذكاء الاصطناعي والتعلم الآلي:
عند التشغيل، تعمل قواعد بيانات المتجهات باستخدام خوارزميات متعددة لإجراء بحث عن الجار الأقرب التقريبي (ANN). ثم يتم بعد ذلك تجميع الخوارزميات في مسار لاسترجاع وتسليم البيانات المجاورة للمتجه الذي يجري الاستعلام عنه بسرعة ودقة.
فمثلاً، يمكن أن يؤدي بحث ANN إلى البحث عن المنتجات المتشابهة بصريًّا في كتالوج التجارة الإلكترونية. تتضمن الاستخدامات الإضافية اكتشاف حالات الخلل غير الطبيعي والتصنيف والبحث الدلالي. ولأن مجموعة البيانات تعمل من خلال النموذج مرة واحدة فقط، يتم إرجاع النتائج في أجزاء من الثانية.
تقوم قواعد بيانات المتجهات بتخزين مخرجات إحدى خوارزميات نموذج التضمين، وهي تضمينات المتجهات. كما تقوم أيضًا بتخزين البيانات الوصفية لكل متجه، بما في ذلك العنوان والوصف ونوع البيانات، والتي يمكن الاستعلام عنها باستخدام عوامل تصفية البيانات الوصفية.
ومن خلال استيعاب وتخزين هذه التضمينات، يمكن لقاعدة البيانات تسهيل الاسترجاع السريع للبحث عن التشابه، ومطابقة مطالبة المستخدم مع تضمين متجه مشابه.
تحتاج المتجهات إلى فهرستها لتسريع عمليات البحث في مساحات البيانات عالية الأبعاد. حيث تنشئ قواعد بيانات المتجهات فهارس على تضمينات المتجهات لخدمة وظائف البحث.
تقوم قاعدة بيانات المتجهات بفهرسة المتجهات باستخدام إحدى خوارزميات التعلم الآلي. ثم تقوم الفهرسة بربط المتجهات بهياكل بيانات جديدة تمكِّن عمليات بحث أسرع عن التشابه أو المسافة، مثل عمليات البحث عن الجار الأقرب، بين المتجهات.
يمكن فهرسة المتجهات باستخدام خوارزميات مثل خوارزمية HNSW (عالم صغير هرمي يمكن التنقل فيه)، أو خوارزمية LSH (التجزئة الحساسة للمكان) أو خوارزمية PQ (التمثيل الكمّي للمنتج).
تُعد متجهات الاستعلام تمثيلات متجهات لاستعلامات البحث. عندما يقوم المستخدم بالاستعلام أو المطالبة بنموذج الذكاء الاصطناعي، يقوم النموذج بحساب تضمين الاستعلام أو المطالبة. ثم تقوم قاعدة البيانات بحساب المسافات بين متجهات الاستعلام والمتجهات المخزنة في الفهرس لإرجاع النتائج المتشابهة.
يمكن لقواعد البيانات قياس المسافة بين المتجهات باستخدام خوارزميات مختلفة، مثل خوارزمية البحث عن الجار الأقرب. كما أن القياسات تعتمد أيضًا على مقاييس تشابه متنوعة، مثل تشابه جيب التمام.
حيث تقوم قاعدة البيانات بإرجاع المتجهات الأكثر تشابهًا أو أقرب الجيران لمتجه الاستعلام حسب درجة التشابه. وتدعم هذه العمليات الحسابية مهام التعلم الآلي المتنوعة، مثل أنظمة التوصية، والبحث الدلالي، والتعرف على الصور، وغيرها من مهام معالجة اللغة الطبيعية.
تُعدّ قواعد بيانات المتجهات طريقة شائعة لتشغيل التطبيقات المستندة إلى الذكاء الاصطناعي للمؤسسة، وذلك لأنها توفر العديد من الفوائد:
تستخدم قواعد بيانات المتجهات تقنيات فهرسة متنوعة لتمكين البحث بشكل أسرع. تساعد خوارزميات فهرسة المتجهات وحساب المسافة، مثل البحث عن الجار الأقرب، في تحسين الأداء عند البحث عن النتائج ذات الصلة في مجموعات البيانات الكبيرة التي تحتوي على ملايين من نقاط البيانات، إن لم يكن المليارات.
أحد الاعتبارات هو أن قواعد بيانات المتجهات توفر نتائج تقريبية. قد تحتاج التطبيقات التي تتطلب دقة أكبر إلى استخدام نوع مختلف من قواعد البيانات، حتى ولو جاء هذا على حساب سرعة المعالجة حيث تكون أبطأ.
بإمكان قواعد بيانات المتجهات تخزين وإدارة كميات هائلة من البيانات غير المنظمة عن طريق التوسع أفقيًّا باستخدام عُقد إضافية، مع الحفاظ على الأداء كلما زادت طلبات الاستعلام وزاد حجم البيانات.
ولأنها تتيح استرجاع البيانات بسرعة أكبر، تعمل قواعد بيانات المتجهات على تسريع تدريب نماذج الأساس.
توفر قواعد بيانات المتجهات عادةً ميزات مضمنة لتحديث البيانات غير المنظمة الجديدة ولسهولة إدراجها.
تم إنشاء قواعد بيانات المتجهات للتعامل مع التعقيد الإضافي الذي يظهر عند استخدام الصور، أو مقاطع الفيديو، أو البيانات الأخرى متعددة الأبعاد.
نظرًا إلى حالات الاستخدام المتعددة التي تتراوح بين البحث الدلالي وتطبيقات الذكاء الاصطناعي الحواري، يمكن تخصيص قواعد بيانات المتجهات لتلبية متطلبات الأعمال والذكاء الاصطناعي بشكل مخصص يلائم الكل. يمكن أن تبدأ المؤسسات باستخدام نموذج عامّ مثل نماذج سلسلة IBM Granite أو نماذج Llama-2 من شركة Meta أو نماذج Flan من شركة Google، ثم توفير بياناتها الخاصة في قاعدة بيانات متجهات لتحسين كل من مخرجات النماذج وتطبيقات الذكاء الاصطناعي.
تتاح للمؤسسات مجموعة كبيرة من الخيارات عند اختيار إحدى قدرات قواعد بيانات المتجهات. للعثور على ما يلبي احتياجات البيانات والذكاء الاصطناعي، تضع العديد من المؤسسات في حسبانها ما يلي:
يوجد عدد قليل جدًّا من البدائل للاختيار من بينها.
لا ينبغي اعتبار قواعد بيانات المتجهات قدرات قائمة بذاتها، بل هي جزء من نظام أوسع للبيانات والذكاء الاصطناعي.
يقدم العديد منها واجهات برمجة تطبيقات أو وظائف إضافية أصلية أو يمكن دمجها مع قواعد البيانات. ولأن قواعد بيانات المتجهات مصممة لاستخدام بيانات المؤسسة لتحسين النماذج، يجب أن تتميز المؤسسات أيضًا بحوكمة وأمن ملائمَين للبيانات لضمان إمكانية الوثوق بالبيانات المستخدمة لتدريب النماذج اللغوية الكبيرة (LLM).
علاوة على واجهات برمجة التطبيقات، يستخدم العديد من قواعد بيانات المتجهات حزم تطوير البرامج (SDK) حسب كل لغة برمجة، والتي يمكنها التحكم الكامل في واجهات برمجة التطبيقات. وبفضل استخدام حزم تطوير البرامج (SDK)، يجد المطورون التعامل مع البيانات في تطبيقاتهم أسهل غالبًا.
يُعدّ من الملائم تمامًأ استخدام مخزن متجهات وفهرس متجهات للتطبيقات التي تعتمد على حقائق أو الاستعلام المبني على حقائق، مثل استخراج معلومات محددة من مستندات معقدة.
لكن طلب ملخص للموضوعات لن يعمل بشكل جيد مع فهرس المتجهات. في هذه الحالة، سوف يمر النموذج اللغوي الكبير (LLM) خلال كل السياقات المحتملة المختلفة حول هذا الموضوع ضمن البيانات.
وقد يكون أسرع خيار هو استخدام نوع مختلف من الفهرس، مثل فهرس القائمة بدلاً من فهرس المتجهات؛ لأن فهرس القائمة سيجلب العنصر الأول فورًا في كل قائمة.
لتحسين تطوير قاعدة بيانات المتجهات، يُعدّ LangChain إطار عمل تنسيق مفتوح المصدر لتطوير التطبيقات التي تستخدم النماذج اللغوية الكبيرة (LLM).
تعمل أدوات LangChain وواجهات برمجة التطبيقات المتوفرة في كل من المكتبات المستندة إلى Python و JavaScript على تبسيط عملية إنشاء التطبيقات المستندة إلى النماذج اللغوية الكبيرة (LLM)، مثل برامج روبوت المحادثة والوكلاء الافتراضيين.توفر LangChain عمليات تكامل لأكثر من 25 طريقة تضمين مختلفة، ولأكثر من 50 مخزن متجهات مختلفة (سواء أكانت مستضافة على خدمة سحابية أم محلية).
لتفعيل الذكاء الاصطناعي على مستوى المؤسسة، قد يتم إقران مستودع البيانات بقاعدة بيانات متجهات متكاملة. بإمكان المؤسسات توحيد، وتنسيق، وتجهيز التضمينات الموجَّهة بحيث تخدم تطبيقات الذكاء الاصطناعي التوليدي الخاصة بكل مؤسسة على نطاق واسع، وذلك عبر بياناتها الموثوق بها التي يتم التحكم فيها. يؤدي ذلك إلى تحسين أهمية أعباء عمل الذكاء الاصطناعي ودقتها لدى المؤسسة، بما في ذلك روبوتات المحادثة، وأنظمة التوصية المخصصة، وتطبيقات البحث عن تشابه الصور.
تتسم قواعد بيانات المتجهات بأن لها تطبيقات واسعة النطاق وآخذة في الزيادة. تتضمن بعض حالات الاستخدام الرئيسية ما يلي:
التوليد المعزَّز بالاسترداد هو إطار عمل للذكاء الاصطناعي لتمكين نماذج اللغة الكبيرة (LLM) من استرداد الحقائق من قاعدة معارف خارجية. تعتبر قواعد بيانات المتجهات أساسية لدعم تطبيقات التوليد المعزَّز بالاسترداد.
تفضِّل الشركات بشكل متزايد استخدام التوليد المعزَّز بالاسترداد في سير عمل الذكاء الاصطناعي التوليدي لسرعة دخول منتجاته إلى السوق ونظرًا إلى استدلاله الفعال ومخرجاته الموثوق بها. ويُعدّ إطار العمل هذا مفيدًا بشكل خاص في بعض حالات الاستخدام، مثل خدمة العملاء، والموارد البشرية، وإدارة المواهب.
يساعد التوليد المعزَّز بالاسترداد على التأكد من أن النموذج مرتبط بالحقائق الأكثر حداثةً وموثوقيةً، وأن المستخدمين لديهم إمكانية الوصول إلى مصادر النموذج حتى يمكن التحقق من ادعاءاته. كما أن تثبيت نموذج اللغة الكبير (LLM) في البيانات الموثوق بها يساعد في تقليل هلوسة النماذج.
يستخدم التوليد المعزَّز بالاسترداد بيانات متجهات عالية الأبعاد لإثراء المطالبات وتزويدها بالمعلومات ذات الصلة اللغوية للتعلم في السياق من قِبَل نماذج الأساس. يتطلب التوليد المعزَّز بالاسترداد تخزينًا واسترجاعًا فعالاً خلال مرحلة الاستدلال التي تتعامل مع أكبر حجم من البيانات.
تتفوق قواعد بيانات المتجهات في فهرسة هذه المتجهات عالية الأبعاد وتخزينها واسترجاعها بكفاءة، وهو ما يوفر السرعة، والدقة، والأحجام اللازمة لتطبيقات مثل محركات التوصية وروبوتات المحادثة.
تساعد قواعد بيانات المتجهات، خاصةً عند استخدامها لتنفيذ أطر عمل التوليد المعزَّز بالاسترداد، في تحسين تفاعلات الوكيل الافتراضي من خلال تحسين قدرة الوكيل على تحليل قواعد المعارف ذات الصلة بكل دقة وكفاءة. يمكن للوكلاء تقديم إجابات سياقية عن استفسارات المستخدم في الوقت الفعلي، علاوة على مستندات المصدر وأرقام الصفحات كمرجع.
فمثلاً، يمكن لمواقع التجارة الإلكترونية استخدام المتجهات لتمثيل تفضيلات العملاء وخصائص المنتج؛ حيث إن هذا يمكّنهم من اقتراح عناصر مشابهة للمشتريات السابقة، بناءً على تشابه المتجهات، وهو ما يعزز تجربة المستخدم ويزيد من الاحتفاظ به كعميل دائم.
تُستخدم تقنية البحث هذه لاكتشاف العناصر أو نقاط البيانات المشابهة، والتي يتم تمثيلها عادةً كمتجهات، في مجموعات كبيرة. بإمكان بحث المتجهات التقاط العلاقات الدلالية بين العناصر، وهو ما يتيح المعالجة الفعالة من قِبَل نماذج التعلم الآلي وتطبيقات الذكاء الاصطناعي.
وتتخذ عمليات البحث هذه أشكالاً عديدة.
تُعدّ IBM watsonx منصة للذكاء الاصطناعي والبيانات تم تصميمها لخدمة مجال الأعمال، حيث يمكنك إنشاء تطبيقات الذكاء الاصطناعي المخصصة بسهولة وإدارة جميع مصادر البيانات وتسريع سير عمل الذكاء الاصطناعي المسؤول؛ كل ذلك من منصة واحدة.
تجمع IBM Cloud Databases for Elasticsearch بين مرونة محرك البحث النصي الكامل وقوة فهرسة قواعد بيانات مستندات JSON. من خلال الجمع بين نماذج التعلم الآلي (ML) المتكاملة، وعُقد التعلم الآلي المتخصصة، وأنواع البيانات، وخوارزميات البحث، فإن خدمة IBM Cloud Databases for Elasticsearch جاهزة لدعم مؤسستك وتحسين أدائها.
تُعدّ IBM Cloud Databases for PostgreSQL أحد العروض المقدمة لطرح قاعدة بيانات PostgreSQL كخدمة، وهي تتيح لفِرق العمل قضاء مزيد من الوقت في البناء مع ضمان التوفر العالي، وتنظيم عملية النسخ الاحتياطي، والاسترداد في نقطة زمنية معينة (PITR)، وقراءة النسخ المكررة بسهولة.
يمكن للمؤسسات التي تستخدم نماذج الذكاء الاصطناعي التوليدي بشكل صحيح أن تحصد عددًا لا يحصى من المزايا؛ بدءًا من زيادة الكفاءة التشغيلية وتحسين عملية اتخاذ القرار إلى الإنشاء السريع للمحتوى التسويقي.
استخدم هذا الدليل لفهم ما يقدمه مساعدو الذكاء الاصطناعي من IBM، والجمهور المستفيد، وكيفية مقارنتهم بالخيارات الأخرى، وكيفية البدء في استخدامهم.
يُعدّ التوليد المعزَّز بالاسترداد إطار عمل للذكاء الاصطناعي لاسترداد الحقائق من قاعدة معارف خارجية لتأسيس النماذج اللغوية الكبيرة بناءً على معلومات أكثر دقةً وحداثةً ولمنح المستخدمين رؤية للعملية التوليدية في النماذج اللغوية الكبيرة.
تؤدي كل الروابط إلى صفحات خارج ibm.com.
1 بحث Gartner Innovation Insight: قواعد بيانات المتجهات، Gartner، بتاريخ 4 سبتمبر 2023.
2 خارطة الطريق الاستراتيجية للتخزين لعام 2024، Gartner، بتاريخ 27 مايو 2024.