ما هي قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG)؟

By Tom Krantz , Alexandra Jonker

قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG)، التعريف

تجمع قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG) بين الذكاء الاصطناعي (AI) والبحث المتقدم، مما يسمح للنماذج اللغوية الكبيرة(LLMs) باسترجاع المعلومات ذات الصلة في الوقت الفعلي وتوليد ردود أكثر دقة ووعياً للسياق.

تتكون قاعدة بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG) من مكونين رئيسيين: بنية الاسترجاع التوليد المعزز بالاسترجاع (RAG) وطبقة بيانات (قواعد بيانات المتجهات).

ما المقصود بالتوليد المعزز بالاسترجاع (RAG)؟

التوليد المعزز بالاسترجاع (RAG) هي بنية تربط النموذج اللغوي بمصادر المعرفة الخارجية، مما يمكّنه من استرجاع المعلومات ذات الصلة ودمج هذا السياق في ردوده في وقت الاستعلام. يعالج هذا النهج القيود الشائعة للنماذج اللغوية الكبيرة (LLMs)، بما في ذلك انقطاع المعرفة، والهلوسة، ونقص خصوصية المجال.

ما هي قواعد بيانات المتجهات؟

تقوم قاعدة بيانات المتجهات (أو قاعدة بيانات المتجه) بتخزين البيانات واسترجاعها على شكل تمثيلات رقمية تسمى التضمينات المتجهة، مما يتيح البحث بناءً على التشابه الدلالي بدلاً من التطابقات الدقيقة للكلمات الرئيسية. تسمح هذه العملية للأنظمة باسترجاع المعلومات بناءً على المعنى، حتى عند اختلاف الصياغة.

مكاسب الأداء لهذه التقنية قابلة للقياس. عندما احتاجت Wikimedia Deutschland إلى جعل رسم Wikidata المعرفي الذي يضم 120 مليون إدخال متاحاً للنماذج اللغوية الكبيرة (LLM)، اختارت DataStax Astra DB on IBM watsonx.data كقاعدة بيانات متجهات لها. والنتيجة: سرعة استعلام أسرع بمقدار 30 مرة مقارنةً بحساب المتجهات المحلية وتقليل وقت التطوير بنسبة 90%، مما يتيح للفريق التركيز على بناء البنية التحتية بدلاً من صيانتها.

في معظم تطبيقات التوليد المعزز بالاسترجاع (RAG)، تعتمد أنظمة RAG على قواعد بيانات المتجهات أو تقنيات فهرسة المتجهات لتمكين البحث الدلالي. ومع ذلك، فإن البحث عن المتجهات ليس مطلوبًا بشكل صارم. يمكن أن تتضمن بِنى التوليد المعزز بالاسترجاع (RAG) أيضًا البحث بالكلمات المفتاحية أو الاستعلامات المهيكلة أو الأساليب المختلطة وفقًا لحالة الاستخدام.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

سبب أهمية قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG)

تعيد قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG) تعريف كيفية وصول أنظمة التعلم الآلي والذكاء الاصطناعي التوليدي إلى المعلومات وتطبيقها. فبدلاً من التعامل مع المعرفة كشيء ثابت داخل نموذج، يتعاملون معها كشيء يمكن استرجاعه وتقييمه واستخدامه في السياق بشكل ديناميكي.

لهذا التحول تداعيات عبر أربعة مجالات رئيسية: المعرفة والاسترجاع والتأسيس، والعمليات.

المعرفة

حتى أكثر النماذج تقدماً مقيدة ببيانات التدريب الخاصة بها. ومع تقادم تلك البيانات أو عندما تصبح حالات الاستخدام أكثر تخصصاً، تبدأ الثغرات في الظهور.

يعالج التوليد المعزز بالاسترجاع (RAG) هذا من خلال تقديم ما يصفه الباحثون غالبا باسم "الذاكرة غير المعلمية"—وهي معرفة خارجية يمكن الاستعلام عنها أثناء التشغيل بدلاً من تخزينها في معلمات النموذج.¹

الاسترجاع

تعتمد أنظمة البحث التقليدية عادةً على مطابقة الكلمات الرئيسية، والتي تفترض أن المستخدمين والبيانات يستخدمون نفس اللغة. من الناحية العملية، غالبًا ما لا يكون الأمر كذلك. تقوم قاعدة بيانات المتجهات بتحويل الاسترجاع من مطابقة الكلمات إلى مطابقة المعنى، باستخدام تشابه المتجهات لمقارنة مدى توافق التمثيلات.

تجمع أساليب الاسترجاع الهجينة المستخدمة في أنظمة التوليد المعزز بالاسترجاع (RAG) بين الاسترجاع الدلالي وأساليب البحث التقليدية لتحسين كل من الاستدعاء والدقة، لا سيما في بيئات المؤسسات حيث تكون البيانات غير متجانسة ومعقدة.²

التأسيس

تعد النماذج التوليدية احتمالية، أي أنها تولد ردوداً معقولة، وليست حقائق مؤكدة. وهذا يخلق خطر الهلوسة.

يخفف التوليد المعزز بالاسترجاع (RAG) من ذلك من خلال تأسيس الاستجابات في البيانات المسترجعة. تُظهر الدراسات في مجالات مثل الرعاية الصحية والتعليم أن الجمع بين الاسترجاع والتوليد يحسن من دقة الحقائق والموثوقية في أنظمة الإجابة عن الأسئلة^.3

العمليات

يُغيّر التوليد المعزز بالاسترجاع (RAG) طريقة صيانة أنظمة الذكاء الاصطناعي وتوسيع نطاقها. بدلاً من إعادة تدريب النماذج لدمج معرفة جديدة، يمكن للمؤسسة تحديث البيانات الأساسية أو منطق الاسترجاع، مما يتيح تكراراً أسرع وقدرة أكبر على التكيف في حالة الاستخدام.

نتيجة لذلك، أصبح التوليد المعزز بالاسترجاع (RAG) نمط بنية سائدا في أنظمة الذكاء الاصطناعي الحديثة، خاصة في بيئات المؤسسات والتطبيقات الموجهة للمستهلكين حيث يجب على النماذج الوصول إلى بيانات محدثة أو خارجية لتوليد ردود دقيقة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

انتقل إلى الحلقة

كيف تعمل قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG)

على مستوى عالٍ، تتبع قواعد بيانات المتجهات للتوليد المعزز بالاسترجاع (RAG) تسلسلاً منظماً:

يقوم المستخدم بإرسال موجِّه
يتم تحويل الرموز المميزة إلى تضمينات
تسترجع قاعدة بيانات المتجهات التضمينات المماثلة
يتم تصنيف البيانات المسترجعة حسب مدى صلتها بالاستعلام الأصلي
يتم تعزيز سياق النموذج بالبيانات المسترجعة
يقوم النموذج بإنشاء استجابة

1. يقوم المستخدم بإرسال موجّه

كل تفاعل يبدأ باستعلام من المستخدم يتم التعبير عنه بلغة طبيعية. في هذه المرحلة، يوجد الإدخال كرموز مميّزة— وحدات النص التي تعالجها نماذج اللغة. تمثل الرموز المميّزة كيفية كتابة اللغة وتنظيمها، ولكنها لا تلتقط المعنى بعد بطريقة يمكن البحث عنها.

2. يتم تحويل الرموز المميزة إلى تضمينات

لجعل الاستعلام قابلاً للبحث، يتم تحويله إلى تضمين يوفر تمثيلًا رقميًا للمعنى. إحدى الطرق لفهم ذلك هي من خلال الجغرافيا.

الرموز المميّزة تشبه أسماء الأماكن: "مدينة نيويورك"، "نيويورك"، "مانهاتن".
التضمينات تشبه الإحداثيات: خط العرض وخط الطول.

عن طريق تحويل الرموز المميّزة إلى تضمينات، ينتقل النظام من اللغة إلى فضاء يمكن فيه مقارنة المعنى رياضياً (فضاء متجه عالي الأبعاد).

3. تسترجع قاعدة بيانات المتجهات التضمينات المتشابهة

بمجرد تمثيل الاستعلام كتضمين (أو متجه استعلام)، تبحث قاعدة بيانات المتجهات عن متجهات متشابهة. تعتمد هذه العملية على مقاييس التشابه مثل تشابه جيب التمام، والتي تقيس مدى تقارب المتجهات في الفضاء عالي الأبعاد. تتضمن العديد من الأنظمة أيضًا طبقات تصنيف تعطي الأولوية للنتائج الأكثر صلة، مما يحسن الدقة والترابط.

4. يتم ترتيب البيانات المسترجعة حسب مدى صلتها بالاستعلام الأصلي

يسترجع النظام مقاطع أو "أجزاء" أصغر من البيانات المرتبطة بالتضمينات الأكثر تشابهًا. تحدد هذه العملية - المعروفة باسم "التقطيع" - جودة الاسترجاع بناءً على كيفية تعريف القطع. إذا كانت كبيرة جدًا، فقد يفتقر الاسترجاع إلى الدقة. إذا كانت صغيرة جدًا فقد تفقد سياقها.

5. يتم تعزيز سياق النموذج بالبيانات المسترجعة

يتم إدراج المعلومات المسترجعة في إدخال النموذج، وهو ما يُشار إليه باسم تعزيز الموجِّه. الاستعلام الأصلي والسياق المسترجع يشكلان تسلسلاً واحداً من الرموز المميزة. النموذج لا يميز بينهما. إنه ببساطة يعالج المدخلات المجمعة ويولد استجابة، مما يجعل بنية الموجّه أمراً حساسًا.

6. يُولّد النموذج استجابة

مع وجود الموجِّه المعزَّز في مكانه، يقوم النموذج بعد ذلك بإنشاء استجابة. تسلط هذه المرحلة الضوء على كيفية اختلاف التوليد المعزَّز بالاسترجاع (RAG) عن عمليات مثل الضبط الدقيق، والتي تعدل المعلمات الداخلية للنموذج، وتدمج المعرفة مباشرةً في النموذج. يسترجع التوليد المعزَّز بالاسترجاع (RAG) المعرفة أثناء وقت التشغيل، تاركاً النموذج دون تغيير. بعبارة أخرى، يعمل الضبط الدقيق على تحسين ما يعرفه النموذج، بينما يعمل التوليد المعزَّز بالاسترجاع (RAG) على تحسين ما يمكن للنموذج الوصول إليه.

المكونات الأساسية لنظام قاعدة بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG)

أنظمة قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) ليست أداة واحدة، بل مجموعة منسقة من المكونات التي تعمل معاً لتنظيم وتوليد استجابات. تشمل المكونات الأساسية في هذه العملية ما يلي:

قاعدة المعرفة
نموذج التضمين
قاعدة بيانات المتجهات
أداة الاسترجاع
طبقة التكامل
المولد

قاعدة المعرفة

تُعد قاعدة المعرفة المصدر الخارجي للحقيقة في النظام. وتحتوي على البيانات التي سيسترجع النموذج البيانات منها، والتي قد تتضمن مستندات أو ملفات PDF أو سجلات منظمة أو تذاكر دعم أو محتوى آخر غير منظم.

في بيئات المؤسسات، غالباً ما تكون هذه البيانات مجزأة عبر الأنظمة والتنسيقات المختلفة. نتيجة لذلك، تؤثر جودة قاعدة المعرفة بشكل مباشر على جودة مخرجات النظام.

نموذج التضمين

يقوم نموذج التضمين بترجمة اللغة الطبيعية إلى تمثيلات متجهة تلتقط المعنى.

يحدد هذا العنصر كيفية وضع المعلومات في الفضاء الدلالي، ويشكل كيفية مقارنة الاستعلامات والمستندات أثناء الاسترجاع. إذا فشل نموذج التضمين في التقاط تفاصيل خاصة بالمجال مثل المصطلحات التقنية أو العلاقات السياقية، فإن جودة الاسترجاع ستتأثر.

قاعدة بيانات المتجهات

تقوم قاعدة بيانات المتجهات بتخزين وفهرسة التضمينات، مما يتيح البحث السريع عن التشابه عبر مجموعات بيانات كبيرة. لا يقتصر دورها على التخزين فقط، بل على أداء الاسترجاع. تسمح تقنيات الفهرسة مثل البحث عن أقرب جار تقريبي (ANN) للنظام بتحديد مواقع المتجهات ذات الصلة بسرعة، حتى على نطاق واسع. أفاد بحث أجرته IBM مؤخرًا إلى وجود أنظمة قادرة على التعامل مع عشرات إلى مئات المليارات من المتجهات.

في الوقت نفسه، غالبا ما تدعم قاعدة بيانات المتجهات فلترة البيانات الوصفية والبحث الهجين، مما يسمح للأنظمة بتحسين النتائج بناءً على قيود إضافية مثل التاريخ أو الفئة أو المصدر.

المسترجع

تعمل أداة الاسترجاع كواجهة بين استعلام المستخدم وقاعدة بيانات المتجهات. وتستخدم نموذج تضمين لتحويل الاستعلام إلى تمثيل متجه، وتنفذ البحث باستخدام واجهات برمجة التطبيقات (APIs) أو مجموعات تطوير البرمجيات (SDKs)، وتعرض النتائج الأكثر صلة.

تشكل هذه العملية أساس بحث الذكاء الاصطناعي الحديث. في الأنظمة الأكثر تقدمًا، قد تتضمن أداة الاسترجاع أيضًا منطق الترتيب أو آليات الفلترة أو الاستراتيجية متعددة الخطوات لتحسين الدقة.

طبقة التكامل

طبقة التكامل تحكم النظام، وتدير كيفية تدفق البيانات بين العناصر وكيفية بناء الموجّهات. تأخذ النتائج، وتنظمها، وتدرجها في إدخال النموذج بطريقة منظمة.

التكامل هو المكان الذي تلعب فيه هندسة الموجِّهات وأطر عمل التنسيق دورًا في ضمان حصول النموذج على سياق واضح وملائم. غالبًا ما يتم بناء الأنظمة باستخدام مزيج من الأدوات مفتوحة المصدر ومكتبات Python ومنصات قاعدة بيانات المتجهات مثل Pinecone أو Milvus. هذا التنسيق هو ما يتيح في النهاية إمكانية البحث القابل للتوسع بالذكاء الاصطناعي عبر التطبيقات ومجموعات البيانات واسعة النطاق.

المولد

أداة التوليد هي النموذج اللغوي المسؤول عن إنتاج الاستجابة النهائية. لا يسترجع المعلومات بنفسه. بدلاً من ذلك، فإنه يفسر الموجّه المعزز ويولد استجابة بناءً على السياق الذي تم تقديمه له. هذا التمييز مهم. لا يتمثل دور أداة التوليد في "معرفة" كل شيء، بل في تجميع المعلومات التي يوفرها النظام والتعبير عنها.

اعتبارات قاعدة بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG)

يتضمن تصميم ونشر قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) مفاضلات بين الدقة والأداء وتعقيد النظام. على الرغم من أن البنية واضحة من الناحية المفاهيمية، إلا أن فعاليتها تعتمد على مدى توافق كل عنصر مع المهمة المطروحة. غالبًا ما تشمل الاعتبارات ما يلي:

جودة الاسترجاع
استراتيجية التقسيم
حدود حجم نافذة السياق
زمن الانتقال والتعقيد
الأمن والحوكمة

جودة الاسترجاع

تعتمد أنظمة التوليد المعزَّز بالاسترجاع (RAG) على الاسترجاع كمصدر أساسي للحقيقة. إذا استرجع النظام معلومات غير مكتملة أو غير ذات صلة، فإن النموذج سيولد استجابة معيبة. غالباً ما ينشأ هذا التحدي من تضمين منطق الجودة والتصنيف. قد تغفل التضمينات عن تفاصيل خاصة بالمجال، بينما قد يظهر البحث في التشابه نتائج قريبة تقنياً لكنها خاطئة سياقياً.

ولمعالجة ذلك، تدمج الأنظمة الحديثة طبقات إعادة الترتيب ونماذج التضمين الخاصة بالمجال وتقنيات الاسترجاع الهجينة التي تجمع بين التشابه الدلالي والفلترة المنظمة.

استراتيجية التقسيم

يتشكل أداء الاسترجاع أيضًا من خلال كيفية تقسيم البيانات. نظرًا لأن المستندات يتم تقسيمها إلى أجزاء أصغر قبل استرجاعها، فإن استراتيجيات التقسيم غير المحددة بشكل جيد يمكن أن تؤدي إلى تجزئة المعنى أو تقليل الدقة. في كثير من الأحيان، تتعامل الفرق مع التقسيم باعتباره أحد اعتبارات التصميم، وتحقيق التوازن بين الخصوصية والسياق.

تعرف على المزيد حول استراتيجية التقسيم

حدود حجم نافذة السياق

حتى عندما يكون الاسترجاع فعالاً، لا يمكن للنموذج معالجة سوى كمية محدودة من المعلومات في وقت واحد (وهي نافذة السياق). في الاستعلامات المعقدة، خاصةً تلك التي تتطلب التوليف عبر مصادر متعددة، يمكن لهذا القيد أن يقيد الاستدلال من خلال إجبار النظام على تحديد أولويات ما هو أكثر صلة. تتعامل الأنظمة الفعّالة من حيث التكلفة مع السياق كموارد نادرة، باستخدام تقنيات مثل التلخيص والاسترجاع الانتقائي لتعظيم قيمته.

زمن الانتقال والتعقيد

يُدخل التوليد المعزَّز بالاسترجاع (RAG) خطوات إضافية في مسار الاستدلال، بما في ذلك توليد التضمين والبحث عن المتجهات وبناء الموجِّه. في حين أن كل خطوة تضيف قيمة، إلا أنها تضيف أيضًا زمن الانتقال.

في تطبيقات الذكاء الاصطناعي في الوقت الفعلي، حتى التأخيرات الصغيرة يمكن أن تؤثر على تجربة المستخدم. في عمليات النشر واسعة النطاق، يمكن أن تخلق تحديات تتعلق بمعدل النقل والاستجابة. ولهذا السبب تعتمد أنظمة الإنتاج غالبًا على تقنيات الفهرسة المحسّنة مثل البحث باستخدام الشبكات العصبية الاصطناعية (ANN) والتخزين المؤقت والمعالجة المتوازية لتحقيق التوازن بين الدقة والتعقيد.

الأمن والحوكمة

نظرًا لأن أنظمة التوليد المعزَّز بالاسترجاع (RAG) تربط النماذج بمصادر البيانات الخارجية، فإنها تقدم اعتبارات أمنية جديدة حول الوصول إلى البيانات والخصوصية والامتثال.

على عكس النماذج التقليدية، حيث تكون المعرفة مضمنة في المعلمات، تعمل تطبيقات التوليد المعزَّز بالاسترجاع (RAG) على بيانات مباشرة. وهذا يتيح التحديثات في الوقت الفعلي والتحكم في الوصول، ولكنه يتطلب أيضًا ضمانات، مثل الضوابط ، لضمان حماية المعلومات الحساسة طوال مسار المعالجة.

تقوم قاعدة بيانات المتجهات، على وجه الخصوص، بتخزين تضمينات مشتقة من بيانات المصدر. على الرغم من أن هذه التمثيلات ليست نسخًا مباشرة، إلا أنه يمكن هندستها هندسة عكسية لاستنتاج المعلومات الأساسية. نتيجة لذلك، تتطلب أنظمة التوليد المعزَّز بالاسترجاع (RAG) المؤسسية أطر حوكمة قوية، بما في ذلك التشفير، وعناصر التحكم في الوصول، وقابلية التدقيق.

حالات الاستخدام لقاعدة بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG)

تعد قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) ذات قيمة أكبر في الحالات التي تكون فيها المعلومات واسعة وديناميكية وصعبة التنقل باستخدام الواجهات التقليدية. ومن الأمثلة على ذلك:

روبوتات المحادثة للمؤسسات ومساعدو المعرفة

تعمل قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) على تشغيل كلٍ من روبوتات المحادثة للمؤسسات ومساعدي المعرفة الداخليين من خلال استرجاع المعلومات وتوليفها من مصادر البيانات الكبيرة والموزعة في الوقت الفعلي. يتيح ذلك لروبوتات المحادثة تقديم ردود دعم محدثة، مع مساعدة الموظفين على الاستعلام عن المستندات الداخلية ومهام سير العمل باستخدام اللغة الطبيعية دون الحاجة للبحث عبر أنظمة متعددة.

مهام سير عمل البحث والتحليلات

في مجالات مثل التمويل والرعاية الصحية والتحليل القانوني، تقدم أنظمة التوليد المعزَّز بالاسترجاع (RAG) المعلومات ذات الصلة من مصادر متعددة في سياقها، مما يسمح للمستخدمين بطرح أسئلة معقدة ومتعددة الأجزاء وتلقي إجابات مجمعة. النتيجة هي تحسين السرعة والدقة في صناعة القرار.

أنظمة التوصية

تعمل قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) على تحسين محركات التوصية من خلال تمكين التشابه الدلالي عبر تفضيلات المستخدم والمحتوى. يمكن لهذه الأنظمة توليد تفسيرات إلى جانب التوصيات، وتظهر نتائج تستند ليس فقط إلى السلوك السابق، بل أيضاً إلى الميزات المشتركة، والمراجعات، أو أنماط الاستخدام المسترجعة من البيانات الأساسية.

مستقبل قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG)

تتطور قواعد بيانات المتجهات للتوليد المعزَّز بالاسترجاع (RAG) بسرعة بالتزامن مع انتقال المؤسسات من التطبيقات التجريبية إلى أنظمة الإنتاج على نطاق واسع. تشير الأبحاث وعمليات تطوير الصناعات إلى العديد من الاتجاهات الناشئة، بما في ذلك:

الاسترجاع الوكيل
بنيات الاسترجاع الهجينة
أنظمة المعرفة في الوقت الفعلي
نظام التوليد المعزَّز بالاسترجاع (RAG) متعدد الوسائط والقائم على الاستدلال

الاسترجاع الوكيل

اتبعت أنظمة التوليد المعزَّز بالاسترجاع (RAG) السابقة مسارات ثابتة: الاسترداد والتعزيز والتوليد. تقدم الأنظمة الناشئة سلوكًا أكثر ديناميكية.

يسمح الاسترجاع الوكيل للنماذج بتحديد ماذا ومتى وكيف يتم استرجاع المعلومات. بدلاً من خطوة استرجاع واحدة، يمكن للأنظمة تنفيذ إجراءات استرجاع متعددة أو تحسين الاستعلامات أو طلب سياق إضافي أثناء الإنشاء.

تشير الأبحاث التي أجريت مؤخرًا على وكلاء الذكاء الاصطناعي إلى أن هذا النهج يمكن أن يحسن الأداء في المهام المعقدة ومتعددة الخطوات، لا سيما تلك التي تتطلب التفكير التكراري أو الاستكشاف.⁴

بنيات الاسترجاع الهجينة

بينما يظل بحث المتجهات أساسًا، فإنه يتم دمجه بشكل متزايد مع البحث عن الكلمات الرئيسية وفلترة البيانات الوصفية، وفي بعض الحالات، الاسترجاع القائم على الرسم البياني (GraphRAG). يسمح هذا التنسيق للأنظمة بالتقاط كل من المعنى الدلالي والعلاقات المنظمة، مما يحسن الدقة والاستدعاء في البيئات المعقدة.

تعرّف على المزيد حول GraphRAG

أنظمة المعرفة في الوقت الفعلي

تتطور أنظمة التوليد المعزَّز بالاسترجاع (RAG) نحو مسارات في الوقت الفعلي تستوعب المعلومات وتحدّثها باستمرار. وهذا يقلل من الفجوة بين إنشاء البيانات وتوافرها، مما يمكّن الأنظمة من الاستجابة للتغييرات فور حدوثها.

في بيئات مثل الأسواق المالية أو المراقبة التشغيلية، أصبحت هذه القدرة ضرورية. تتيح التطورات في تدفق البيانات المتدفقة والفهرسة التزايدية لقواعد بيانات المتجهات تحديث التضمينات دون إعادة معالجة كاملة.

التوليد المعزز بالاسترجاع متعدد الوسائط والقائم على الاستدلال

يتوسع التوليد المعزَّز بالاسترجاع (RAG) ليشمل ما هو أبعد من النصوص، ليشمل الصور والصوت والبيانات المنظمة، مما يسمح للنماذج باسترجاع المعلومات والاستدلال عبر وسائط متعددة.

في الوقت نفسه، يعمل البحث في مجال الاسترجاع القائم على الاستدلال على تحسين كيفية تجميع النماذج للمعلومات المسترجعة، والانتقال من الاسترجاع البسيط إلى مهام سير عمل استدلالي متعدد الخطوات أكثر تنظيماً.

المؤلفون

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

عرض ثلاثي الأبعاد لمجموعة من الرموز المصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

اقرأ دليل قادة البيانات لتتعرّف على كيفية تهيئة بيانات مؤسستك للذكاء الاصطناعي.

الموارد

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل الميكروفون والكاميرا

يعمل وكلاء الذكاء الاصطناعي على البيانات - فهل بياناتك جاهزة؟

بياناتك هي مصدر تفوّقك التنافسي. تعرّف في هذه الندوة عبر الإنترنت القصيرة على كيفية تأمين بياناتك واستثمارها بفعالية لتحقيق عائد استثمار ملموس من الذكاء الاصطناعي.

شرح إدارة البيانات

يشرح Techsplainers من IBM أساسيات البيانات المخصصة للذكاء الاصطناعي، بدءاً من المفاهيم الجوهرية وصولاً إلى حالات الاستخدام الواقعية. حلقات واضحة وقصيرة تساعدك على تعلُّم الأساسيات بسرعة.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل مقبض مستوى الصوت والحافظة

توحيد بياناتك والوصول إليها لدعم توسُّع الذكاء الاصطناعي

تعرف على الأسباب التي تجعل الطريق نحو بيانات جاهزة للذكاء الاصطناعي يبدأ غالبًا بالوصول الفعال إلى كل من البيانات المنظمة وغير المنظمة، واكتشف التحديات التي قد تعيق قادة البيانات.

الأعباء القانونية تحوَّلت إلى رؤى استراتيجية

تعرف على كيفية مساعدة الوكيل القانوني المدعوم بالذكاء الاصطناعي في تسريع عملية اتخاذ القرار، وتقليل العمل اليدوي، وتحسين الامتثال.

رجلان يتحدثان مع بعضهما البعض في بودكاست

أكاديمية الذكاء الاصطناعي: وضع استراتيجية بيانات لدعم الذكاء الاصطناعي المؤسسي

في هذه الحلقة، تشرح Cathy Reese كيف أن المؤسسات اليوم بحاجة إلى استراتيجية بيانات مستعدة للذكاء الاصطناعي المتقدم، وهو الأمر الذي يتطلب منها تسخير أصول بياناتها ذات الجودة الأعلى.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل الكاميرا والطائرات الورقية

مستودع البيانات الهجين المفتوح للذكاء الاصطناعي

تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.

تقرير تكلفة خرق البيانات لعام 2025

سجَّلت حالات اختراق أمن البيانات ارتفاعًا غير مسبوق في تكاليف مواجهتها. احصل على أحدث الرؤى حول تهديدات الأمن السيبراني وتأثيراتها المالية على المؤسسات.

عرض ثلاثي الأبعاد لخطين من عدة أيقونات مثل كاميرا ومقبض مستوى الصوت وحافظة

دليل قادة البيانات للبيانات الجاهزة للذكاء الاصطناعي

تعرف على الخطوات العملية التي يمكن لقادة البيانات اتخاذها للتغلب على تحديات البيانات، وإرساء القواعد الأساسية لبناء قاعدة بيانات موثوقة، والمساعدة في تجهيز بيانات مؤسستك لعصر الذكاء الاصطناعي.

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

كيف تحوِّل الإدارة العليا المعلومات إلى تأثير

استكشف رؤى مستخلصة من 1700 من كبار مسؤولي البيانات في هذا التقرير متعدد القطاعات الموجّه إلى قادة البيانات.

حلول ذات صلة

برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات

IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data

خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات

اتخِذ الخطوة التالية

الحواشي

¹ "التوليد المعزَّز بالاسترجاع (RAG) لمهام معالجة اللغة الطبيعية كثيفة المعرفة"، ACM، 2020

² "الاسترجاع الهجين الكثيف المنفصل لاسترجاع المعلومات عالية الاستدعاء"، ResearchGate، 2026

³ "التوليد المعزز بالاسترجاع للنماذج اللغوية الكبيرة: استطلاع"، arXiv، 2023

⁴ "التوليد المعزز بالاسترجاع الوكيل: استبيان حول التوليد المعزز بالاسترجاع الوكيل"، arXiv، 2025