غالبًا ما تكون النماذج اللغوية الكبيرة (LLMs) على دراية واسعة بمجموعة متنوعة من الموضوعات، لكنها تظل محدودة بالبيانات التي تم تدريبها عليها. وهذا يعني أن العملاء الذين يرغبون في استخدام النماذج اللغوية الكبيرة مع المعلومات التجارية الخاصة أو المملوكة لا يمكنهم استخدامها مباشرة للإجابة على الأسئلة أو إنشاء المراسلات أو غير ذلك من المهام.
التوليد المعزز بالاسترجاع (RAG) هو نمط معماري يمكّن نماذج الأساس من إنتاج مخرجات دقيقة وموثوقة لمواضيع متخصصة أو خاصة لم تكن ضمن بيانات تدريب النموذج. من خلال تعزيز أسئلة المستخدمين والموجهات ببيانات ذات صلة يتم استرجاعها من مصادر بيانات خارجية، يزوّد التوليد المعزز بالاسترجاع (RAG) النموذج بمعلومات جديدة (بالنسبة للنموذج) يمكنه الاستناد إليها في استجاباته.
يتكون نمط التوليد المعزز بالاسترجاع (RAG)، الموضح في الرسم البياني أدناه، من جزأين: تضمين البيانات أثناء مرحلة البناء، وتلقي موجِّهات المستخدم (أو إرجاع نتائج البحث) أثناء وقت التشغيل.
يقوم مهندس الذكاء الاصطناعي بإعداد بيانات العميل (مثل أدلة الإجراءات، ووثائق المنتج، وتذاكر مكتب المساعدة، وغيرها) خلال مرحلة المعالجة المسبقة للبيانات. يتم تحويل بيانات العميل و/ أو إثراؤها لجعلها مناسبة لتعزيز النموذج. قد تشمل التحويلات عمليات بسيطة مثل تحويل مستندات PDF إلى نص، أو تحويلات أكثر تعقيدًا مثل ترجمة بنيات الجداول المعقدة إلى عبارات شرطية من نوع "إذا-فإن". أما الإثراء، فقد يتضمن توسيع نطاق الاختصارات الشائعة، وإضافة بيانات وصفية مثل معلومات العملات، بالإضافة إلى تحسينات أخرى تهدف إلى زيادة دقة وملاءمة نتائج البحث.
يتم استخدام نموذج التضمين لتحويل بيانات المصدر إلى سلسلة من المتجهات التي تمثل الكلمات في بيانات العميل. تساعد التضمينات في تسهيل عمليات التعلم الآلي على المدخلات الكبيرة، مثل المتجهات المتفرقة التي تمثل الكلمات. يتم تخزين التضمينات على شكل مقاطع (chunks) من بيانات العميل، على شكل أقسام فرعية أو فقرات، مما يجعل عملية البحث عن المعلومات أكثر كفاءة.
يتم تخزين التضمينات التي تم إنشاؤها في قاعدة بيانات متجهية. يمكن استخدام أي مصدر بيانات يدعم الاستعلامات التقريبية ("fuzzy queries") التي تُرجع نتائج بناءً على مدى الصلة المحتملة، مثل watsonx Discovery، في بنية التوليد المعزز بالاسترجاع (RAG)، ولكن أكثر التطبيقات شيوعًا تعتمد على قاعدة بيانات المتجهات مثل Milvus، FAISS، أو Chroma.
الآن أصبح النظام جاهزًا للاستخدام من جانب المستخدمين النهائيين.
يتفاعل المستخدمون النهائيون مع تطبيق الذكاء الاصطناعي التوليدي (GenAI) ويدخلون استعلامًا.
يتلقى تطبيق GenAI الاستعلام، ثم يجري بحثًا في قاعدة بيانات المتجهات للحصول على أكثر المعلومات تطابقًا مع استعلام المستخدم (تُعرف باسم أعلى K نتائج). على سبيل المثال، إذا كان استعلام المستخدم هو " ما هو حد السحب اليومي على حساب MaxSavers "، فقد تُرجع عملية البحث مقاطع مثل " حساب MaxSavers هو... ", " حدود السحب اليومية هي... ". و "... حدود الحساب... ".
يتم إرسال أهم المقاطع المسترجعة، مع موجِّه مُعد خصيصًا للتطبيق، إلى النموذج اللغوي الكبير (LLM).
يقوم LLM بتوليد استجابة شبيهة بالاستجابات البشرية بناءً على استعلام المستخدم، والموجِّه، والمعلومات السياقية، ثم يتم عرضها على المستخدم النهائي.
يوضِّح الرسم أعلاه كيف يتم ربط منتجات عائلة IBM Watson وwatsonx بنمط RAG.
ينفذ watsonx Discovery وظائف المعالجة المسبقة، وإنشاء التضمينات، وتخزين واسترجاع المعلومات ذات الصلة ضمن نمط التوليد المعزز بالاسترجاع (RAG). بالنسبة لأنواع معينة من الحلول، يمكن استخدام watsonx Discovery أيضًا كواجهة أمامية لتطبيق الذكاء الاصطناعي التوليدي للمستخدمين. إلى جانب استبدال قاعدة بيانات المتجهات، يوفر watsonx Discovery مجموعة من تحسينات معالجة اللغة الطبيعية (NLP) الجاهزة للاستخدام، تشمل استخراج الكيانات، وتحليل المشاعر، وتحليل العواطف، واستخراج الكلمات المفتاحية، وتصنيف الفئات، ووسم المفاهيم، وغيرها الكثير.
بالنسبة لحلول الدردشة، يوفر مساعد watsonx Assistant واجهة المستخدم بالإضافة إلى قدرات المحادثة مثل تذكر موضوع الاستعلامات السابقة. على سبيل المثال، إذا سأل أحد المستخدمين " أخبرني عن جهاز Toast-o-matic " ثم تابع بسؤال " كم سعره؟" فإن watsonx Assistant سيعرف أن "الهاء" في الاستعلام الأخير (سعره) يشير إلى جهاز التحميص المذكور في السؤال الأول.
وأخيرًا، يوفر watsonx.ai مجموعة مختارة من النماذج اللغوية الكبيرة التي يمكن للعملاء الاختيار من بينها في بيئة الاستضافة السحابية. يمكنك الآن بفضل watsonx.ai، يمكن للعملاء بسهولة تدريب الذكاء الاصطناعي التوليدي ونماذج الأساس وقدرات التعلم الآلي والتحقق من صحتها وضبطها ونشرها وبناء تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء صغير من البيانات.
بعض العملاء لا يتوفر لديهم watsonx.ai في منطقتهم المحلية، أو قد يكون لديهم مخاوف أمنية أو متطلبات تنظيمية تمنعهم من استخدام حلwatsonx.ai SaaS. بالنسبة لهؤلاء العملاء، نقدم watsonx.ai كمجموعة من الخدمات المعبأة في حاويات والتي يمكن نشرها على Red Hat Openshift سواء داخل مراكز بيانات العملاء أو ضمن سحابة خاصة افتراضية (VPC) داخل بنية تحتية لمزود خدمات سحابية.
معظم النماذج اللغوية الكبيرة (LLMs) يتم تدريبها على نصوص يغلب عليها الطابع الإنجليزي، مع نسبة صغيرة من النصوص بلغات أخرى، غالبًا من اللغات الأوروبية الغربية. بالنسبة للتطبيقات التي تتطلب دعمًا متعدد اللغات أو لغة محلية، يمكن تنفيذ خطوة ترجمة قبل وبعد الاستعلام، حيث يتم ترجمة المدخلات إلى اللغة الأساسية للوثائق المعالجة مسبقًا (مثل الإنجليزية) وترجمة مخرجات النموذج إلى اللغة المستهدفة مثل الإسبانية. يظهر هذا النهج في الرسم البياني أدناه.
يُعدّل هذا النهج النمط الأساسي للتوليد المعزز بالاسترجاع (RAG) على النحو التالي (مع استبعاد خطوات إنشاء التضمينات):
يقوم المستخدم بإدخال استعلام بلغة مختلفة عن اللغة الأساسية للوثائق المعالجة مسبقًا. على سبيل المثال، إدخال استعلام باللغة الإسبانية بينما تكون الوثائق الأساسية باللغة الإنجليزية.
يقوم تطبيق الذكاء الاصطناعي التوليدي بإرسال موجِّه إلى نموذج لغوي كبير (LLM) لترجمة استعلام المستخدم إلى لغة الوثائق الأساسية. في مثالنا، يتم ترجمة الاستعلام من الإسبانية إلى الإنجليزية.
يتم استخدام الاستعلام المترجم لاسترجاع أعلى K مقاطع من المعلومات الأكثر صلة باستعلام المستخدم.
يتم إرسال الاستعلام المترجم والسياق المسترد إلى النموذج اللغوي الكبير (LLM) لتوليد استجابة.
يقوم تطبيق الذكاء الاصطناعي التوليدي مرة أخرى باستخدام نموذج لغوي كبير لترجمة الاستجابة إلى لغة المستخدم المستهدفة. في مثالنا، تتم ترجمة الاستجابة من الإنجليزية إلى الإسبانية.
يتم عرض الاستجابة المترجمة بالإسبانية على المستخدم النهائي.
تشير التجربة إلى أنهذا النهج يمكن أن يحقق دقة بنسبة 80% أو أعلى في النتائج غير المعتمدة على اللغة الأساسية، وذلك حسب السياق وأنواع الاستعلامات المقدمة. من المتوقع أن تحقق النماذج الناشئة متعددة اللغات، المدربة على نسب أكبر من اللغات المختلفة، مستويات دقة أعلى.
يُعد التوليد المعزز بالاسترجاع (RAG) حلاً مناسبًا لأي سيناريو أعمال يتطلب الرجوع إلى كمية كبيرة من الوثائق وقواعد العمل لتقديم إجابات موثوقة. كما أنه حل قوي لدمج روبوتات المحادثة المستندة إلى النماذج اللغوية الكبيرة (LLMs) مع معرفة مملوكة أو متخصصة في مجال معين، مما يساعد على منع الهلوسة في الاستجابات.
تشمل حالات الاستخدام المحتملة:
الاكتتاب في التأمين وتسوية المطالبات. يمتلك التوليد المعزز بالاسترجاع (RAG) العديد من التطبيقات المحتملة في قطاع التأمين. يحتاج مكتتبو التأمين والوكلاء إلى معرفة متعمقة بآلاف الصفحات من الوثائق التي تغطي الشروط والأحكام لمئات من منتجات التأمين. وبالمثل، قد يُطلب من مسؤولي تسوية المطالبات الإلمام بنفس الوثائق، إلى جانب العقود التي تحتوي على استثناءات وشروط إضافية خاصة بكل عميل. يمكن أن يعمل نمط بنية RAG "كعمود فقري" لحلول تدعم مكتتبي التأمين، والوكلاء، والمعدِّلين، ما يمكِّنهم من الاستعلام عن وثائق المنتجات والعقود بفاعلية أكبر، ما يساهم في تحسين الاستجابة لاستفسارات العملاء وزيادة كفاءة العمليات.
دعم وكلاء مراكز الاتصالات. يحتاج وكلاء مراكز الاتصال إلى معرفة متعمقة بمئات المنتجات والخدمات المحتملة، بالإضافة إلى المشكلات الشائعة للمنتجات وحلولها. يوفر نمط بنية RAG أساسًا قويًا لإنشاء حلول تساعد الوكلاء على البحث بسرعة عن الإجابات لطلبات العملاء.
روبوتات المحادثة لخدمة العملاء. يُعَد التوليد المعزز بالاسترجاع (RAG) أداة قوية لإنشاء روبوتات محادثة مخصصة للعملاء للإجابة عن استفساراتهم. من خلال دمج القدرات اللغوية الطبيعية للنماذج اللغوية الكبيرة (LLMs) مع الاستجابات الخاصة بالمؤسسة من RAG، يمكن تقديم تجربة محادثة سلسة وجذابة للعملاء. يوفر RAG وحده قدرات الأسئلة والأجوبة فقط؛ ولا يمتلك القدرة على تنفيذ المعاملات، مثل التفاعل مع أنظمة المؤسسات لجلب المعلومات أو تحديث السجلات. يلزم إضافة عناصر إضافية للكشف عن نية المستخدم والتفاعل مع أنظمة المؤسسة.
الدعم الفني/ مكتب المساعدة. مثل وكلاء مراكز الاتصالات، يحتاج فرق عمليات تكنولوجيا المعلومات والدعم الفني إلى معرفة معمقة بتكوينات الأنظمة المعقدة، بالإضافة إلى المشكلات الشائعة والمشكلات السابقة وحلولها. يوفر نمط بنية التوليد المعزز بالاسترجاع (RAG) أساسًا قويًا لإنشاء حلول تساعد فرق الدعم على البحث بسرعة عن الإجابات ذات الصلة بالمشكلات المبلغ عنها والمشكلات المكتشفة.
هناك العديد من العوامل التي تؤخذ في الاعتبار عند اختيار النماذج التي ستعمل بشكل جيد لمشروعك.
قد يقيد ترخيص النموذج كيفية استخدامه. فعلى سبيل المثال، قد يمنع ترخيص النموذج من استخدامه كجزء من تطبيق تجاري.
تؤثر مجموعة البيانات المُستخدمة لتدريب النموذج تأثيرًا مباشرًا على مدى جودة عمل النموذج في تطبيق معين، كما تؤثر بشكل كبير على مخاطر توليد النموذج لاستجابات غير منطقية أو مسيئة أو ببساطة غير مرغوب فيها. وبالمثل، فإن النماذج المدرَّبة على بيانات خاصة أو محمية بحقوق النشر قد تعرض مستخدميها للمساءلة القانونية. لذا حرصت IBM على توفير الشفافية الكاملة لبيانات التدريب والتعويض عن المطالبات القانونية الناشئة عن نماذجها.
يؤثر حجم النموذج، وعدد المعلمات التي يتم تدريبه عليها، والفترة التي يستغرقها السياق (كم من الوقت يمكن للنموذج أن يقبله من النص) على أداء النموذج ومتطلبات الموارد والإنتاجية. ورغم أنه من المغري اتباع فلسفة "الأكبر حجمًا هو الأفضل" واختيار نموذج مكون من 20 مليار معلمة، فإن متطلبات الموارد والتحسين في الدقة (إن وجدت) قد لا تبرر ذلك. وبالفعل أظهرت بعض الدراسات الحديثة أن النماذج الأصغر حجمًا تتفوق بشكل كبير على النماذج الأكبر حجمًا بالنسبة لبعض الحلول.
يمكن لأي ضبط دقيق يتم تطبيقه على نموذج ما أن يؤثر على ملاءمته لمهمة ما. على سبيل المثال، تقدم شركة IBM نسختين من نموذج Granite: إحداهما نسخة مضبوطة لتطبيقات الدردشة العامة، والنسخة الأخرى مضبوطة لاتباع التعليمات.
تشمل الاعتبارات الأخرى عند اختيار النموذج ما يلي:
اختيار معلمات النموذج، على سبيل المثال درجة حرارة النموذج التي تتحكم في التوازن بين توليد نصوص شبيهة بالنص البشري وتقديم استجابات واقعية. سيؤدي ضبط درجة حرارة النموذج على قيمة عالية إلى توليد استجابات متسقة ولكن من المحتمل أن تكون غير مثيرة للاهتمام أو موجزة للغاية، في حين أن ضبط درجة الحرارة على قيمة منخفضة يضيف تنوعًا أكبر في الاستجابات، ولكنه قد يؤدي أيضًا إلى عدم القدرة على التنبؤ في طول المحتوى ومضمونه.
اختيار وتنفيذ ضوابط الحماية للنموذج لمنع النتائج غير الفعالة أو المسيئة.
يعتمد اختيار النموذج على التطبيق ونوع البيانات ومتطلبات دعم اللغة. قد يلزم توسيع نماذج التضمين لضمان ترميز دقيق وإجراء عمليات بحث فعالة تشمل المصطلحات أو الاختصارات الخاصة بالصناعة أو العميل.
قواعد بيانات المتجهات ليست الخيار الوحيد لتنفيذ مخزن بيانات التضمين. يوفر Watson Discovery أدوات ووظائف إضافية يمكنها تحسين أداء ودقة حل التوليد المعزز بالاسترجاع (RAG). بالإضافة إلى ذلك، توفر بعض قواعد البيانات التقليدية إمكانيات التخزين المتجهي، والبحث المتجهي، و/أو البحث عن التشابه، مما يجعلها قادرة على دعم حلول التوليد المعزز بالاسترجاع (RAG).
هناك أيضا العديد من الخيارات لقواعد بيانات المتجهات. توفر قواعد البيانات البسيطة داخل الذاكرة، المدمجة مباشرة في تطبيقات الذكاء الاصطناعي التوليدي (GenAI)، أداءً ممتازًا أثناء التشغيل، لكنها قد لا تتناسب مع مجموعات البيانات الكبيرة، كما قد تؤدي إلى تحديات تشغيلية كبيرة للحفاظ على حداثتها أو توسيعها إلى تكوينات متعددة الخوادم. من ناحية أخرى، فإن قواعد البيانات التي تعتمد على بنية خادم مركزي تكون أسهل في التشغيل والتوسع، لكنها قد لا تلبي متطلبات الأداء المحددة للحل المطلوب.
هناك عدة طرق متاحة لدمج نموذجي الاسترجاع والتوليد. يعد استرداد أعلى K مقاطع واستخدامها لتعزيز استعلام المستخدم طريقة بسيطة وسريعة، لكنها قد تفتقر إلى الدقة المطلوبة للإجابة على الأسئلة المعقدة. يمكن أن يكون البحث البسيط عن طريق الكلمات المفتاحية كافيًا في بعض الحالات لتقديم نتائج مرضية.
يمكن أن تعتمد الحلول الأكثر تعقيدًا على نموذج لغوي كبير (LLM) لتوليد استعلامات متعددة من استعلام المستخدم الأصلي، ثم استخدامها لاسترجاع مجموعة أوسع من المقاطع. بالإضافة إلى ذلك، يمكن إضافة منطق إضافي لفرز المقاطع المسترجعة وتحديد الأكثر صلة.
تُعد المعالجة المسبقة للبيانات قبل إدخالها في نظام التوليد المعزز بالاسترجاع (RAG) خطوة مهمة لضمان أن تكون البيانات المدخلة بتنسيق مناسب للنموذج. تتضمن الطرق البسيطة تقسيم البيانات المدخلة إلى مقاطع بحجم ثابت مع تداخلات، مثل أن تكون آخر 10 أحرف من مقطع معين هي نفسها أول 10 أحرف من المقطع التالي، لكن هذه الطريقة قد تفشل في التقاط الفروق الدقيقة في البيانات المدخلة.
يمكن للمعالجة المسبقة الأكثر تقدما تعديل النص المُدخل لإزالة نهاية الكلمات الشائعة، على سبيل المثال. تحويل stopper, stopping, stopped إلى stop؛ أو إزالة كلمات الوقف غير المهمة مثل the, as, is وما شابه؛ أو استخدام غيرها من التقنيات. يمكن لهذه التقنيات تحسين صلة المعلومات المسترجعة بشكل كبير، لكنها تضيف تعقيدًا لكل من مرحلة تضمين البيانات ومرحلة توجيه استعلام المستخدم.
يمكن أن تعتمد التقنيات الأكثر تقدمًا على معالجة الجمل الكاملة للحفاظ على أكبر قدر ممكن من المعنى في النص.
قد يشكّل تقييم أداء نظام التوليد المعزز بالاسترجاع (RAG) تحديًا بسبب الطبيعة المعقدة للمهمة. تشمل مقاييس التقييم الشائعة الإرباك والطلاقة والملاءمة والتماسك - بالإضافة إلى مقاييس BLU و ROUGE. ومن المهم اختيار المقاييس التي تتوافق مع الأهداف المحددة للمهمة والنتائج المرجوة.
يتطلب التوليد المعزز بالاسترجاع (RAG) بيانات بنص عادي، ويؤثر اختيار طرق التحويل بشكل كبير على جودة البيانات. على سبيل المثال، عند تحويل ملفات PDF، يجب تحديد كيفية معالجة الجداول، والصور، وعناصر البيانات الوصفية الأخرى.
يتطلب توليد استجابة شبيهة باستجابة بشرية من نموذج لغوي كبير (LLM) موارد حوسبة كبيرة، وقد يستغرق عدة ثوانٍ حسب حجم النموذج، وتعقيد استعلام المستخدم، وكمية المعلومات المعززة المُمررة إلى النموذج. بالنسبة للحلول التي تحتاج إلى خدمة مجموعات كبيرة من المستخدمين أو تتطلب استجابات سريعة، قد يكون من الضروري تنفيذ آلية لتخزين استجابات النموذج مؤقتًا للاستعلامات المتكررة.
يُعد تضمين البيانات المملوكة، والتي قد تكون سرية أو تحتوي على معلومات التعريف الشخصية (PII)، في موجِّهات النموذج اللغوي الكبير (LLM) عنصرًا أساسيًا وضروريًا في نمط التوليد المعزز بالاسترجاع (RAG). يجب أن تكون المؤسسات التي تستخدم منصات النماذج المستضافة على دراية بسياسات مزودي الخدمة، سياسات الاحتفاظ ببيانات الموجِّهات واستخدامها (على سبيل المثال، هل يجمع المزود بيانات الموجِّهات ويستخدمها في إعادة تدريب النموذج؟). ضوابط لمنع "تسريب" بيانات الموجِّهات إلى مستخدمين آخرين، وما إلى ذلك. وعلى المؤسسات موازنة هذه العوامل مع سياسات وإجراءات أمن البيانات الخاصة بها.
على الرغم من أن نقل بعض المعلومات المملوكة أمر لا مفر منه، يمكن للمؤسسات تقليل مستوى تعرضها من خلال إدراج مراجع المستندات أو عناوين URL فقط للمعلومات الأكثر حساسية في البيانات المعالجة. على سبيل المثال، بدلاً من تضمين جدول خصومات الأسعار داخل بيانات التوليد المعزز بالاسترجاع (RAG)، يمكن إدراج وصف للجدول فقط مع مرجع أو رابط لمستند داخلي أو موقع ويب داخلي ضمن المحتوى.
قد يكون أمن النقل البسيط (TLS) في الاتصالات بين المناطق كافياً لتلبية متطلبات أمن البيانات، ولكن قد يحتاج المهندسون إلى التفكير في توفير حماية إضافية من خلال إضافة عناصر لتشفير وفك تشفير الموجِّهات والاستجابات قبل تمريرها عبر حدود المناطق.
يؤثر نوع الاتصال بين مناطق النشر على العديد من المتطلبات غير الوظيفية. يُعد استخدام اتصال شبكة خاصة افتراضية (VPN) عبر الإنترنت العام خيارًا منخفض التكلفة، لكنه قد لا يبدد جميع مخاوف الأمان، كما قد لا يتمكن من تلبية متطلبات زمن الاستجابة أو الإنتاجية للحل. في المقابل، يوفر اتصال شبكة خاصة ببيئة استضافة النموذج أمانًا أفضل بشكل ملحوظ، إلى جانب قدرة المهندسين على التحكم في زمن انتقال الشبكة وعرض النطاق الترددي، لكنه يأتي بتكلفة أعلى بكثير.