تقييم النتائج

استكشِف المزيد مما يقدمه RAG Cookbook للحصول على فهم أعمق لحلول RAG المتاحة اليوم.

مساحة عمل جديدة معاد تلوينها تعتمد على مساحة Watson for Customer Care كأساس لها.
لمحة عامة

هناك العديد من الأسئلة التي قد يتم طرحها حول حل التوليد المعزز بالاسترجاع (RAG):

  • كيف نحدِّد خيارات التصميم التي تؤدي إلى زيادة أداء الاسترجاع؟
  • كيف نعرف أي نموذج تضمينات يوفر أفضل تمثيل متجه لمستنداتنا؟
  • هل النهج الوكيل ضروري؟
  • هل ستعزز إعادة التصنيف نتائجنا؟ أم أن خيارات المَعلمات هذه لها تأثير طفيف فقط؟

يُعَد وجود استراتيجية تقييم واضحة طوال تطوير حل قائم على RAG أمرًا بالغ الأهمية لضمان مسار ناجح نحو الإنتاج. نرى العديد من التقييمات التجريبية التي يتم إجراؤها أثناء مشاريع تجريبية والتي تكون أحيانًا غير قابلة لإعادة الإنتاج. من أجل تحسين أداء حل RAG أثناء التطوير أو لتشخيص مشكلة في بيئة الإنتاج بشكل صحيح، يجب أن تكون مهام التقييم قابلة لإعادة الإنتاج وسريعة التنفيذ. يجب تقييم مسارات RAG بشكل منهجي ومتسق لكلٍّ من عناصر الاسترجاع والتوليد.

يؤدي فهم أداء حل RAG دورًا حيويًا في مختلف مراحل دورة حياة الحل، بما في ذلك:

  • مرحلة التجربة والضبط
  • مرحلة المراقبة

ومع ذلك، ينبغي ألَّا يتم الاستهانة بالجهد المطلوب لبناء محرك تقييم، خاصةً عند إنشاء مجموعة بيانات ذهبية (Ground Truth) تحتوي على إجابات مرجعية وسياقات مرجعية.

في هذا المستند، سنناقش أساليب التقييم المختلفة والمقاييس المستخدمة، بالإضافة إلى تسليط الضوء على بعض الموارد القابلة لإعادة الاستخدام لتسهيل عملية تقييم هذه الحلول.

الأساليب

استخدام الذكاء الاصطناعي لتقييم الذكاء الاصطناعي

ظهر LLMaaJ (LLM as a Judge) كأحد المقاييس الرائدة خلال العام الماضي لتجاوز تحدي بناء محرك تقييم قائم على المرجعية. وقد أظهرت هذه التقنية في التقييم قدرة جيدة على التوافق مع حكم الإنسان. فيما يلي عدة خصائص لا يمكن قياسها بالمقاييس والمعايير الحالية، لكنها يمكن تقييمها باستخدام LLMaaJ:

  • الأمن (Safety) – هل تعمل النماذج على توليد محتوى ضار أو غير آمن؟
  • الاستناد إلى الحقائق (Groundedness) – في حالات التلخيص والتوليد المعزز بالاسترجاع (RAG)، هل يستند الناتج الذي تم توليده إلى الحقائق الموجودة في سياق الإدخال؟
  • المشاعر (Sentiment) – هل تكون الاستجابات التي تم توليدها إيجابية أم سلبية أم تتَّبِع شعورًا محددًا آخر؟
  • السُمِّية (Toxicity) – هل تولِّد النماذج محتوًى مسيئًا أو عدوانيًا أو تمييزيًا؟
  • أسلوب اللغة (Language style) – هل تتحدث النماذج بأسلوب غير رسمي، أم رسمي، أم أسلوب شائع؟ يشمل ذلك تقييم السخرية، والفكاهة، والاستهزاء.

على سبيل المثال، عند استخدام نموذج للتقييم لتقييم مخرجات نماذج أخرى، يجب أن تحتوي مطالبة التقييم على وصف للخصائص المُراد تقييمها ومقياس التقدير، ويجب دمجها مع الاستجابة التي سيتم تقييمها.

في هذا المثال، يُطلب من النموذج تقييم أسلوب لغة الاستجابة وإرجاع التصنيف المناسب:

أنت حكم عادل وغير متحيز. يُطلب منك تصنيف استجابة روبوت محادثة وفقًا لمشاعره. قيِّم الاستجابة أدناه واستخرج الفئة المقابلة. الفئات المحتملة هي إيجابية ومحايدة وسلبية. اشرح سبب تصنيفك واختم بذكر المشاعر المصنَّفة.
{{response}}

 

أو، على سبيل المثال، فيما يلي مثال على مطالبة بأمثلة قليلة لتقييم قائم على نموذج لغوي كبير (LLM) لمهام التعرُّف على الكيانات المسماة (NER).

-----------------------------------المطالبة---------------------------------------------
You are a professional evaluator, and your task is to assess the accuracy of entity extraction as a Score in a given text. You will be given a text, an entity, and the entity value.
Please provide a numeric score on a scale from 0 to 1, where 1 is the best score and 0 is the worst score. Strictly use numeric values for scoring.

Here are the examples:

Text: Where is the IBM's office located in New York?
Entity: organization name
Value: IBM's
Score: 0

Text: Call the customer service at 1-800-555-1234 for assistance.
Entity: phone number
Value: +1 888 426 4409
Score: 1

Text: watsonx has three components: watsonx.ai, watsonx.data, and watsonx.governance.
Entity: product name
Value: Google
Score: 0.33

Text: The conference is scheduled for 15th August 2024.
Entity: date
Value: 15th August 2024
Score: 1

Text: My colleagues John and Alice will join the meeting.
Entity: person’s name
Value: Alice
Score: 1

-----------------------------------المخرجات---------------------------------------------درجة التقييم: 0.67
--------------------------------------------------------------------------------------
المقاييس

تتأثر تعقيدات أنظمة التوليد المعزز بالاسترجاع (RAG) بشكل كبير بالطبيعة الغامضة للنماذج اللغوية الكبيرة (LLMs) بالإضافة إلى العناصر المعقدة والمترابطة داخل مسار RAG. مع استمرار تقدُّم التكنولوجيا بوتيرة غير مسبوقة، يصبح تقييم مثل هذا النظام المعقد مهمة أكثر صعوبة. لمواجهة هذا التحدي، تم تطوير مجموعة واسعة من المعايير وأدوات التقييم خصيصًا لأنظمة RAG. تعمل هذه الموارد على توفير نهج موحَّد ومنهجي لتقييم أداء وفاعلية هذه الأنظمة.

على سبيل المثال، كما هو موضح في الجدول أدناه (مقتبس من "Evaluation of Retrieval-Augmented Generation: A Survey")، يوجد تنوع كبير في طرق وأدوات تقييم RAG، لكل منها نقاط قوة وتطبيقات فريدة. يهدف هذا الجدول، الذي لا يشمل جميع الأدوات، إلى تقديم نظرة موجزة عن المشهد الحالي لتقييم أنظمة RAG.

جدول جزئي لمقاييس وأساليب التقييم لحلول RAG.

في سياق عنصر الاسترجاع في أنظمة RAG، تنشأ عدة تحديات.

تتمثل التحديات الأساسية لعنصر الاسترجاع في الطبيعة الواسعة والديناميكية لمستودعات المعرفة المحتملة، والجوانب الزمنية للبيانات، وتنوع مصادر المعلومات. بالنظر إلى هذه التحديات، يصبح من الواضح أن المقاييس التقليدية مثل Recall وPrecision غير كافية وغير مجهزة لتقديم تقييم شامل. بدلًا من ذلك، هناك حاجة إلى مقاييس أكثر دقة ومعتمدة على السياق، يمكنها استيعاب التعقيدات والدقة في عملية الاسترجاع بشكل فعَّال.

فيما يتعلق بعنصر التوليد، من الضروري مراعاة العلاقة المعقدة بين دقة عملية الاسترجاع وجودة المخرجات التي تم توليدها. وهذا يتطلب تطوير وتنفيذ مقاييس تقييم شاملة توفِّر تقييمًا متكاملًا ودقيقًا لأداء النظام.

وبالتالي، يتطلب تقييم نظام RAG ككل فحصًا دقيقًا لتأثير عنصر الاسترجاع في عملية التوليد، بالإضافة إلى تقييم فاعلية وكفاءة النظام الإجمالية في تحقيق الأهداف والغايات المرجوة.

ثلاثية RAG ‏(RAG triad) هي إطار تقييم يهدف إلى قياس موثوقية ودقة سياقية استجابات النماذج اللغوية الكبيرة (LLM). تتكون من ثلاثة تقييمات: ملاءمة السياق، والاستناد إلى الحقائق، وملاءمة الإجابة. تهدف هذه التقييمات إلى تحديد هلوسات استجابات النماذج اللغوية الكبيرة (LLM) من خلال التحقق من ملاءمة السياق، وموثوقية الاستجابة بالنسبة إلى السياق، وتوافق الإجابة مع استفسارات المستخدم.

رسم توضيحي لإطار ثلاثية RAG لتقييم أداء حلول RAG.

يمكن تحقيق تقييم RAG باستخدام كلٍّ من المقاييس الآلية المعتمدة على المرجعية والمقاييس التي لا تعتمد على المرجعية. توجد لوحة نتائج (Leaderboard) على HuggingFace توضِّح مدى تميُّز نماذج LLM مفتوحة المصدر مقارنةً ببعضها.

مقاييس الاسترجاع

المقاييس الخاصة بالاسترجاع أدناه تعتمد على المرجعية، ما يعني أنه يجب تحديد كل مقطع بشكل فريد (contexts_id) ولكل سؤال معرِّفات فريدة للسياقات المرجعية الأساسية.

المقاييس المستندة إلى الترتيب المستخدمة في أنظمة التوصية مناسبة أيضًا لتقييم RAG.

MRR (Mean Reciprocal Rank)

يتم استخدام MRR في Unitxt ويقيس موقع أول مستند ذي صلة في نتائج البحث. القيمة الأعلى لـ MRR، والتي تقترب من 1، تُشير إلى ظهور النتائج ذات الصلة بالقرب من القمة، ما يعكس جودة بحث عالية. وعلى العكس، تُشير القيمة الأقل لـ MRR إلى أداء بحث أقل جودة، مع وضع الإجابات ذات الصلة في مواقع أبعد في النتائج.

الإيجابيات: يؤكِّد على أهمية أول نتيجة ذات صلة، وهي غالبًا حاسمة في سيناريوهات البحث.
السلبيات: أحد القيود هو أنه لا يعاقب الاسترجاع على ترتيب منخفض لبقية النتائج المرجعية؛ غير مناسب لتقييم القائمة الكاملة للنتائج المسترجعة، حيث يركِّز فقط على العنصر الأول ذي الصلة.

NDCG (Normalized Discounted Cumulative Gain)

مقياس جودة الترتيب الذي يقيِّم مدى ترتيب قائمة العناصر مقارنةً بالترتيب المثالي، حيث يتم وضع جميع العناصر ذات الصلة في الأعلى.

يتم حساب NDCG@k على أنها DCG@k مقسومة على IDCG@k (الدرجة المثالية لقائمة مرتَّبة بشكل كامل حتى الموضع k). يقيس DCG إجمالي ملاءمة العناصر في القائمة.

يتراوح المقياس من 0 إلى 1.

Pros: Tالإيجابيات: يأخذ في الاعتبار موقع العناصر ذات الصلة، ما يوفر رؤية أكثر شمولية لجودة الترتيب؛ يمكن تعديله لمستويات ترتيب مختلفة (مثل NDCG@k).
السلبيات: أكثر تعقيدًا في الحساب والتفسير مقارنةً بمقاييس أبسط مثل MRR؛ يتطلب وجود ترتيب مثالي للمقارنة، والذي قد لا يكون متاحًا دائمًا أو من السهل تحديده.

MAP (Mean Average Precision)

يُعَد Mean Average Precision (MAP) مقياسًا يقيِّم ترتيب كل مستند تم استرجاعه بشكل صحيح ضمن قائمة النتائج.

وهو مفيد عندما يحتاج النظام إلى أخذ ترتيب النتائج في الاعتبار واسترجاع مستندات متعددة في عملية واحدة.

الإيجابيات: يأخذ في الاعتبار كلًّا من Precision وRecall، ما يوفر تقييمًا متوازنًا لأداء الاسترجاع؛ وهو مناسب للمهام التي تتطلب مستندات متعددة ذات صلة وترتيبها الصحيح.
السلبيات: قد يكون أكثر استهلاكًا للموارد مقارنةً بالمقاييس الأبسط؛ قد لا يكون سهل التفسير مثل المقاييس الأخرى، ويتطلب سياقًا إضافيًا لفهم النتائج بالكامل.

مقاييس التوليد

الموثوقية

يقيس إذا ما كانت المخرجات مستندة إلى السياق المقدَّم أم أن النموذج يولِّد استجابات مهلوسة.

الإيجابيات: يضمن أن تكون الاستجابات التي تم توليدها موثوقًا بها ومستندة إلى السياق المقدَّم؛ حيوي للتطبيقات التي تكون فيها صحة الحقائق أمرًا بالغ الأهمية.
السلبيات: غالبًا ما يتطلب حكمًا بشريًا للتقييم، ما يجعله مستهلكًا للوقت وذا طابع شخصي؛ قد لا يعكس بدقة الأخطاء الجزئية أو الهلوسات الطفيفة.

الصلابة (عدم الحساسية)

تُعرَف الصلابة بشكل عام على أنها قدرة الحل على التكيف مع اختلافات المدخلات، مثل التغييرات في البيانات كالمسافات البيضاء، والحروف الكبيرة/الصغيرة، وعلامات الجدولة، وغيرها.

يُعَد اختبار الصلابة جانبًا مهمًا من عملية التقييم، ويمكن تحقيقه على سبيل المثال باستخدام Unitxt الدلالية.

الإيجابيات: يضمن أداء النموذج بشكل موثوق به عبر ظروف إدخال متنوعة؛ قابلية التطبيق العملي: مهم للتطبيقات الواقعية حيث قد لا تكون البيانات مدخلة بتنسيق مثالي.
السلبيات: يتطلب اختبارًا شاملًا عبر العديد من الاختلافات، وهو ما قد يكون مستهلكًا للوقت؛ تحديد الاختلافات: من الصعب تعريف وقياس جميع التغييرات المحتملة للمدخلات.

ROUGE (معيار الاستدعاء المُوجَّه قيد الدراسة لتقييم التلخيص)

يقيس جودة النص الذي تم توليده من خلال مقارنة تداخل n-grams، وتسلسل الكلمات، وأزواج الكلمات بين النص الذي تم تم توليده آليًا ومجموعة من النصوص المرجعية. يُستخدم على نطاق واسع لتقييم مهام مثل تلخيص النصوص والترجمة.

الإيجابيات: معيار معترف به وراسخ في مجتمع معالجة اللغة الطبيعية (NLP)، ويقدِّم معيارًا للمقارنة؛ وهو مناسب للمهام التي يكون فيها التقاط كل المعلومات ذات الصلة أمرًا مهمًا.
السلبيات: يركِّز على تداخل n-grams، ما قد لا يعكس الجودة الدلالية أو الطلاقة اللغوية؛ يمكن أن يتأثر بطول النص الذي تم توليده، ما قد يفرض عقوبة على النصوص الأقصر أو الأكثر إيجازًا.

BLEU (التقييم ثنائي اللغة)

يقيس جودة النص المترجم آليًا بمقارنته بترجمة واحدة أو أكثر مرجعية. يقيم دقة n-grams في النص الذي تم توليده بالنسبة إلى النصوص المرجعية. يُستخدم بشكل أساسي لتقييم الترجمة.

الإيجابيات: فعَّال للمهام التي تكون فيها الدقة والتطابق التام مهمًا؛ مقياس معياري: معتمد على نطاق واسع في مجتمع الترجمة الآلية، ويقدِّم معيارًا للمقارنة.
السلبيات: قد يعاقب على الاختلافات المشروعة في الصياغة التي لا تطابق النصوص المرجعية تمامًا؛ عدم القدرة على الكشف عن الأخطاء الجزئية: قد لا يعكس بدقة الأخطاء الجزئية أو الاختلافات الدقيقة في المعنى.

مقاييس التكلفة

استخدام GPU/CPU

يتم استخدام وحدة المعالجة المركزية (CPU) بشكل رئيسي في مرحلة الاسترجاع، بينما يتم استخدام وحدة معالجة الرسومات (GPU) بشكل أساسي في مرحلة التوليد.

تكلفة استدعاءات النماذج اللغوية الكبيرة

مثال: تكلفة استدعاءات OpenAI API.

تكلفة البنية التحتية

تكاليف التخزين والشبكات وموارد الحوسبة وغير ذلك.

تكلفة العمليات

التكاليف المتعلقة بالصيانة والدعم والمراقبة والتسجيل وإجراءات الأمن، وغير ذلك.

فهم نتائج التقييم

 

رسم بياني بأربعة أرباع يوضِّح إجراءات المعالجة لتحسين نماذج RAG بناءً على درجات التوليد والاسترجاع.

إذا أشارت مقاييس الاسترجاع إلى أداء دون المستوى الأمثل، بينما تعطي مقاييس التوليد نتائج جيدة، يُنصح بما يلي: 

  1. إعادة النظر وتعديل استراتيجية تقسيم النصوص، مثل حجم المقاطع والتداخل، لتحقيق توازن أفضل بين السياق والملاءمة.
  2. تنظيف البيانات ومعالجتها مسبقًا لإزالة الضوضاء والمعلومات غير ذات الصلة.
  3. إضافة بيانات وصفية مثل التواريخ إلى المقاطع لمساعدة النظام على تصفية وترتيب البيانات بناءً على حالات الاستخدام المحددة.
  4. تطبيق إعادة الترتيب: يُتيح هذا لنظام الاسترجاع تحسين ترتيب أفضل العُقد للسياق. يوفر كلٌّ من LangChain وLlamaIndex واجهات تجريدية سهلة الاستخدام لتطبيق إعادة الترتيب.
  5. اجعل النموذج اللغوي الكبير (LLM) يعيد صياغة الاستعلام ويحاول مرة أخرى؛ حيث إن الأسئلة المتشابهة للبشر قد لا تظهر متقاربة في مساحة التضمين.
  6. الضبط الدقيق للتضمينات باستخدام LlamaIndex لتحسين الدقة.

بالمقابل، إذا أظهرت مقاييس الاسترجاع أداءً قويًا بينما كانت نتائج التوليد دون المستوى المطلوب، يمكن النظر في الاستراتيجيات التالية لتحسين أداء النموذج:

  1. ضبط النموذج اللغوي: تخصيص النموذج ليتناسب مع مجال عملك عن طريق تدريبه على مجموعات بيانات ذات صلة لتعزيز دقته وفهمه للسياق.
  2. تحسين هندسة المطالبات: تجربة هيكلة الصياغة والكلمات في الاستعلام لتوجيه النموذج نحو نتائج أكثر دقة.
  3. استخدام استراتيجيات فك التشفير المختلفة: تعديل تقنيات التوليد مثل beam search، أو top-k sampling، أو nucleus sampling (top-p) لتحسين جودة الاستجابات التي يتم توليدها.
  4. التحكم في طول التوليد: وضع قيود على طول الاستجابة لضمان الإيجاز والدقة.
  5. دمج التعليقات والملاحظات: تنفيذ نظام يحدِّد الاستجابات دون المستوى المطلوب ويصحِّحها، ما يُتيح تحسينًا مستمرًا.
  6. الاستفادة من الحوار متعدد الخطوات: تقسيم المهام المعقدة إلى تفاعلات متعددة، ما يسمح للنموذج بتحسين إجاباته عبر عدة جولات.

في السيناريو الذي تُظهر فيه كلٌّ من مقاييس الاسترجاع والتوليد أداءً دون المستوى، يُنصح بإعادة النظر في المراحل الأولية من المسار، مثل تحسين البيانات الوصفية، وتنقيح قاعدة المعرفة، وتحسين آلية الاسترجاع.

يؤكِّد هذا النهج على أهمية تقييم شامل ودقيق لنظام التوليد المعزز بالاسترجاع (RAG)، مع مراعاة التفاعل بين عناصر الاسترجاع والتوليد، وكفاءة النظام الإجمالية في تحقيق الأهداف والنتائج المرجوة.

استكشِف المزيد

احصل على أحدث أنماط التقنيات، وبنى الحلول، ومنشورات البنية من IBM.

  1. انتقِل إلى IBM Architecture Center
المساهمون

Vicky Kuo، وAmna Jamal، وLuke Major، وChris Kirby

تاريخ التحديث: 15 نوفمبر 2024