يوجد العديد من أطر عمل تقييم RAG ومجموعة متنوعة من مقاييس التقييم. بخلاف Ragas، تشمل أطر العمل الأخرى Unitxt من IBM وEvals من OpenAI. على عكس أطر العمل الأخرى، يستخدم Ragas نموذج لغوي كبير آخر كمقيّم لتقييم أداء مسار RAG.

هناك العديد من مقاييس التقييم المتاحة لقياس أداء مسار RAG الخاص بنا. يمكن تقسيم المقاييس التي سنستخدمها في إطار عمل Ragas مفتوح المصدر إلى قسمين:

تقييم التوليد الموثوقية تقيس إذا ما كان بالإمكان استنتاج جميع الإجابات التي تم توليدها من السياق المسترجَع. ملاءمة الإجابة تقيس مدى ارتباط الرد المولَّد بالسؤال.

تقييم الاسترجاع دقة السياق تقيس ترتيب الكيانات ذات الصلة الواقعية في السياق. تعني دقة السياق الأعلى أن العناصر الحقيقية ذات الصلة تحتل مرتبة أعلى من "الضوضاء". استدعاء السياق يقيس مدى إمكانية العثور على الإجابات التي يولِّدها النموذج اللغوي الكبير في السياق المسترجَع.



تهدف هذه المقاييس إلى أن تكون مؤشرات ذاتية على مدى قدرة مسارات RAG على استرجاع المعلومات ذات الصلة من قاعدة المعرفة لتكوين استجابة. من المهم ملاحظة أنه لا يوجد معيار مثالي للبيانات أو المطالبات أو النماذج اللغوية الكبيرة. حتى السياق الذي يحصل على درجة منخفضة في ملاءمة السياق (context_relevance) لا يعني بالضرورة أنه سياق غير جيد. قد يرجع انخفاض الدرجة إلى وجود بعض "الضوضاء"، أو معلومات أقل صلة، أو ببساطة لأن المهمة نفسها قابلة لتفسيرات متعددة. الضوضاء ليست بالضرورة سيئة أيضًا. نحن كبشر ننتج كمية معينة من "الضوضاء" في ردودنا، بينما نظل قادرين على تقديم إجابات مفهومة للأسئلة.

هناك أيضًا تحيّزات تؤثِّر في تقييم مسار RAG، مثل التفضيل للردود القصيرة أو الطويلة، والمعروفة باسم تحيّز الطول. يمكن أن يؤدي هذا النوع من التحيّز إلى تقييم استجابة أعلى من أخرى بسبب طولها وليس جوهرها.

لهذه الأسباب، من أفضل الممارسات إجراء تقييمات متعددة. يمكن إنجاز هذا التمرين عن طريق تغيير مطالبة النموذج اللغوي الكبير، والمقاييس، وتسلسل التقييم وغير ذلك. إذا كنت تُنشئ مجموعة بيانات خاصة بمسار RAG الخاص بك، يُنصَح أيضًا باستخدام نماذج مختلفة للنموذج اللغوي الكبير الذي يولِّد الردود والنموذج اللغوي الكبير الذي يقيّم هذه الردود. إذا تم استخدام النموذج نفسه لكليهما، فهناك احتمال أكبر لحدوث تحيّز في التقييم الذاتي. نظرًا لأن مقاييس التقييم هذه ذاتية، يجب أيضًا مراجعة النتائج التي تنتجها أطر العمل هذه من قِبَل مقيّمين بشريين.

في هذا البرنامج التعليمي، لن نُنشئ نظام RAG. بدلًا من ذلك، نستخدم Ragas لتقييم ناتج نظام RAG الذي تم إنشاؤه مسبقًا. للمزيد من المعلومات حول كيفية إنشاء نظام RAG الخاص بك باستخدام LangChain، راجِع البرنامج التعليمي التفصيلي حول RAG.