يتطلّب تقييم وكيل الذكاء الاصطناعي اتباع نهج منظم ضمن إطار رسمي أوسع لقابلية الملاحظة. تختلف طرق التقييم (أو الاختبار) بشكل كبير، لكن العملية تتضمن عادةً الخطوات التالية:
1. تحديد أهداف ومقاييس التقييم
ما الغرض من الوكيل؟ ما النتائج المتوقعة؟ كيف يتم استخدام الذكاء الاصطناعي في سيناريوهات العالم الواقعي؟
اطَّلِع على "المقاييس الشائعة لتقييم وكلاء الذكاء الاصطناعي" للتعرُّف على أبرز المقاييس المستخدمة، والتي تندرج ضمن فئات الأداء، والتفاعل وتجربة المستخدم، والذكاء الاصطناعي الأخلاقي والمسؤول، والنظام والكفاءة، والمقاييس الخاصة بالمهام.
2. جمع البيانات والتحضير للاختبار
لتقييم وكيل الذكاء الاصطناعي بشكل فعَّال، استخدِم مجموعات بيانات تقييم تمثيلية، تتضمن مدخلات متنوعة تعكس سيناريوهات واقعية، وحالات اختبار تُحاكي ظروف الوقت الفعلي. تمثِّل البيانات المشروحة الحقيقة الأساسية التي يمكن اختبار نماذج الذكاء الاصطناعي بناءً عليها.
حدِّد كل خطوة محتملة في سير عمل الوكيل، سواء أكانت استدعاءً لواجهة برمجة التطبيقات (API)، أم تمريرًا للمعلومات إلى وكيل آخر، أم اتخاذ قرار. فمن خلال تقسيم سير عمل الذكاء الاصطناعي إلى أجزاء فردية، يصبح من الأسهل تقييم كيفية تعامُل الوكيل مع كل خطوة. ضع في اعتبارك أيضًا النهج الكامل الذي يتبعه الوكيل في سير العمل، أو بعبارة أخرى، مسار التنفيذ الذي يتبعه الوكيل لحل مشكلة متعددة الخطوات.
3. إجراء الاختبار
شغِّل وكيل الذكاء الاصطناعي في بيئات مختلفة، مع إمكانية استخدام نماذج لغوية كبيرة (LLMs) متنوعة كأساس له، وتتبَّع الأداء. قسِّم خطوات الوكيل إلى عناصر منفصلة وقيِّم كل عنصر منها. على سبيل المثال، راقِب استخدام الوكيل للتوليد المعزز بالاسترجاع (RAG) لإحضار المعلومات من قاعدة بيانات خارجية، أو راقِب استجابته لاستدعاء واجهة برمجة التطبيقات.
4. تحليل النتائج
قارِن النتائج بمعايير النجاح المحددة مسبقًا إن وُجدت، وإن لم تكن متوفرة، فاستخدِم نموذجًا لغويًا كبيرًا كمقيِّم (انظر أدناه). قيِّم المفاضلات من خلال الموازنة بين الأداء والاعتبارات الأخلاقية.
هل اختار الوكيل الأداة المناسبة؟ هل استدعى الدالة الصحيحة؟ هل نقَل المعلومات الصحيحة في السياق المناسب؟ وهل قدَّم استجابة دقيقة من الناحية الواقعية؟
يُعَد استخدام الأدوات واستدعاء الدوال قدرة أساسية لبناء وكلاء أذكياء قادرين على تقديم استجابات دقيقة في الوقت الفعلي وضمن السياق الصحيح. ضع في الاعتبار إجراء تقييم وتحليل مخصصَين باستخدام نهج قائم على القواعد، إلى جانب تقييم دلالي يعتمد على نموذج لغوي كبير كمقيِّم.
يُعَد النموذج اللغوي الكبير كمقيِّم نظامًا مؤتمتًا لتقييم أداء وكلاء الذكاء الاصطناعي، يعتمد على معايير ومقاييس محددة مسبقًا. وبدلًا من الاعتماد الكامل على مراجعين بشريين، يستخدم هذا النظام خوارزميات، أو قواعد استدلال، أو نماذج تقييم قائمة على الذكاء الاصطناعي لتحليل استجابات الوكيل وقراراته وتصرفاته.
راجِع "مقاييس تقييم استدعاء الدوال" أدناه.
5. التحسين والتكرار
يمكن للمطورين الآن تعديل التعليمات، وتصحيح الخوارزميات، وتبسيط المنطق، أو ضبط هندسة الوكلاء استنادًا إلى نتائج التقييم. على سبيل المثال، يمكن تحسين حالات استخدام دعم العملاء من خلال تسريع أوقات إنشاء الاستجابة وإكمال المهام. يمكن تحسين كفاءة النظام من أجل قابلية التوسع واستخدام الموارد.