تقييم وكيل الذكاء الاصطناعي هو عملية اختبار الذكاء الاصطناعي الوكيل والتحقق منه للتأكد من أنه يحقق أهدافه ويؤدي على النحو المتوقع. يتطلب ذلك مجموعة بيانات للاختبار أو التحقق تختلف عن مجموعة بيانات التدريب وتكون متنوعة بما يكفي لتغطية جميع حالات الاختبار المحتملة وتعكس السيناريوهات الواقعية.
يمكن أن يساعد إجراء الاختبارات في بيئة تجريبية أو بيئة محاكاة على تحديد تحسينات الأداء مبكرًا واكتشاف أي مشكلات أمنية أو مخاطر أخلاقية قبل نشر الوكلاء للمستخدمين الفعليين.
مثل معايير أداء النماذج اللغوية الكبيرة، يمتلك وكلاء الذكاء الاصطناعي أيضًا مجموعة من مقاييس التقييم. تشمل المعايير الشائعة المقاييس الوظيفية مثل معدل النجاح أو إكمال المهمة ومعدل الخطأ وزمن الانتقال والمعايير الأخلاقية مثل التحيز ومعدل الإنصاف وقابلية التعرض لحقن المطالبات. يتم تقييم الوكلاء والروبوتات التي تتفاعل مع المستخدمين وفقًا لتدفق المحادثة ومعدل التفاعل ودرجة رضا المستخدم.
بعد قياس المقاييس وتحليل نتائج الاختبار، يمكن لفِرَق تطوير الوكلاء المُضيّ قدمًا في تصحيح أخطاء الخوارزميات وتعديل بنى الوكيل وتحسين المنطق وتحسين الأداء.