Evaluasi agen AI adalah proses pengujian dan memvalidasi AI agen untuk memastikan agen memenuhi tujuannya dan berkinerja sesuai harapan. Hal ini membutuhkan kumpulan data pengujian atau validasi yang berbeda dengan kumpulan data pelatihan dan cukup beragam untuk mencakup semua kasus pengujian yang mungkin terjadi dan mencerminkan skenario dunia nyata.
Melakukan pengujian di sandbox atau lingkungan simulasi dapat membantu menentukan peningkatan kinerja sejak dini dan mengidentifikasi masalah keamanan dan risiko etika sebelum menerapkan agen ke pengguna aktual.
Seperti tolok ukur LLM, agen AI juga memiliki seperangkat metrik evaluasi. Metrik yang umum termasuk metrik fungsional seperti tingkat keberhasilan atau penyelesaian tugas, tingkat kesalahan dan latensi, serta metrik etika seperti skor bias dan keadilan dan kerentanan injeksi prompt. Agen dan bot yang berinteraksi dengan pengguna dinilai berdasarkan alur percakapan, tingkat keterlibatan, dan skor kepuasan pengguna.
Setelah mengukur metrik dan menganalisis hasil pengujian, tim pengembangan agen dapat melanjutkan dengan algoritma debug, memodifikasi arsitektur agen, menyempurnakan logika, dan mengoptimalkan kinerja.