Mengevaluasi agen AI memerlukan pendekatan terstruktur dalam kerangka kerja pengamatan formal yang lebih luas. Metode evaluasi (atau eval) berbeda-beda, tetapi prosesnya biasanya melibatkan langkah-langkah berikut:
1. Menentukan tujuan dan metrik evaluasi
Apa tujuan dari agen tersebut? Apa hasil yang diharapkan? Bagaimana AI digunakan dalam skenario dunia nyata?
Lihat “Metrik evaluasi agen AI umum” untuk beberapa metrik paling populer, yang termasuk dalam kategori kinerja, interaksi dan pengalaman pengguna, AI yang etis dan bertanggung jawab, sistem dan efisiensi, serta metrik spesifik untuk setiap tugas.
2. Mengumpulkan data dan mempersiapkan pengujian
Untuk mengevaluasi agen AI secara efektif, gunakan kumpulan data evaluasi representatif, termasuk beragam input yang mencerminkan skenario dunia nyata dan skenario uji yang mensimulasikan kondisi real-time. Data beranotasi mewakili kebenaran dasar yang dapat diuji oleh model AI.
Petakan setiap langkah potensial dari alur kerja agen, baik itu memanggil API, meneruskan informasi ke agen kedua, maupun membuat keputusan. Dengan memecah alur kerja AI menjadi bagian-bagian lebih kecil, mengevaluasi bagaimana agen menangani setiap langkah menjadi lebih mudah. Pertimbangkan juga pendekatan agen secara utuh di seluruh alur kerja, atau dengan kata lain, jalur eksekusi yang diambil agen untuk memecahkan masalah multi-langkah.
3. Melakukan pengujian
Jalankan agen AI di lingkungan yang berbeda, mungkin dengan LLM yang berbeda sebagai basisnya, dan lacak kinerjanya. Pecah langkah-langkah agen individu dan evaluasi masing-masing. Misalnya, pantau penggunaan generasi dengan dukungan pengambilan data (RAG) oleh agen untuk mengambil informasi dari database eksternal, atau respons panggilan API.
4. Menganalisis hasil
Bandingkan hasil dengan kriteria keberhasilan yang telah ditentukan sebelumnya jika ada, dan jika tidak, gunakan LLM-as-a-judge (lihat di bawah). Nilai kelebihan dan kekurangannya dengan menyeimbangkan kinerja dengan pertimbangan etis.
Apakah agen memilih alat yang tepat? Apakah agen memanggil fungsi yang benar? Apakah agen memberikan informasi yang benar dalam konteks yang tepat? Apakah agen menghasilkan respons yang benar secara faktual?
Panggilan fungsi/penggunaan alat adalah kemampuan dasar untuk mengembangkan agen cerdas yang mampu memberikan respons real-time dan akurat secara kontekstual. Pertimbangkan penggunaan evaluasi khusus dan analisis dengan Approach berbasis aturan, disertai dengan evaluasi semantik menggunakan LLM-as-a-judge.
LLM-as-a-judge adalah sistem evaluasi otomatis yang menilai kinerja agen AI menggunakan kriteria dan metrik yang telah ditentukan sebelumnya. Alih-alih mengandalkan penilai manusia, LLM-as-a-judge menerapkan algoritma, heuristik, atau model penilaian berbasis AI untuk mengevaluasi respons, keputusan, atau tindakan agen.
Lihat "metrik evaluasi Pemanggilan Fungsi" di bawah ini.
5. Mengoptimalkan dan melakukan iterasi
Pengembang kini dapat menyesuaikan prompt, mendebug algoritma, menyederhanakan logika, atau mengonfigurasi arsitektur agen berdasarkan hasil evaluasi. Misalnya, contoh penggunaan dukungan pelanggan dapat ditingkatkan dengan mempercepat pembuatan respons dan waktu penyelesaian tugas. Efisiensi sistem dapat dioptimalkan untuk skalabilitas dan penggunaan sumber daya.