Berita teknologi terbaru, didukung oleh insight dari pakar
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Evaluasi agen AI mengacu pada proses menilai dan memahami kinerja agen AI dalam melaksanakan tugas, mengambil keputusan, dan berinteraksi dengan pengguna. Mengingat otonomi yang melekat padanya, mengevaluasi agen sangatlah penting untuk mendukung mereka agar berfungsi dengan tepat. Agen AI harus berperilaku sesuai dengan maksud perancang mereka, bekerja secara efisien, dan mematuhi prinsip-prinsip AI etis tertentu untuk melayani kebutuhan organisasi. Evaluasi membantu memverifikasi bahwa agen memenuhi persyaratan tersebut, serta membantu meningkatkan kualitas agen dengan mengidentifikasi area yang perlu diperbaiki dan dioptimalkan.
Agen AI generatif (gen AI) sering dievaluasi pada tugas teks-ke-teks tradisional, mirip dengan tolok ukur model bahasa besar (LLM) standar, ketika metrik seperti koherensi, relevansi, dan akurasi teks yang dihasilkan biasanya digunakan. Namun, agen gen AI biasanya melakukan operasi yang lebih luas dan lebih kompleks — termasuk penalaran multi-langkah, panggilan alat, dan interaksi dengan sistem eksternal — yang memerlukan evaluasi yang lebih komprehensif. Bahkan ketika output akhir adalah teks, bisa jadi hasilnya berasal dari tindakan perantara seperti menelusuri database atau memanggil API, yang masing-masing perlu dievaluasi secara terpisah.
Dalam kasus lain, agen mungkin tidak menghasilkan output teks sama sekali, melainkan menyelesaikan tugas seperti memperbarui catatan atau mengirim pesan, dengan keberhasilan diukur berdasarkan eksekusi yang benar. Oleh karena itu, evaluasi harus melampaui kualitas teks permukaan dan menilai perilaku agen secara keseluruhan, keberhasilan tugas, serta kesesuaian dengan maksud pengguna. Selain itu, untuk menghindari pengembangan agen yang berkemampuan tinggi, tetapi memakan banyak sumber daya, yang membatasi penerapan praktisnya, pengukuran biaya dan efisiensi harus dimasukkan sebagai bagian dari evaluasi.
Selain mengukur kinerja tugas, mengevaluasi agen AI harus memprioritaskan dimensi penting seperti keselamatan, kepercayaan, kepatuhan kebijakan, dan mitigasi bias. Faktor-faktor ini sangat penting untuk menerapkan agen di dunia nyata dan lingkungan berisiko tinggi. Evaluasi membantu memastikan bahwa agen menghindari perilaku yang berbahaya atau tidak aman, mempertahankan kepercayaan pengguna melalui output yang dapat diprediksi dan diverifikasi, serta menahan diri dari manipulasi atau penyalahgunaan.
Untuk mencapai tujuan fungsional (kualitas, biaya) dan non-fungsional (keselamatan) ini, metode evaluasi dapat mencakup pengujian tolok ukur, penilaian yang melibatkan manusia, pengujian A/B, dan simulasi dunia nyata. Dengan mengevaluasi agen AI secara sistematis, organisasi dapat meningkatkan kemampuan AI mereka, mengoptimalkan upaya otomatisasi, dan meningkatkan fungsi bisnis sambil meminimalkan risiko yang terkait dengan AI agen yang tidak aman, tidak andal, atau bias.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Mengevaluasi agen AI memerlukan pendekatan terstruktur dalam kerangka kerja pengamatan formal yang lebih luas. Metode evaluasi (atau eval) berbeda-beda, tetapi prosesnya biasanya melibatkan langkah-langkah berikut:
Apa tujuan dari agen tersebut? Apa hasil yang diharapkan? Bagaimana AI digunakan dalam skenario dunia nyata?
Lihat “Metrik evaluasi agen AI umum” untuk beberapa metrik paling populer, yang termasuk dalam kategori kinerja, interaksi dan pengalaman pengguna, AI yang etis dan bertanggung jawab, sistem dan efisiensi, serta metrik spesifik untuk setiap tugas.
Untuk mengevaluasi agen AI secara efektif, gunakan kumpulan data evaluasi representatif, termasuk beragam input yang mencerminkan skenario dunia nyata dan skenario uji yang mensimulasikan kondisi real-time. Data beranotasi mewakili kebenaran dasar yang dapat diuji oleh model AI.
Petakan setiap langkah potensial dari alur kerja agen, baik itu memanggil API, meneruskan informasi ke agen kedua, maupun membuat keputusan. Dengan memecah alur kerja AI menjadi bagian-bagian lebih kecil, mengevaluasi bagaimana agen menangani setiap langkah menjadi lebih mudah. Pertimbangkan juga pendekatan agen secara utuh di seluruh alur kerja, atau dengan kata lain, jalur eksekusi yang diambil agen untuk memecahkan masalah multi-langkah.
Jalankan agen AI di lingkungan yang berbeda, mungkin dengan LLM yang berbeda sebagai basisnya, dan lacak kinerjanya. Pecah langkah-langkah agen individu dan evaluasi masing-masing. Misalnya, pantau penggunaan generasi dengan dukungan pengambilan data (RAG) oleh agen untuk mengambil informasi dari database eksternal, atau respons panggilan API.
Bandingkan hasil dengan kriteria keberhasilan yang telah ditentukan sebelumnya jika ada, dan jika tidak, gunakan LLM-as-a-judge (lihat di bawah). Nilai kelebihan dan kekurangannya dengan menyeimbangkan kinerja dengan pertimbangan etis.
Apakah agen memilih alat yang tepat? Apakah agen memanggil fungsi yang benar? Apakah agen memberikan informasi yang benar dalam konteks yang tepat? Apakah agen menghasilkan respons yang benar secara faktual?
Panggilan fungsi/penggunaan alat adalah kemampuan dasar untuk mengembangkan agen cerdas yang mampu memberikan respons real-time dan akurat secara kontekstual. Pertimbangkan penggunaan evaluasi khusus dan analisis dengan Approach berbasis aturan, disertai dengan evaluasi semantik menggunakan LLM-as-a-judge.
LLM-as-a-judge adalah sistem evaluasi otomatis yang menilai kinerja agen AI menggunakan kriteria dan metrik yang telah ditentukan sebelumnya. Alih-alih mengandalkan penilai manusia, LLM-as-a-judge menerapkan algoritma, heuristik, atau model penilaian berbasis AI untuk mengevaluasi respons, keputusan, atau tindakan agen.
Lihat "metrik evaluasi Pemanggilan Fungsi" di bawah ini.
Pengembang kini dapat menyesuaikan prompt, mendebug algoritma, menyederhanakan logika, atau mengonfigurasi arsitektur agen berdasarkan hasil evaluasi. Misalnya, contoh penggunaan dukungan pelanggan dapat ditingkatkan dengan mempercepat pembuatan respons dan waktu penyelesaian tugas. Efisiensi sistem dapat dioptimalkan untuk skalabilitas dan penggunaan sumber daya.
Pengembang ingin agen bekerja sebagaimana mestinya. Dan mengingat otonomi agen AI, penting untuk memahami “mengapa” di balik keputusan yang diambil oleh AI. Tinjau beberapa metrik paling umum yang dapat digunakan pengembang untuk mengevaluasi agen mereka secara efektif.
Tergantung aplikasi AI, metrik evaluasi khusus untuk kualitas dapat diterapkan:
Metrik fungsional lainnya untuk menilai kinerja agen AI meliputi:
Untuk agen AI yang berinteraksi dengan pengguna, seperti chatbot dan asisten virtual, evaluator melihat metrik ini.
Skor kepuasan pengguna (CSAT) mengukur seberapa puas pengguna dengan respons AI.
Tingkat keterlibatan melacak seberapa sering pengguna berinteraksi dengan sistem AI.
Alur percakapan mengevaluasi kemampuan AI untuk menjaga alur percakapan yang koheren dan bermakna.
Tingkat penyelesaian tugas mengukur seberapa efektif agen AI membantu pengguna menyelesaikan tugas.
Metrik berbasis aturan ini membantu menilai efektivitas operasional sistem berbasis AI:
Berikut adalah beberapa metrik semantik yang didasarkan pada LLM-as-a-judge.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Lihat bagaimana tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.
Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM® Consulting.