Apa itu evaluasi agen AI?

Penyusun

Staff Editor, AI Models

IBM Think

Distinguished Engineer, AI Benchmarking and Evaluation

Evaluasi agen AI mengacu pada proses menilai dan memahami kinerja agen AI dalam melaksanakan tugas, mengambil keputusan, dan berinteraksi dengan pengguna. Mengingat otonomi yang melekat padanya, mengevaluasi agen sangatlah penting untuk mendukung mereka agar berfungsi dengan tepat. Agen AI harus berperilaku sesuai dengan maksud perancang mereka, bekerja secara efisien, dan mematuhi prinsip-prinsip AI etis tertentu untuk melayani kebutuhan organisasi. Evaluasi membantu memverifikasi bahwa agen memenuhi persyaratan tersebut, serta membantu meningkatkan kualitas agen dengan mengidentifikasi area yang perlu diperbaiki dan dioptimalkan.

Agen AI generatif (gen AI) sering dievaluasi pada tugas teks-ke-teks tradisional, mirip dengan tolok ukur model bahasa besar (LLM) standar, ketika metrik seperti koherensi, relevansi, dan akurasi teks yang dihasilkan biasanya digunakan. Namun, agen gen AI biasanya melakukan operasi yang lebih luas dan lebih kompleks — termasuk penalaran multi-langkah, panggilan alat, dan interaksi dengan sistem eksternal — yang memerlukan evaluasi yang lebih komprehensif. Bahkan ketika output akhir adalah teks, bisa jadi hasilnya berasal dari tindakan perantara seperti menelusuri database atau memanggil API, yang masing-masing perlu dievaluasi secara terpisah.

Dalam kasus lain, agen mungkin tidak menghasilkan output teks sama sekali, melainkan menyelesaikan tugas seperti memperbarui catatan atau mengirim pesan, dengan keberhasilan diukur berdasarkan eksekusi yang benar. Oleh karena itu, evaluasi harus melampaui kualitas teks permukaan dan menilai perilaku agen secara keseluruhan, keberhasilan tugas, serta kesesuaian dengan maksud pengguna. Selain itu, untuk menghindari pengembangan agen yang berkemampuan tinggi, tetapi memakan banyak sumber daya, yang membatasi penerapan praktisnya, pengukuran biaya dan efisiensi harus dimasukkan sebagai bagian dari evaluasi.

Selain mengukur kinerja tugas, mengevaluasi agen AI harus memprioritaskan dimensi penting seperti keselamatan, kepercayaan, kepatuhan kebijakan, dan mitigasi bias. Faktor-faktor ini sangat penting untuk menerapkan agen di dunia nyata dan lingkungan berisiko tinggi. Evaluasi membantu memastikan bahwa agen menghindari perilaku yang berbahaya atau tidak aman, mempertahankan kepercayaan pengguna melalui output yang dapat diprediksi dan diverifikasi, serta menahan diri dari manipulasi atau penyalahgunaan.

Untuk mencapai tujuan fungsional (kualitas, biaya) dan non-fungsional (keselamatan) ini, metode evaluasi dapat mencakup pengujian tolok ukur, penilaian yang melibatkan manusia, pengujian A/B, dan simulasi dunia nyata. Dengan mengevaluasi agen AI secara sistematis, organisasi dapat meningkatkan kemampuan AI mereka, mengoptimalkan upaya otomatisasi, dan meningkatkan fungsi bisnis sambil meminimalkan risiko yang terkait dengan AI agen yang tidak aman, tidak andal, atau bias.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja evaluasi agen AI

Mengevaluasi agen AI memerlukan pendekatan terstruktur dalam kerangka kerja pengamatan formal yang lebih luas. Metode evaluasi (atau eval) berbeda-beda, tetapi prosesnya biasanya melibatkan langkah-langkah berikut:

1. Menentukan tujuan dan metrik evaluasi

Apa tujuan dari agen tersebut? Apa hasil yang diharapkan? Bagaimana AI digunakan dalam skenario dunia nyata?

Lihat “Metrik evaluasi agen AI umum” untuk beberapa metrik paling populer, yang termasuk dalam kategori kinerja, interaksi dan pengalaman pengguna, AI yang etis dan bertanggung jawab, sistem dan efisiensi, serta metrik spesifik untuk setiap tugas.

2. Mengumpulkan data dan mempersiapkan pengujian

Untuk mengevaluasi agen AI secara efektif, gunakan kumpulan data evaluasi representatif, termasuk beragam input yang mencerminkan skenario dunia nyata dan skenario uji yang mensimulasikan kondisi real-time. Data beranotasi mewakili kebenaran dasar yang dapat diuji oleh model AI.

Petakan setiap langkah potensial dari alur kerja agen, baik itu memanggil API, meneruskan informasi ke agen kedua, maupun membuat keputusan. Dengan memecah alur kerja AI menjadi bagian-bagian lebih kecil, mengevaluasi bagaimana agen menangani setiap langkah menjadi lebih mudah. Pertimbangkan juga pendekatan agen secara utuh di seluruh alur kerja, atau dengan kata lain, jalur eksekusi yang diambil agen untuk memecahkan masalah multi-langkah.

3. Melakukan pengujian

Jalankan agen AI di lingkungan yang berbeda, mungkin dengan LLM yang berbeda sebagai basisnya, dan lacak kinerjanya. Pecah langkah-langkah agen individu dan evaluasi masing-masing. Misalnya, pantau penggunaan generasi dengan dukungan pengambilan data (RAG) oleh agen untuk mengambil informasi dari database eksternal, atau respons panggilan API.

4. Menganalisis hasil

Bandingkan hasil dengan kriteria keberhasilan yang telah ditentukan sebelumnya jika ada, dan jika tidak, gunakan LLM-as-a-judge (lihat di bawah). Nilai kelebihan dan kekurangannya dengan menyeimbangkan kinerja dengan pertimbangan etis.

Apakah agen memilih alat yang tepat? Apakah agen memanggil fungsi yang benar? Apakah agen memberikan informasi yang benar dalam konteks yang tepat? Apakah agen menghasilkan respons yang benar secara faktual?

Panggilan fungsi/penggunaan alat adalah kemampuan dasar untuk mengembangkan agen cerdas yang mampu memberikan respons real-time dan akurat secara kontekstual. Pertimbangkan penggunaan evaluasi khusus dan analisis dengan Approach berbasis aturan, disertai dengan evaluasi semantik menggunakan LLM-as-a-judge.

LLM-as-a-judge adalah sistem evaluasi otomatis yang menilai kinerja agen AI menggunakan kriteria dan metrik yang telah ditentukan sebelumnya. Alih-alih mengandalkan penilai manusia, LLM-as-a-judge menerapkan algoritma, heuristik, atau model penilaian berbasis AI untuk mengevaluasi respons, keputusan, atau tindakan agen.

Lihat "metrik evaluasi Pemanggilan Fungsi" di bawah ini.

5. Mengoptimalkan dan melakukan iterasi

Pengembang kini dapat menyesuaikan prompt, mendebug algoritma, menyederhanakan logika, atau mengonfigurasi arsitektur agen berdasarkan hasil evaluasi. Misalnya, contoh penggunaan dukungan pelanggan dapat ditingkatkan dengan mempercepat pembuatan respons dan waktu penyelesaian tugas. Efisiensi sistem dapat dioptimalkan untuk skalabilitas dan penggunaan sumber daya.

Agen AI

5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

Membangun, menerapkan, dan memantau agen AI

Metrik evaluasi agen AI umum

Pengembang ingin agen bekerja sebagaimana mestinya. Dan mengingat otonomi agen AI, penting untuk memahami “mengapa” di balik keputusan yang diambil oleh AI. Tinjau beberapa metrik paling umum yang dapat digunakan pengembang untuk mengevaluasi agen mereka secara efektif.

Spesifik untuk setiap tugas

Tergantung aplikasi AI, metrik evaluasi khusus untuk kualitas dapat diterapkan:

LLM-as-a-judge mengevaluasi kualitas generasi teks AI tanpa memandang ketersediaan data kebenaran dasar.
BLEU dan ROUGE adalah alternatif yang lebih murah untuk mengevaluasi kualitas teks yang dihasilkan oleh kecerdasan buatan (AI) melalui perbandingan dengan teks yang ditulis oleh manusia.

Metrik fungsional lainnya untuk menilai kinerja agen AI meliputi:

Tingkat keberhasilan/penyelesaian tugas mengukur proporsi tugas atau tujuan yang diselesaikan dengan benar atau memuaskan oleh agen dibandingkan dengan total jumlah
percobaan.
Tingkat kesalahan adalah persentase output yang salah atau operasi yang gagal.
Biaya mengukur penggunaan sumber daya, seperti token atau waktu komputasi.
Latensi adalah waktu yang dibutuhkan agen AI untuk memproses dan mengembalikan hasil.

AI yang bertanggung jawab dan etis

Kerentanan injeksi prompt mengevaluasi tingkat keberhasilan prompt bertentangan dalam mengubah perilaku agen yang semestinya.
Tingkat kepatuhan kebijakan adalah persentase respons yang sesuai dengan kebijakan organisasi atau etika yang telah ditetapkan sebelumnya.
Skor bias dan keadilan mendeteksi ketidakseimbangan dalam pengambilan keputusan AI di berbagai kelompok pengguna.

Interaksi dan pengalaman pengguna

Untuk agen AI yang berinteraksi dengan pengguna, seperti chatbot dan asisten virtual, evaluator melihat metrik ini.

Skor kepuasan pengguna (CSAT) mengukur seberapa puas pengguna dengan respons AI.
Tingkat keterlibatan melacak seberapa sering pengguna berinteraksi dengan sistem AI.
Alur percakapan mengevaluasi kemampuan AI untuk menjaga alur percakapan yang koheren dan bermakna.
Tingkat penyelesaian tugas mengukur seberapa efektif agen AI membantu pengguna menyelesaikan tugas.

Panggilan fungsi

Metrik berbasis aturan ini membantu menilai efektivitas operasional sistem berbasis AI:

Nama fungsi salah: Agen mencoba memanggil fungsi yang ada, tetapi menggunakan nama atau ejaan yang salah, sehingga menyebabkan kegagalan eksekusi.
Parameter yang diperlukan tidak tersedia: Agen telah memulai panggilan fungsi, tetapi mengabaikan satu atau lebih parameter yang diperlukan agar fungsi dapat berjalan dengan benar.
Tipe nilai parameter salah: Agen telah menyediakan nilai parameter, tetapi tipe nilainya (string, nomor, boolean) tidak sesuai dengan yang diharapkan oleh fungsi.
Nilai yang diizinkan: Agen menggunakan nilai yang berada di luar rentang nilai yang diterima atau telah ditentukan sebelumnya untuk parameter tertentu.
Parameter tidak valid: Agen memasukkan parameter dalam panggilan fungsi yang tidak didefinisikan atau didukung oleh spesifikasi fungsi.

Berikut adalah beberapa metrik semantik yang didasarkan pada LLM-as-a-judge.

Penetapan nilai parameter yang terikat pada konteks memastikan bahwa setiap nilai parameter secara langsung berasal dari teks pengguna, riwayat konteks (seperti output sebelumnya dari panggilan API), atau nilai default spesifikasi API.
Transformasi unit memverifikasi konversi unit atau format (di luar tipe dasar) antara nilai dalam konteks dan nilai parameter dalam panggilan alat.

Mulai mewujudkan ROI: Panduan praktis untuk AI agen

Temukan cara untuk maju, berhasil menskalakan AI di seluruh bisnis Anda dengan hasil nyata.

Sumber daya

Tingkatkan produktivitas dengan agen AI yang dibuat untuk bisnis Anda

Jelajahi potensi agen AI yang mengubah permainan yang dapat dengan mudah diintegrasikan ke dalam operasi bisnis Anda.

Panduan pembeli Agen AI 2025

Selami panduan komprehensif ini menguraikan contoh penggunaan utama, kemampuan inti, dan rekomendasi langkah demi langkah untuk membantu Anda memilih solusi yang tepat untuk bisnis Anda.

Bayangkan kembali produktivitas bisnis dengan agen AI dan asisten AI

Pelajari cara agen AI dan asisten AI dapat bekerja sama untuk mencapai tingkat produktivitas baru.

Laporan Omdia tentang kecerdasan yang diberdayakan: Dampak agen AI

Temukan cara Anda dapat membuka potensi penuh gen AI dengan agen AI.

Mengantarkan perusahaan agentik: Memanfaatkan AI di seluruh kawasan teknologi Anda

Tetap dapatkan informasi terkini tentang agen AI baru yang sedang berkembang, titik balik mendasar dalam revolusi AI.

Coba watsonx Orchestrate

Jelajahi cara asisten AI generatif dapat meringankan beban kerja Anda dan meningkatkan produktivitas.

Cara agen AI menemukan kembali produktivitas

Pelajari cara-cara menggunakan AI agar lebih kreatif, efisien, dan mulai beradaptasi dengan masa depan yang melibatkan kerja sama dengan agen AI.

Masa depan agen, konsumsi energi AI, penggunaan komputer Anthropic, dan penandaan teks yang dihasilkan AI oleh Google

Tetap menjadi yang terdepan dengan para pakar AI kami di episode Mixture of Experts ini saat mereka membahas secara mendalam masa depan AI dan agen AI dan banyak lagi.

Bagaimana Comparus menggunakan "asisten perbankan"

Comparus menggunakan solusi dari IBM® watsonx.ai™ dan secara mengesankan menunjukkan potensi perbankan percakapan sebagai model interaksi baru.

Solusi terkait

Agen AI untuk bisnis

Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

Menjelajahi watsonx Orchestrate

Solusi agen AI IBM

Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

Jelajahi solusi agen AI

Layanan AI IBM Consulting

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan kecerdasan buatan

Ambil langkah selanjutnya

Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.