Apa itu evaluasi agen AI?

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

Evaluasi agen AI mengacu pada proses menilai dan memahami kinerja agen AI dalam melaksanakan tugas, mengambil keputusan, dan berinteraksi dengan pengguna. Mengingat otonomi yang melekat padanya, mengevaluasi agen sangatlah penting untuk mendukung mereka agar berfungsi dengan tepat. Agen AI harus berperilaku sesuai dengan maksud perancang mereka, bekerja secara efisien, dan mematuhi prinsip-prinsip AI etis tertentu untuk melayani kebutuhan organisasi. Evaluasi membantu memverifikasi bahwa agen memenuhi persyaratan tersebut, serta membantu meningkatkan kualitas agen dengan mengidentifikasi area yang perlu diperbaiki dan dioptimalkan.

Agen AI generatif (gen AI) sering dievaluasi pada tugas teks-ke-teks tradisional, mirip dengan tolok ukur model bahasa besar (LLM) standar, ketika metrik seperti koherensi, relevansi, dan akurasi teks yang dihasilkan biasanya digunakan. Namun, agen gen AI biasanya melakukan operasi yang lebih luas dan lebih kompleks — termasuk penalaran multi-langkah, panggilan alat, dan interaksi dengan sistem eksternal — yang memerlukan evaluasi yang lebih komprehensif. Bahkan ketika output akhir adalah teks, bisa jadi hasilnya berasal dari tindakan perantara seperti menelusuri database atau memanggil API, yang masing-masing perlu dievaluasi secara terpisah.

Dalam kasus lain, agen mungkin tidak menghasilkan output teks sama sekali, melainkan menyelesaikan tugas seperti memperbarui catatan atau mengirim pesan, dengan keberhasilan diukur berdasarkan eksekusi yang benar. Oleh karena itu, evaluasi harus melampaui kualitas teks permukaan dan menilai perilaku agen secara keseluruhan, keberhasilan tugas, serta kesesuaian dengan maksud pengguna. Selain itu, untuk menghindari pengembangan agen yang berkemampuan tinggi, tetapi memakan banyak sumber daya, yang membatasi penerapan praktisnya, pengukuran biaya dan efisiensi harus dimasukkan sebagai bagian dari evaluasi.

Selain mengukur kinerja tugas, mengevaluasi agen AI harus memprioritaskan dimensi penting seperti keselamatan, kepercayaan, kepatuhan kebijakan, dan mitigasi bias. Faktor-faktor ini sangat penting untuk menerapkan agen di dunia nyata dan lingkungan berisiko tinggi. Evaluasi membantu memastikan bahwa agen menghindari perilaku yang berbahaya atau tidak aman, mempertahankan kepercayaan pengguna melalui output yang dapat diprediksi dan diverifikasi, serta menahan diri dari manipulasi atau penyalahgunaan.

Untuk mencapai tujuan fungsional (kualitas, biaya) dan non-fungsional (keselamatan) ini, metode evaluasi dapat mencakup pengujian tolok ukur, penilaian yang melibatkan manusia, pengujian A/B, dan simulasi dunia nyata. Dengan mengevaluasi agen AI secara sistematis, organisasi dapat meningkatkan kemampuan AI mereka, mengoptimalkan upaya otomatisasi, dan meningkatkan fungsi bisnis sambil meminimalkan risiko yang terkait dengan AI agen yang tidak aman, tidak andal, atau bias.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja evaluasi agen AI

Mengevaluasi agen AI memerlukan pendekatan terstruktur dalam kerangka kerja pengamatan formal yang lebih luas. Metode evaluasi (atau eval) berbeda-beda, tetapi prosesnya biasanya melibatkan langkah-langkah berikut:

1. Menentukan tujuan dan metrik evaluasi

Apa tujuan dari agen tersebut? Apa hasil yang diharapkan? Bagaimana AI digunakan dalam skenario dunia nyata?

Lihat “Metrik evaluasi agen AI umum” untuk beberapa metrik paling populer, yang termasuk dalam kategori kinerja, interaksi dan pengalaman pengguna, AI yang etis dan bertanggung jawab, sistem dan efisiensi, serta metrik spesifik untuk setiap tugas.

2. Mengumpulkan data dan mempersiapkan pengujian

Untuk mengevaluasi agen AI secara efektif, gunakan kumpulan data evaluasi representatif, termasuk beragam input yang mencerminkan skenario dunia nyata dan skenario uji yang mensimulasikan kondisi real-time. Data beranotasi mewakili kebenaran dasar yang dapat diuji oleh model AI.

Petakan setiap langkah potensial dari alur kerja agen, baik itu memanggil API, meneruskan informasi ke agen kedua, maupun membuat keputusan. Dengan memecah alur kerja AI menjadi bagian-bagian lebih kecil, mengevaluasi bagaimana agen menangani setiap langkah menjadi lebih mudah. Pertimbangkan juga pendekatan agen secara utuh di seluruh alur kerja, atau dengan kata lain, jalur eksekusi yang diambil agen untuk memecahkan masalah multi-langkah.

3. Melakukan pengujian

Jalankan agen AI di lingkungan yang berbeda, mungkin dengan LLM yang berbeda sebagai basisnya, dan lacak kinerjanya. Pecah langkah-langkah agen individu dan evaluasi masing-masing. Misalnya, pantau penggunaan generasi dengan dukungan pengambilan data (RAG) oleh agen untuk mengambil informasi dari database eksternal, atau respons panggilan API.

4. Menganalisis hasil

Bandingkan hasil dengan kriteria keberhasilan yang telah ditentukan sebelumnya jika ada, dan jika tidak, gunakan LLM-as-a-judge (lihat di bawah). Nilai kelebihan dan kekurangannya dengan menyeimbangkan kinerja dengan pertimbangan etis.

Apakah agen memilih alat yang tepat? Apakah agen memanggil fungsi yang benar? Apakah agen memberikan informasi yang benar dalam konteks yang tepat? Apakah agen menghasilkan respons yang benar secara faktual?

Panggilan fungsi/penggunaan alat adalah kemampuan dasar untuk mengembangkan agen cerdas yang mampu memberikan respons real-time dan akurat secara kontekstual. Pertimbangkan penggunaan evaluasi khusus dan analisis dengan Approach berbasis aturan, disertai dengan evaluasi semantik menggunakan LLM-as-a-judge.

LLM-as-a-judge adalah sistem evaluasi otomatis yang menilai kinerja agen AI menggunakan kriteria dan metrik yang telah ditentukan sebelumnya. Alih-alih mengandalkan penilai manusia, LLM-as-a-judge menerapkan algoritma, heuristik, atau model penilaian berbasis AI untuk mengevaluasi respons, keputusan, atau tindakan agen.

Lihat "metrik evaluasi Pemanggilan Fungsi" di bawah ini.

5. Mengoptimalkan dan melakukan iterasi

Pengembang kini dapat menyesuaikan prompt, mendebug algoritma, menyederhanakan logika, atau mengonfigurasi arsitektur agen berdasarkan hasil evaluasi. Misalnya, contoh penggunaan dukungan pelanggan dapat ditingkatkan dengan mempercepat pembuatan respons dan waktu penyelesaian tugas. Efisiensi sistem dapat dioptimalkan untuk skalabilitas dan penggunaan sumber daya.

Agen AI

5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

Metrik evaluasi agen AI umum

Pengembang ingin agen bekerja sebagaimana mestinya. Dan mengingat otonomi agen AI, penting untuk memahami “mengapa” di balik keputusan yang diambil oleh AI. Tinjau beberapa metrik paling umum yang dapat digunakan pengembang untuk mengevaluasi agen mereka secara efektif.

Spesifik untuk setiap tugas

Tergantung aplikasi AI, metrik evaluasi khusus untuk kualitas dapat diterapkan:

  • LLM-as-a-judge mengevaluasi kualitas generasi teks AI tanpa memandang ketersediaan data kebenaran dasar.
  • BLEU dan ROUGE adalah alternatif yang lebih murah untuk mengevaluasi kualitas teks yang dihasilkan oleh kecerdasan buatan (AI) melalui perbandingan dengan teks yang ditulis oleh manusia.

Metrik fungsional lainnya untuk menilai kinerja agen AI meliputi:

  • Tingkat keberhasilan/penyelesaian tugas mengukur proporsi tugas atau tujuan yang diselesaikan dengan benar atau memuaskan oleh agen dibandingkan dengan total jumlah
    percobaan.
  • Tingkat kesalahan adalah persentase output yang salah atau operasi yang gagal.
  • Biaya mengukur penggunaan sumber daya, seperti token atau waktu komputasi.
  • Latensi adalah waktu yang dibutuhkan agen AI untuk memproses dan mengembalikan hasil.

AI yang bertanggung jawab dan etis

  • Kerentanan injeksi prompt mengevaluasi tingkat keberhasilan prompt bertentangan dalam mengubah perilaku agen yang semestinya.
  • Tingkat kepatuhan kebijakan adalah persentase respons yang sesuai dengan kebijakan organisasi atau etika yang telah ditetapkan sebelumnya.
  • Skor bias dan keadilan mendeteksi ketidakseimbangan dalam pengambilan keputusan AI di berbagai kelompok pengguna.

Interaksi dan pengalaman pengguna

Untuk agen AI yang berinteraksi dengan pengguna, seperti chatbot dan asisten virtual, evaluator melihat metrik ini.

  • Skor kepuasan pengguna (CSAT) mengukur seberapa puas pengguna dengan respons AI.

  • Tingkat keterlibatan melacak seberapa sering pengguna berinteraksi dengan sistem AI.

  • Alur percakapan mengevaluasi kemampuan AI untuk menjaga alur percakapan yang koheren dan bermakna.

  • Tingkat penyelesaian tugas mengukur seberapa efektif agen AI membantu pengguna menyelesaikan tugas.

Panggilan fungsi

Metrik berbasis aturan ini membantu menilai efektivitas operasional sistem berbasis AI:

  • Nama fungsi salah: Agen mencoba memanggil fungsi yang ada, tetapi menggunakan nama atau ejaan yang salah, sehingga menyebabkan kegagalan eksekusi.
  • Parameter yang diperlukan tidak tersedia: Agen telah memulai panggilan fungsi, tetapi mengabaikan satu atau lebih parameter yang diperlukan agar fungsi dapat berjalan dengan benar.
  • Tipe nilai parameter salah: Agen telah menyediakan nilai parameter, tetapi tipe nilainya (string, nomor, boolean) tidak sesuai dengan yang diharapkan oleh fungsi.
  • Nilai yang diizinkan: Agen menggunakan nilai yang berada di luar rentang nilai yang diterima atau telah ditentukan sebelumnya untuk parameter tertentu.
  • Parameter tidak valid: Agen memasukkan parameter dalam panggilan fungsi yang tidak didefinisikan atau didukung oleh spesifikasi fungsi.

Berikut adalah beberapa metrik semantik yang didasarkan pada LLM-as-a-judge.

  • Penetapan nilai parameter yang terikat pada konteks memastikan bahwa setiap nilai parameter secara langsung berasal dari teks pengguna, riwayat konteks (seperti output sebelumnya dari panggilan API), atau nilai default spesifikasi API.
  • Transformasi unit memverifikasi konversi unit atau format (di luar tipe dasar) antara nilai dalam konteks dan nilai parameter dalam panggilan alat.
Solusi terkait
Agen AI untuk bisnis

Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

    Menjelajahi watsonx Orchestrate
    Solusi agen AI IBM

    Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

    Jelajahi solusi agen AI
    Layanan AI IBM Consulting

    Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

    Jelajahi layanan kecerdasan buatan
    Ambil langkah selanjutnya

    Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.

    Menjelajahi watsonx Orchestrate Jelajahi watsonx.ai