Agen AI mengacu pada sistem perangkat lunak dapat melaksanakan tugas atas nama pengguna atau sistem lain secara mandiri, dengan mengembangkan alur kerja sendiri dan menggunakan alat eksternal sesuai kebutuhan.
Agen melampaui pemrosesan dan pemahaman bahasa sederhana. Mereka mampu melakukan pengambilan keputusan, memecahkan masalah, berinteraksi dengan lingkungan, dan bertindak dalam mengejar tujuan.
Agen AI sekarang sedang dimasukkan ke dalam berbagai solusi perusahaan, mulai dari otomatisasi TI dan rekayasa perangkat lunak, hingga antarmuka percakapan dan implementasi pembuatan kode. Didorong oleh model bahasa besar (LLM), mereka dapat memahami arah yang kompleks, menguraikannya menjadi beberapa langkah, berinteraksi dengan sumber daya dari sumber luar, dan memiliki kemampuan kognitif untuk mengetahui kapan harus menerapkan alat atau layanan tertentu untuk membantu mencapai tugas.
Evaluasi agen adalah prosedur penting saat membuat dan menerapkan sistem AI otonom karena tindakan ini mengukur seberapa baik agen melakukan tugas yang diberikan, membuat keputusan, dan berinteraksi dengan pengguna atau lingkungan. Dengan cara ini kami dapat memastikan bahwa agen beroperasi dengan andal, efisien, dan etis dalam contoh penggunaan yang dimaksudkan.
Alasan utama untuk evaluasi agen meliputi:
Menilai kinerja agen AI menggunakan metrik yang diatur dalam beberapa kelas kinerja formal: akurasi, waktu respons (kecepatan), dan biaya sumber daya yang digunakan. Akurasi menggambarkan seberapa baik agen memberikan respons yang benar dan relevan, serta kemampuan agen untuk menyelesaikan fungsi yang dimaksudkan. Waktu respons mengukur kecepatan yang dibutuhkan agen untuk memproses input dan menghasilkan output. Meminimalkan latensi sangat penting dalam program interaktif dan real-time dan biaya mengukur sumber daya komputasi yang dikonsumsi agen, seperti penggunaan token, panggilan ke antarmuka pemrograman aplikasi (API), atau waktu sistem. Metrik ini memberikan pedoman untuk meningkatkan kinerja sistem dan membatasi biaya operasional.
Sementara metrik kunci seperti ketepatan, kebergunaan, dan koherensi termasuk dalam kategori akurasi, waktu respons (latensi) mengukur metrik termasuk throughput, rata-rata latensi, dan penundaan batas waktu. Metrik biaya mencakup penggunaan token, waktu komputasi, jumlah panggilan API, dan konsumsi memori.
Dalam tutorial ini, kita akan menjelajahi metrik kunci ketepatan, kebergunaan, dan koherensi yang termasuk dalam kategori akurasi.
Anda akan mengembangkan agen perjalanan dan mengevaluasi kinerjanya dengan menggunakan "LLM-as-a-judge."
Anda memerlukan akun IBM Cloud untuk membuat proyek watsonx.ai .
Anda juga memerlukan Python versi 3.12.7
Meskipun Anda dapat memilih dari beberapa alat, tutorial ini akan memandu Anda langkah demi langkah dalam membuat akun IBM untuk menggunakan Jupyter Notebook.
Masuk ke watsonx.ai menggunakan akun IBM Cloud Anda.
Buat proyek watsonx.ai. Anda bisa mendapatkan ID proyek dari dalam proyek Anda. Klik tab Kelola . Kemudian salin ID proyek dari bagian Detail di halaman Umum . Anda memerlukan ID ini untuk tutorial ini.
Buat Jupyter Notebook. Langkah ini akan membuka lingkungan Jupyter Notebook tempat Anda dapat menyalin kode dari tutorial ini. Atau, Anda dapat mengunduh aplikasi notebook ini ke sistem lokal Anda dan mengunggahnya ke proyek watsonx.ai sebagai aset. Untuk melihat lebih banyak tutorial IBM Granite, lihat Komunitas IBM Granite.
Buat instans layanan waktu proses watsonx.ai (pilih wilayah yang sesuai dan pilih paket Lite, yang merupakan instans gratis).
Buat kunci antarmuka pemrograman aplikasi (API).
Kaitkan instans layanan waktu proses watsonx.ai ke proyek yang Anda buat di watsonx.ai.
Kita membutuhkan beberapa pustaka dan modul untuk tutorial ini. Pastikan untuk mengimpor yang berikut ini dan jika tidak diinstal, instalasi pip cepat akan menyelesaikan masalah.
Catatan, tutorial ini dibuat dengan menggunakan Python 3.12.7.
Untuk mengatur kredensial, kita memerlukan WATSONX_APIKEY dan WATSONX_PROJECT_ID yang Anda buat dalam langkah 1. Kita juga akan mengatur URL yang berfungsi sebagai titik akhir API. Titik akhir API Anda dapat berbeda tergantung pada lokasi geografis Anda.
Kami akan menggunakan model Instruct Granite 3 -8B untuk tutorial ini. Untuk mengawali LLM, kita perlu mengatur parameter model. Untuk mengetahui lebih lanjut tentang parameter model ini, seperti batas token minimum dan maksimum, lihat dokumentasi.
Mari kita membangun teman penjelajah perjalanan yang membantu pengguna dengan perencanaan perjalanan dan riset perjalanan.
Kita akan membuat aplikasi asisten perjalanan sederhana yang dapat mengambil informasi maskapai penerbangan dan hotel untuk menanggapi pertanyaan pengguna dengan terhubung ke API perjalanan eksternal. Agar terintegrasi dengan agen AI untuk perencanaan perjalanan dinamis, kita akan memiliki fungsi langsung yang membuat kueri API dan membungkusnya dalam alat.
Terakhir, kita menjalankan evaluasi dan mencetak skor evaluasi akhir. Untuk mengevaluasi perencana perjalanan menggunakan tiga kriteria yang berbeda (ketepatan, kebergunaan, dan koherensi), sebuah prompt evaluasi terstruktur dikembangkan untuk LLM evaluator.
Output menunjukkan penilaian kualitatif dan kuantitatif dari perencana perjalanan yang dihasilkan dengan menggunakan tiga kriteria—ketepatan, kebergunaan, dan koherensi.
Mari kita uraikan apa arti setiap skor dan metrik dalam konteks output agen:
Ketika mengevaluasi kemampuan seorang agen dalam memenuhi kebutuhan pengguna secara nyata, kriteria seperti koherensi, kebergunaan, dan akurasi memainkan peran utama. Terlepas dari apakah Anda bekerja dengan OpenAI, IBM Granite, atau model LLM-as-a-Service lainnya, penting untuk mengandalkan metode evaluasi terstruktur—seperti kumpulan data evaluasi, tolok ukur, anotasi, dan kebenaran dasar—untuk menguji output akhir secara menyeluruh. Dalam contoh penggunaan praktis seperti chatbot atau dukungan pelanggan berbasis RAG, kerangka kerja sumber terbuka seperti LangGraph sangat berharga. Mereka mendukung otomatisasi yang dapat diskalakan, perutean yang dapat diandalkan, dan memungkinkan siklus iterasi yang cepat. Teknologi ini juga lebih memudahkan dalam mengoperasikan sistem AI generatif, memperbaiki kesalahan perilaku, serta mengoptimalkan dan mengonfigurasi alur kerja yang kompleks. Dengan mendefinisikan kasus uji secara saksama dan mengawasi metrik observabilitas seperti biaya komputasi, harga, dan latensi, tim dapat secara konsisten meningkatkan kinerja sistem. Pada akhirnya, menerapkan pendekatan evaluasi yang andal dan dapat diulang mengetatkan sistem machine learning dan memperkuat kredibilitas mereka seiring waktu.
Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.
Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.
Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.