Seiring dengan antusiasme seputar kecerdasan buatan (AI) yang terus melanda dunia bisnis, perhatian beralih ke iterasi terbaru dari teknologi ini: Agen AI.
Tidak seperti model AI tradisional, agen AI dapat membuat keputusan tanpa pengawasan manusia yang konstan. Mereka bekerja secara mandiri untuk mencapai tujuan yang kompleks seperti menjawab pertanyaan pelanggan, mengoptimalkan rantai pasokan, atau menganalisis data layanan kesehatan untuk memberikan diagnosis.
Dalam praktiknya, ini berarti bahwa agen AI dapat menangani seluruh alur kerja dari awal hingga selesai—seperti secara otomatis memproses klaim asuransi atau mengelola tingkat inventaris—ketimbang hanya memberikan rekomendasi.
Perkiraan terbaru menunjukkan organisasi dengan cepat mengadopsi agen AI. Survei KPMG menemukan bahwa 88% organisasi sedang menjelajahi atau secara aktif mengujicobakan inisiatif agen AI1 Gartner memprediksi bahwa pada tahun 2028, lebih dari sepertiga aplikasi perangkat lunak perusahaan akan menyertakan AI agen—teknologi yang mendasari agen AI.2
Namun, kemampuan yang membuat agen AI sangat berharga juga dapat membuat mereka sulit untuk dipantau, dipahami, dan dikendalikan.
Agen AI menggunakan model bahasa besar (LLM ) untuk menalar, membuat alur kerja, dan memecah tugas menjadi subtugas. Mereka mengakses alat eksternal—seperti database, mesin pencari, dan kalkulator—dan menggunakan memori untuk mengingat percakapan sebelumnya dan hasil tugas.
Kendati proses ini memungkinkan mereka untuk bekerja secara independen, ini juga membuat mereka jauh lebih tidak transparan daripada aplikasi tradisional yang dibangun di atas aturan dan logika yang eksplisit dan sudah ditentukan sebelumnya.
Kompleksitas yang melekat dan kurangnya transparansi ini dapat menyulitkan pelacakan cara agen AI menghasilkan output tertentu. Bagi organisasi, ini dapat menimbulkan risiko serius, termasuk:
Untuk mengurangi risiko ini, organisasi semakin beralih ke pengamatan agen AI untuk mendapatkan insight tentang perilaku dan kinerja agen AI.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Observabilitas agen AI adalah proses pemantauan dan pemahaman perilaku menyeluruh dari ekosistem agen, termasuk interaksi apa pun yang mungkin dimiliki agen AI dengan model bahasa besar dan alat eksternal.
Ini berasal dari praktik observabilitas yang lebih besar, yaitu kemampuan untuk memahami keadaan internal sistem dengan menganalisis data telemetri—yaitu, output eksternalnya, seperti metrik, peristiwa, log dan jejak, umumnya dikenal sebagai “data MELT”.
Dengan pengamatan agen AI, organisasi dapat mengevaluasi kinerja agen dengan mengumpulkan data tentang tindakan, keputusan, dan penggunaan sumber daya. Ini membantu menjawab pertanyaan penting, seperti:
Dengan insight ini, organisasi dapat memecahkan masalah dan melakukan debug masalah dengan lebih efektif dan meningkatkan kinerja dan keandalan agen AI.
Sistem multi-agen menggunakan beberapa agen AI yang bekerja sama untuk menyelesaikan tugas-tugas kompleks, seperti mengotomatiskan saluran penjualan perusahaan atau menjawab pertanyaan dan menghasilkan tiket untuk sistem dukungan TI.
Tidak seperti sistem agen tunggal di mana kegagalan sering kali dapat ditelusuri ke komponen tertentu, sistem multi-agen jauh lebih kompleks. Dengan begitu banyak interaksi antara agen AI otonom, ada potensi lebih besar untuk perilaku yang tidak dapat diprediksi.
Pengamatan agen AI memberikan insight penting ke dalam sistem multi-agen ini. Ini membantu pengembang mengidentifikasi agen atau interaksi tertentu yang bertanggung jawab atas suatu masalah dan memberikan visibilitas ke dalam alur kerja kompleks yang dibuat oleh agen. Ini juga membantu mengidentifikasi perilaku dan pola kolektif yang dapat meningkat dan menyebabkan masalah di masa depan.
Sebagai contoh, dalam sistem pemesanan perjalanan multi-agen dengan agen terpisah untuk penerbangan, hotel, dan penyewaan mobil, pemesanan dapat gagal kapan saja. Alat observabilitas dapat melacak seluruh proses menyeluruh untuk mengidentifikasi dengan tepat letak dan alasan kegagalan terjadi.
Banyak organisasi menggunakan solusi sumber terbuka seperti IBM BeeAI, LangChain, LangGraph, dan AutoGen untuk membangun sistem multi-agen dengan lebih cepat dan aman. Solusi ini menyediakan perangkat pengembangan perangkat lunak (SDK) dengan alat untuk membuat agen AI dan kerangka kerja AI agen—mesin yang menjalankan dan mengoordinasikan agen.
Observabilitas agen AI bekerja dengan mengumpulkan dan menganalisis data telemetri yang menangkap metrik sistem tradisional dan perilaku khusus AI. Tim selanjutnya dapat menggunakan data ini untuk memahami keputusan agen, memecahkan masalah dan mengoptimalkan kinerja.
Observabilitas agen AI menggunakan data telemetri yang sama dengan solusi observabilitas tradisional, tetapi juga mencakup titik data tambahan yang unik untuk sistem AI generatif—seperti penggunaan token, interaksi alat, dan jalur keputusan agen. Sinyal khusus AI ini masih sesuai dengan MELT (metrik, peristiwa, log, jejak).
Selain metrik kinerja tradisional yang dikumpulkan oleh alat observabilitas standar—seperti penggunaan CPU, memori, dan sumber daya jaringan—observabilitas agen AI mengukur:
Token adalah unit proses model AI teks—biasanya kata atau bagian kata. Karena penyedia AI mengenakan biaya berdasarkan penggunaan token, pelacakan metrik ini secara langsung berdampak pada biaya. Organisasi dapat mengoptimalkan pengeluaran dengan memantau konsumsi token. Misalnya, jika pertanyaan pelanggan tertentu menggunakan token 10 kali lebih banyak daripada yang lain, tim dapat mendesain ulang cara agen menangani permintaan tersebut untuk mengurangi biaya.
Seiring berkembangnya data dunia nyata, model AI bisa menjadi kurang akurat dari waktu ke waktu. Pemantauan metrik kunci pergeseran model—seperti perubahan pola respons atau variasi kualitas output—dapat membantu organisasi mendeteksinya secara dini. Sebagai contoh, agen deteksi penipuan mungkin menjadi kurang efektif karena penjahat mengembangkan taktik baru. Observabilitas menandai penurunan ini sehingga tim dapat melatih ulang model dengan kumpulan data yang diperbarui.
Metrik ini mengukur kualitas output agen AI dan apakah jawabannya akurat, relevan, dan bermanfaat. Ini melacak seberapa sering agen berhalusinasi atau memberikan informasi yang tidak akurat. Ini dapat membantu organisasi mempertahankan kualitas layanan dan mengidentifikasi area untuk perbaikan. Misalnya, jika agen kesulitan dengan pertanyaan teknis, tim dapat memperluas basis pengetahuan agen atau menambahkan alat bantu khusus.
Ini mengukur berapa lama waktu yang dibutuhkan agen AI untuk menanggapi permintaan. Waktu respons yang cepat sangat penting untuk kepuasan pengguna dan hasil bisnis. Misalnya, jika asisten belanja membutuhkan waktu terlalu lama untuk merekomendasikan produk, pelanggan mungkin pergi tanpa membeli. Pelacakan latensi membantu tim mengidentifikasi perlambatan dan memperbaiki perbaikan kinerja sebelum berdampak pada penjualan.
Peristiwa adalah tindakan signifikan yang diambil agen AI untuk menyelesaikan tugas. Data ini memberikan insight tentang perilaku agen dan proses pengambilan keputusan untuk membantu memecahkan masalah dan meningkatkan kinerja.
Contoh peristiwa agen AI meliputi:
Ketika agen AI menggunakan antarmuka pemrograman aplikasi (API) untuk berinteraksi dengan alat eksternal seperti mesin pencari, database, atau layanan terjemahan. Pelacakan panggilan API membantu organisasi memantau penggunaan alat dan mengidentifikasi inefisiensi. Misalnya, jika agen melakukan 50 panggilan API untuk tugas yang seharusnya hanya membutuhkan 2-3, tim dapat memperbaiki logika.
Ketika agen AI menggunakan model bahasa besar untuk memahami permintaan, membuat keputusan, atau menghasilkan tanggapan. Memantau panggilan LLM membantu mengungkap perilaku, kinerja, dan keandalan model yang mendorong tindakan agen AI. Misalnya, jika agen AI memberikan informasi akun yang salah kepada pelanggan, tim dapat menganalisis panggilan LLM agen untuk menemukan masalah, seperti data usang atau prompt yang tidak jelas.
Ketika agen mencoba menggunakan alat tetapi tidak berhasil, seperti ketika panggilan API gagal karena masalah jaringan atau permintaan yang salah. Melacak kegagalan ini dapat meningkatkan keandalan agen dan mengoptimalkan sumber daya. Misalnya, jika agen dukungan tidak dapat memeriksa status pesanan karena panggilan database yang gagal, tim akan segera diperingatkan untuk melakukan perbaikan masalah seperti kredensial yang hilang atau pemadaman layanan.
Ketika agen AI meneruskan permintaan yang tidak dapat mereka tangani ke staf manusia. Informasi ini dapat mengungkapkan kesenjangan dalam kemampuan agen dan nuansa interaksi pelanggan. Misalnya, jika agen AI layanan keuangan sering meningkatkan pertanyaan kepada manusia, mungkin memerlukan data pelatihan keuangan yang lebih baik atau alat investasi khusus.
Ketika terjadi kesalahan—seperti waktu respons yang lambat, akses data yang tidak sah, atau sumber daya sistem yang rendah—dan agen AI menerima peringatan otomatis. Pemberitahuan dapat membantu tim menangkap dan memperbaiki masalah secara real time sebelum memengaruhi pengguna. Misalnya, peringatan tentang penggunaan memori yang tinggi memungkinkan tim untuk menambah sumber daya sebelum agen mengalami kegagalan.
Log adalah catatan kronologis terperinci dari setiap peristiwa dan tindakan yang terjadi selama operasi agen AI. Log dapat digunakan untuk membuat catatan dalam satuan milidetik dengan ketelitian yang tinggi dari setiap peristiwa, lengkap dengan konteks terkait.
Contoh log dalam observabilitas agen AI meliputi:
Log ini mendokumentasikan setiap interaksi antara pengguna dan agen AI—termasuk kueri, interpretasi maksud, dan output. Organisasi dapat menggunakan log ini untuk memahami kebutuhan pengguna dan kinerja agen. Misalnya, jika pengguna berulang kali menyusun ulang pertanyaan yang sama, agen kemungkinan tidak memahami maksud mereka.
Ini mencatat setiap interaksi antara agen dan model bahasa besar (LLMs), termasuk prompt, respons, metadata, cap waktu, dan penggunaan token. Data ini mengungkapkan bagaimana agen AI menafsirkan permintaan dan menghasilkan jawaban, termasuk ketika agen mungkin salah menafsirkan konteks. Misalnya, jika agen AI moderasi konten salah menandai konten jinak sementara kehilangan konten berbahaya, log ini dapat mengekspos pola cacat yang menyebabkan kesalahan.
Ini mencatat alat mana yang digunakan agen, kapan mereka menggunakannya, perintah apa yang mereka kirim, dan hasil apa yang mereka dapatkan kembali. Hal ini membantu melacak masalah kinerja dan kesalahan alat kembali ke sumbernya. Misalnya, jika agen AI dukungan teknis merespons pertanyaan tertentu dengan lambat, log mungkin menunjukkan bahwa agen tersebut menggunakan kueri penelusuran yang tidak jelas. Tim dapat menulis prompt yang lebih spesifik untuk meningkatkan respons.
Log ini mencatat bagaimana agen AI sampai pada keputusan atau tindakan tertentu ketika tersedia—seperti tindakan yang dipilih, skor, pilihan alat, dan prompt/output—tanpa menyiratkan akses ke penalaran tersembunyi. Data ini sangat penting untuk mendeteksi bias dan memastikan penggunaan AI yang bertanggung jawab, terutama seiring dengan meningkatnya tingkat otonomi agen-agen tersebut.
Misalnya, jika agen AI pinjaman secara tidak adil menolak permohonan dari beberapa kawasan tertentu, catatan pengambilan keputusan dapat membantu mengungkap pola diskriminatif dalam data pelatihan. Tim kemudian melatih kembali model AI untuk memenuhi persyaratan pinjaman yang adil.
Jejak mencatat "perjalanan" menyeluruh dari setiap permintaan pengguna, termasuk semua interaksi dengan LLM dan alat bantu di sepanjang perjalanan.
Misalnya, jejak untuk permintaan agen AI sederhana mungkin mendeteksi langkah-langkah ini.
Pengembang selanjutnya dapat menggunakan data ini untuk menentukan sumber hambatan atau kegagalan, dan mengukur kinerja pada setiap langkah proses.
Misalnya, jika jejak menunjukkan bahwa pencarian web memerlukan waktu 5 detik sementara semua langkah lainnya selesai dalam milidetik, tim dapat menerapkan caching atau menggunakan alat pencarian yang lebih cepat untuk meningkatkan waktu respons keseluruhan.
Ada dua pendekatan umum untuk mengumpulkan data yang digunakan dalam pengamatan agen AI: instrumentasi bawaan dan solusi pihak ketiga.
Dalam pendekatan pertama, data MELT dikumpulkan melalui instrumentasi bawaan dari kerangka kerja agen AI. Kemampuan pemantauan dan pencatatan asli ini secara otomatis menangkap dan mengirimkan data telemetri tentang metrik, peristiwa, log, dan jejak.
Banyak perusahaan besar dan mereka yang memiliki kebutuhan khusus mengadopsi pendekatan ini karena menawarkan kustomisasi mendalam dan kontrol yang cermat atas pengumpulan dan pemantauan data. Akan tetapi, hal itu juga memerlukan upaya pengembangan yang signifikan, waktu dan pemeliharaan berkelanjutan.
Dalam pendekatan kedua, solusi observabilitas agen AI menyediakan alat dan platform khusus untuk mengumpulkan dan menganalisis data MELT. Solusi ini menawarkan penerapan yang cepat dan sederhana kepada organisasi dengan fitur-fitur dan integrasi-integrasi yang dibangun sebelumnya yang mengurangi kebutuhan akan keahlian internal. Namun, mengandalkan solusi pihak ketiga bisa menciptakan ketergantungan pada vendor tertentu dan membatasi opsi penyesuaian untuk memenuhi kebutuhan organisasi yang sangat spesifik atau khusus.
Beberapa organisasi memilih untuk menggabungkan instrumentasi bawaan dan penyedia solusi pihak ketiga untuk mengumpulkan data telemetri agen AI.
Kedua pendekatan biasanya bergantung pada OpenTelemetry (OTel), alat pengamatan sumber terbuka yang dihosting di platform berbasis web GitHub.
OTel telah muncul sebagai kerangka kerja standar industri untuk mengumpulkan dan mentransmisikan data telemetri karena menawarkan pendekatan netral vendor untuk pengamatan yang sangat berharga dalam sistem AI yang kompleks, di mana komponen dari vendor yang berbeda harus bekerja sama dengan lancar. Ini membantu memastikan bahwa data observabilitas mengalir secara konsisten di seluruh agen, beberapa model, alat eksternal, dan sistem Generasi dengan dukungan pengambilan data (Retrieval-Augmented Generation atau RAG).
Setelah organisasi mengumpulkan data MELT melalui pendekatan pilihan mereka, mereka dapat menggunakannya dengan beberapa cara.
Beberapa contoh penggunaan yang paling umum meliputi:
Tim menggunakan dasbor untuk melihat metrik real-time, alur peristiwa (event streams), dan peta pelacakan. Tampilan terkonsolidasi ini membantu mengidentifikasi pola dan anomali di seluruh ekosistem agen AI. Misalnya, dasbor mungkin mengungkapkan bahwa agen layanan pelanggan melambat setiap sore pukul 3 sore, mendorong tim untuk menyelidiki penyebabnya.
Ketika masalah muncul, tim menghubungkan data di seluruh metrik, peristiwa, log, dan pelacakan untuk menentukan titik kegagalan yang tepat. Misalnya, menghubungkan lonjakan tingkat kesalahan (metrik) dengan kegagalan API tertentu (peristiwa) dan meninjau ulasan keputusan membantu tim memahami mengapa agen berperilaku tidak terduga.
Organisasi menggunakan insight data observabilitas untuk meningkatkan efisiensi agen. Mereka mungkin mengurangi penggunaan token, mengoptimalkan pemilihan alat, atau merestrukturisasi alur kerja agen berdasarkan analisis jejak. Sebagai contoh, mereka mungkin menemukan bahwa agen mencari database yang sama tiga kali dan tidak menyimpan hasil setelah pencarian pertama.
Tim membangun loop masukan di mana insight observabilitas mendorong penyempurnaan agen. Ulasan terhadap data MELT membantu mengidentifikasi masalah berulang dan kasus tepi—seperti agen yang berjuang dengan permintaan pengembalian dana atau gagal ketika pengguna mengajukan pertanyaan yang tidak tercakup dalam dokumentasi. Masalah ini mungkin menandakan perlunya kumpulan data pelatihan yang diperluas dan dokumen yang diperbarui.
Pertimbangkan bagaimana peritel online dapat menggunakan observabilitas untuk mengidentifikasi dan memperbaiki masalah dengan agen AI yang berinteraksi dengan pelanggan.
Pertama, dasbor observabilitas menunjukkan lonjakan masukan pelanggan negatif untuk agen AI tertentu.
Ketika tim memeriksa log agen, mereka menemukan bahwa panggilan alat database digunakan untuk menjawab pertanyaan pelanggan. Namun, jawabannya berisi informasi yang sudah ketinggalan zaman atau salah.
Jejak—rekaman lengkap proses langkah demi langkah agen dalam menangani pertanyaan pelanggan—menunjukkan panggilan alat bantu tertentu yang mengembalikan data yang sudah usang. Analisis lebih lanjut mengungkapkan kumpulan data yang tepat dalam database yang berisi informasi yang sudah ketinggalan zaman.
Dengan insight ini, peritel online memperbarui atau menghapus kumpulan data yang salah. Tim juga memperbarui logika agen untuk memvalidasi akurasi data sebelum menanggapi pelanggan. Hasilnya, agen sekarang memberikan jawaban yang akurat dan bermanfaat yang meningkatkan kepuasan pelanggan.
Meskipun sebagian besar observabilitas agen AI masih melibatkan penyerahan peringatan dan anomali kepada anggota tim untuk penyelidikan dan resolusi manual, otomatisasi yang didukung AI kian mengubah cara organisasi mengumpulkan, menganalisis, dan menindak data telemetri.
Solusi observabilitas canggih kini menggunakan teknologi ini untuk memantau, melakukan debug, dan mengoptimalkan agen AI dengan sedikit atau tanpa campur tangan manusia. Contoh penggunaan kasus yang muncul di area ini meliputi:
Memanfaatkan kekuatan AI dan otomatisasi untuk memecahkan masalah secara proaktif di seluruh tumpukan aplikasi.
Maksimalkan ketahanan operasional Anda dan pastikan kesehatan aplikasi cloud-native dengan observabilitas yang didukung AI.
Tingkatkan otomatisasi dan operasi TI dengan AI generatif, yang menyelaraskan setiap aspek infrastruktur TI Anda dengan prioritas bisnis.
1 Survei AI Q4Pulse: Temuan Utama, KPMG, November 2024
2 Tren Teknologi Strategis Teratas untuk tahun 2025: AI Agen, Gartner, Oktober 2024