Apa yang dimaksud dengan observabilitas LLM?

Penyusun

Data Scientist

Lead AI Advocate

PMM Intern

Definisi Observabilitas LLM

Pengamatan LLM adalah proses pengumpulan data real-time dari model LLM atau aplikasi tentang karakteristik perilaku, kinerja, dan outputnya. Karena LLM kompleks, kita dapat mengamatinya berdasarkan pola dalam apa yang mereka output.¹

Solusi pengamatan yang baik terdiri dari pengumpulan metrik, jejak, dan log yang relevan dari aplikasi LLM, antarmuka pemrograman aplikasi (API) dan alur kerja, yang memungkinkan pengembang untuk memantau, men-debug, dan mengoptimalkan aplikasi secara efisien, proaktif, dan dalam skala besar.

Model bahasa besar (LLM) dan platform AI generatif (gen AI) seperti IBM watsonx.ai dan semakin banyak variasi varian sumber terbuka yang berlaku di seluruh industri. Karena peningkatan ini, sangat penting untuk menjaga keandalan, keamanan, dan efisiensi model dan aplikasi setelah adopsi. Ini adalah tempat di mana observabilitas LLM menjadi penting.

Buletin industri

Berita teknologi terbaru, didukung oleh insight dari pakar

Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.

Mengapa observabilitas LLM itu penting?

Memantau kualitas dan output LLM:
Evaluasi berkelanjutan terhadap output yang dihasilkan oleh LLM dapat diklasifikasikan ke dalam beberapa dimensi kualitas yang berguna dan dapat diterapkan oleh pengguna. Dimensi ini termasuk kebenaran, relevansi, koherensi dan konsistensi faktual dengan metrik evaluasi yang ditentukan. Memeriksa dimensi kinerja ini secara berkala membantu mencegah kelambatan atau masalah yang dapat menyebabkan pengguna kehilangan kepercayaan pada program dan merasa sulit untuk menggunakan LLM secara efisien.
Analisis akar masalah dan pemecahan masalah yang cepat:
Ketika kegagalan signifikan atau perilaku tak terduga terjadi pada aplikasi, alat observabilitas dapat memberikan insight berguna untuk segera mengidentifikasi akar masalah (atau penyebab) masalah yang dihadapi. Tingkat telemetri halus ini umumnya akan memungkinkan pemangku kepentingan untuk mengisolasi masalah dengan tingkat kepercayaan yang lebih tinggi di banyak bidang. Misalnya, data pelatihan yang rusak, penyetelan halus yang dirancang dengan buruk, panggilan API eksternal yang gagal, atau pemadaman pada backend penyedia pihak ketiga yang mati.
Mengoptimalkan aplikasi, keterlibatan pengguna, dan efisiensi sistem:
Pengamatan LLM memungkinkan kinerja aplikasi dan keterlibatan pengguna meningkat melalui pemantauan berkelanjutan dari seluruh tumpukan LLM. Metrik utama seperti latensi, token yang digunakan, waktu untuk merespons dan throughput, dilacak untuk mengidentifikasi hambatan dan faktor pembatas untuk memungkinkan pengoptimalan kinerja lebih lanjut dan pengurangan biaya, terutama dalam alur kerja RAG. Pelacakan interaksi dan masukan pengguna secara real-time membantu memberikan insight tentang kapan output berkualitas rendah dihasilkan, menyelesaikan masalah saat muncul, dan menemukan akar masalah. Adaptasi yang konsisten terhadap perilaku pengguna ini memungkinkan LLM untuk menghasilkan respons yang disesuaikan, mengoptimalkan alur kerja dan skala untuk memenuhi permintaan tanpa kerugian kinerja.^2,³

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Simak episode terbaru podcast

Metrik observabilitas utama

Metrik observabilitas LLM dapat dikategorikan menjadi tiga dimensi utama.

Pengamatan komprehensif model bahasa besar (LLM) dapat terjadi hanya jika kita melacak metrik pengamatan yang melacak kinerja sistem, konsumsi sumber daya, dan perilaku model.⁴

Metrik kinerja sistem:

Latensi: Durasi dari input ke output yang mewakili waktu respons model.
Throughput: Hitungan permintaan yang diproses model dalam durasi tertentu; ukuran beban model.
Tingkat kesalahan: Tingkat kegagalan atau respons yang tidak valid; cerminan keandalan model.

Metrik pemanfaatan sumber daya:

Penggunaan CPU/GPU: Pengukuran sumber daya yang dikonsumsi selama inferensi, dengan relevansi dengan biaya dan efisiensi.
Penggunaan memori: RAM atau penyimpanan yang dikonsumsi selama pemrosesan. Meskipun penting untuk kinerja dan skalabilitas, penggunaan ini bersifat sekunder untuk tugas keseluruhan.
Penggunaan token: Melacak token yang diproses. Langkah ini sangat penting ketika token dikaitkan dengan biaya dalam model.
Rasio latensi throughput: Throughput menggambarkan beban kerja sistem versus daya tanggapannya; menemukan keseimbangan yang baik antara keduanya sangat penting untuk efisiensi.

Metrik perilaku model:

Ketepatan: Memantau seberapa sering model menghasilkan respons yang benar.
Kebenaran faktual: Mengevaluasi apakah model memberikan output faktual yang "benar".
Keterlibatan pengguna: Mengukur durasi interaksi, masukan, dan kepuasan untuk memperkirakan pengalaman.
Kualitas tanggapan: Mengukur koherensi, kejelasan, dan ketepatan output.⁵

Observabilitas otonom berbasis manual vs. berbasis agen

Memantau LLM secara manual sulit dilakukan karena volume data yang besar, arsitektur sistem yang kompleks dan kebutuhan untuk pelacakan real-time. Banyaknya log dan metrik membuatnya sulit untuk mengidentifikasi masalah dengan cepat. Selain itu, pengamatan manual membutuhkan banyak sumber daya, rentan terhadap kesalahan dan tidak dapat diskalakan secara efektif saat sistem berkembang, mengakibatkan deteksi masalah yang lebih lambat dan pemecahan masalah yang tidak efisien.

 Keterbatasan ini menunjukkan kesulitan untuk mempertahankan observabilitas secara manual dalam LLM, menyoroti kebutuhan akan solusi yang lebih canggih dan otonom untuk pengaturan perusahaan.⁶

Pemecahan masalah otonom berbasis agen

Pemecahan masalah otonom mengacu pada sistem yang dapat mengidentifikasi, mendiagnosis, dan menyelesaikan masalah secara independen tanpa memerlukan campur tangan manusia dengan menggunakan metode pemantauan lanjutan yang menggunakan sistem berbasis agen. Agen-agen ini memantau kinerja, mengidentifikasi anomali, dan melakukan diagnostik waktu nyata, sehingga sistem dapat berjalan tanpa pengawasan dan tanpa campur tangan manusia.⁷

Pemecahan masalah otonom berbasis agen membantu dengan:

Deteksi waktu nyata: Identifikasi masalah secara instan tanpa input manual.
Analisis akar penyebab: Tentukan sumber masalah dengan menggunakan insight berbasis AI.
Resolusi otomatis: Menerapkan solusi yang telah ditentukan sebelumnya yang siap digunakan segera untuk menyelesaikan masalah.
Pemantauan berkelanjutan: Beradaptasi dan belajar dari data untuk meningkatkan pemecahan masalah dari waktu ke waktu.
Skalabilitas: Menangani lingkungan berskala besar yang kompleks secara efisien dengan mengurangi pekerjaan manual secara signifikan.
Pemeliharaan prediktif: Mengantisipasi potensi masalah sebelum muncul, yang dapat sangat berharga selama siklus kinerja puncak.
Integrasi dengan observabilitas: Bekerja dengan alat pengamatan lainnya untuk resolusi masalah yang lebih cepat.

Solusi perusahaan

Dirancang untuk skala, IBM® Instana® menghadirkan visibilitas real-time dan pemecahan masalah otonom untuk pengamatan perusahaan yang kompleks saat ini.

Dengan proses tiga langkah—deteksi, diagnosis berbasis AI, dan remediasi otonom—Instana memberikan pemecahan masalah otonom ujung ke ujung untuk membantu memastikan masalah terdeteksi dan diperbaiki sebelum memengaruhi kinerja Anda.⁸

Untuk mempelajari lebih lanjut tentang kemampuan ini, daftar daftar tunggu Instana Agentic AI.

Kesimpulan

Skalabilitas AI generatif melibatkan pemecahan masalah secara otomatis dengan instrumen cerdas, pemantauan LLM secara real-time, dan orkestrasi yang efektif. Kumpulan data, output model, dan pengoptimalan respons LLM ditambah pemeliharaan kinerja model yang kuat melalui pipeline yang dioptimalkan dan pengujian LLM real-time, sangat penting untuk pengalaman pengguna yang lancar di berbagai contoh penggunaan seperti chatbot. Sumber terbuka LLM dan penggunaan alur kerja machine learning berkembang dan memanfaatkan teknik penyematan, yang memantau panggilan LLM dengan menggunakan berbagai alat. Alat seperti OpenTelemetry dan lainnya yang menggabungkan alat observabilitas LLM canggih ke dalam platform observabilitas terintegrasi dan dasbor akan sangat penting untuk membangun sistem AI yang dapat diskalakan dan stabil yang memberikan kinerja model yang optimal.^{9, 10}

Buka kekuatan IBM Instana Observability

IBM Instana Observability dapat membantu Anda mencapai ROI sebesar 219% dan mengurangi waktu yang dihabiskan pengembang untuk memecahkan masalah hingga 90%

Sumber daya

Memulai dengan observabilitas dalam sistem modern

Temukan pentingnya observabilitas dan caranya membantu Anda mendapatkan insight tentang perilaku sistem.

Buka kekuatan IBM Instana Observability

IBM Instana Observability dapat membantu Anda mencapai ROI sebesar 219% dan mengurangi waktu yang dihabiskan pengembang untuk memecahkan masalah hingga 90%

Mendorong nilai bisnis dengan otomatisasi TI yang didukung AI

Pelajari cara menggabungkan alat pengoptimalan biaya APM dan hybrid cloud membantu organisasi dalam mengurangi biaya dan meningkatkan produktivitas.

Solusi terkait

Observabilitas Otomatis Keseluruhan Lapisan

Mengidentifikasi dan memperbaiki sumber masalah dengan cepat.Data real-time dengan fidelitas tinggi menawarkan visibilitas lengkap terhadap lingkungan aplikasi dan infrastruktur yang dinamis.

Pelajari lebih lanjut tentang Observabilitas Tumpukan Penuh

Konsultasi AIOps

Tingkatkan otomatisasi dan operasi TI dengan AI generatif, yang menyelaraskan setiap aspek infrastruktur TI Anda dengan prioritas bisnis.

Pelajari lebih lanjut tentang konsultasi AIOps

IBM SevOne Network Performance Management

IBM SevOne Network Performance Management adalah perangkat lunak pemantauan dan analitik yang memberikan visibilitas dan wawasan real-time ke dalam jaringan yang kompleks.

Pantau kinerja jaringan

Ambil langkah selanjutnya

Temukan cara AI untuk operasi TI memberikan insight yang Anda butuhkan untuk membantu mendorong kinerja bisnis yang luar biasa.

Jelajahi solusi AIOps

Pesan demo langsung

Catatan kaki:

¹ Kumar, S., & Singh, R. (2024). Don’t blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914.

² Datadog. (n.d.). Apa itu Observabilitas LLM & Monitoring?. Diakses pada 19 Mei 2025, dari https://www.datadoghq.com/knowledge center/llm-observability/.

³ Observabilitas LLM, GitHub. Diakses 19 Mei 2025 dari https://github.com/DataDog/llm-observability, Datadog. (n.d.).

⁴ Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

⁵ LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Diakses tanggal 19 Mei 2025, dari https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

⁶ Mengoptimalkan Akurasi LLM, Diakses pada tanggal 19 Mei 2025, dari https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

⁷ IBM Instana Observability. Diakses 19 Mei 2025 dari https://www.ibm.com/id-id/products/instana.

⁸ Memantau Agen AI. Dokumentasi IBM. Diakses 19 Mei 2025 dari https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents.

⁹ Zhou, Y., Yang, Y., & Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

¹⁰ Vesely, K., & Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.