Apa yang dimaksud dengan observabilitas LLM?

Penyusun

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

Definisi Observabilitas LLM

Pengamatan LLM adalah proses pengumpulan data real-time dari model LLM atau aplikasi tentang karakteristik perilaku, kinerja, dan outputnya. Karena LLM kompleks, kita dapat mengamatinya berdasarkan pola dalam apa yang mereka output.1

Solusi pengamatan yang baik terdiri dari pengumpulan metrik, jejak, dan log yang relevan dari aplikasi LLM, antarmuka pemrograman aplikasi (API) dan alur kerja, yang memungkinkan pengembang untuk memantau, men-debug, dan mengoptimalkan aplikasi secara efisien, proaktif, dan dalam skala besar. 

Model bahasa besar (LLM) dan platform AI generatif (gen AI) seperti IBM watsonx.ai dan semakin banyak variasi varian sumber terbuka yang berlaku di seluruh industri. Karena peningkatan ini, sangat penting untuk menjaga keandalan, keamanan, dan efisiensi model dan aplikasi setelah adopsi. Ini adalah tempat di mana observabilitas LLM menjadi penting.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.

Mengapa observabilitas LLM itu penting?

  • Memantau kualitas dan output LLM:
    Evaluasi berkelanjutan terhadap output yang dihasilkan oleh LLM dapat diklasifikasikan ke dalam beberapa dimensi kualitas yang berguna dan dapat diterapkan oleh pengguna. Dimensi ini termasuk kebenaran, relevansi, koherensi dan konsistensi faktual dengan metrik evaluasi yang ditentukan. Memeriksa dimensi kinerja ini secara berkala membantu mencegah kelambatan atau masalah yang dapat menyebabkan pengguna kehilangan kepercayaan pada program dan merasa sulit untuk menggunakan LLM secara efisien.

  • Analisis akar masalah dan pemecahan masalah yang cepat:
    Ketika kegagalan signifikan atau perilaku tak terduga terjadi pada aplikasi, alat observabilitas dapat memberikan insight berguna untuk segera mengidentifikasi akar masalah (atau penyebab) masalah yang dihadapi. Tingkat telemetri halus ini umumnya akan memungkinkan pemangku kepentingan untuk mengisolasi masalah dengan tingkat kepercayaan yang lebih tinggi di banyak bidang. Misalnya, data pelatihan yang rusak, penyetelan halus yang dirancang dengan buruk, panggilan API eksternal yang gagal, atau pemadaman pada backend penyedia pihak ketiga yang mati.

  • Mengoptimalkan aplikasi, keterlibatan pengguna, dan efisiensi sistem:
    Pengamatan LLM memungkinkan kinerja aplikasi dan keterlibatan pengguna meningkat melalui pemantauan berkelanjutan dari seluruh tumpukan LLM. Metrik utama seperti latensi, token yang digunakan, waktu untuk merespons dan throughput, dilacak untuk mengidentifikasi hambatan dan faktor pembatas untuk memungkinkan pengoptimalan kinerja lebih lanjut dan pengurangan biaya, terutama dalam alur kerja RAG. Pelacakan interaksi dan masukan pengguna secara real-time membantu memberikan insight tentang kapan output berkualitas rendah dihasilkan, menyelesaikan masalah saat muncul, dan menemukan akar masalah. Adaptasi yang konsisten terhadap perilaku pengguna ini memungkinkan LLM untuk menghasilkan respons yang disesuaikan, mengoptimalkan alur kerja dan skala untuk memenuhi permintaan tanpa kerugian kinerja.2, 3
IBM DevOps

Apa itu DevOps?

Andrea Crawford menjelaskan apa itu DevOps, nilai DevOps, dan cara praktik serta alat DevOps membantu Anda memproses aplikasi Anda melalui seluruh delivery pipeline, dari ide hingga produksi. Dipimpin oleh para pemimpin terkemuka IBM, kurikulumnya dirancang untuk membantu para pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan untuk memprioritaskan investasi AI yang dapat mendorong pertumbuhan.

Metrik observabilitas utama

Metrik observabilitas LLM dapat dikategorikan menjadi tiga dimensi utama.

Pengamatan komprehensif model bahasa besar (LLM) dapat terjadi hanya jika kita melacak metrik pengamatan yang melacak kinerja sistem, konsumsi sumber daya, dan perilaku model.4

Metrik kinerja sistem:

  • Latensi: Durasi dari input ke output yang mewakili waktu respons model.

  • Throughput: Hitungan permintaan yang diproses model dalam durasi tertentu; ukuran beban model.

  • Tingkat kesalahan: Tingkat kegagalan atau respons yang tidak valid; cerminan keandalan model.

Metrik pemanfaatan sumber daya:

  • Penggunaan CPU/GPU: Pengukuran sumber daya yang dikonsumsi selama inferensi, dengan relevansi dengan biaya dan efisiensi.

  • Penggunaan memori: RAM atau penyimpanan yang dikonsumsi selama pemrosesan. Meskipun penting untuk kinerja dan skalabilitas, penggunaan ini bersifat sekunder untuk tugas keseluruhan.

  • Penggunaan token: Melacak token yang diproses. Langkah ini sangat penting ketika token dikaitkan dengan biaya dalam model.

  • Rasio latensi throughput: Throughput menggambarkan beban kerja sistem versus daya tanggapannya; menemukan keseimbangan yang baik antara keduanya sangat penting untuk efisiensi.

Metrik perilaku model:

  • Ketepatan: Memantau seberapa sering model menghasilkan respons yang benar.

  • Kebenaran faktual: Mengevaluasi apakah model memberikan output faktual yang "benar".

  • Keterlibatan pengguna: Mengukur durasi interaksi, masukan, dan kepuasan untuk memperkirakan pengalaman.

  • Kualitas tanggapan: Mengukur koherensi, kejelasan, dan ketepatan output.5

Observabilitas otonom berbasis manual vs. berbasis agen 

Memantau LLM secara manual sulit dilakukan karena volume data yang besar, arsitektur sistem yang kompleks dan kebutuhan untuk pelacakan real-time. Banyaknya log dan metrik membuatnya sulit untuk mengidentifikasi masalah dengan cepat. Selain itu, pengamatan manual membutuhkan banyak sumber daya, rentan terhadap kesalahan dan tidak dapat diskalakan secara efektif saat sistem berkembang, mengakibatkan deteksi masalah yang lebih lambat dan pemecahan masalah yang tidak efisien.

 Keterbatasan ini menunjukkan kesulitan untuk mempertahankan observabilitas secara manual dalam LLM, menyoroti kebutuhan akan solusi yang lebih canggih dan otonom untuk pengaturan perusahaan.6

Pemecahan masalah otonom berbasis agen

Pemecahan masalah otonom mengacu pada sistem yang dapat mengidentifikasi, mendiagnosis, dan menyelesaikan masalah secara independen tanpa memerlukan campur tangan manusia dengan menggunakan metode pemantauan lanjutan yang menggunakan sistem berbasis agen. Agen-agen ini memantau kinerja, mengidentifikasi anomali, dan melakukan diagnostik waktu nyata, sehingga sistem dapat berjalan tanpa pengawasan dan tanpa campur tangan manusia.7

Pemecahan masalah otonom berbasis agen membantu dengan:

  • Deteksi waktu nyata: Identifikasi masalah secara instan tanpa input manual.

  • Analisis akar penyebab: Tentukan sumber masalah dengan menggunakan insight berbasis AI. 

  • Resolusi otomatis: Menerapkan solusi yang telah ditentukan sebelumnya yang siap digunakan segera untuk menyelesaikan masalah.

  • Pemantauan berkelanjutan: Beradaptasi dan belajar dari data untuk meningkatkan pemecahan masalah dari waktu ke waktu.

  • Skalabilitas: Menangani lingkungan berskala besar yang kompleks secara efisien dengan mengurangi pekerjaan manual secara signifikan.

  • Pemeliharaan prediktif: Mengantisipasi potensi masalah sebelum muncul, yang dapat sangat berharga selama siklus kinerja puncak. 

  • Integrasi dengan observabilitas: Bekerja dengan alat pengamatan lainnya untuk resolusi masalah yang lebih cepat.

Solusi perusahaan 

Dirancang untuk skala, IBM® Instana® menghadirkan visibilitas real-time dan pemecahan masalah otonom untuk pengamatan perusahaan yang kompleks saat ini.

Dengan proses tiga langkah—deteksi, diagnosis berbasis AI, dan remediasi otonom—Instana memberikan pemecahan masalah otonom ujung ke ujung untuk membantu memastikan masalah terdeteksi dan diperbaiki sebelum memengaruhi kinerja Anda.8

Untuk mempelajari lebih lanjut tentang kemampuan ini, daftar daftar tunggu Instana Agentic AI.  

Kesimpulan

Skalabilitas AI generatif melibatkan pemecahan masalah secara otomatis dengan instrumen cerdas, pemantauan LLM secara real-time, dan orkestrasi yang efektif. Kumpulan data, output model, dan pengoptimalan respons LLM ditambah pemeliharaan kinerja model yang kuat melalui pipeline yang dioptimalkan dan pengujian LLM real-time, sangat penting untuk pengalaman pengguna yang lancar di berbagai contoh penggunaan seperti chatbot. Sumber terbuka LLM dan penggunaan alur kerja machine learning berkembang dan memanfaatkan teknik penyematan, yang memantau panggilan LLM dengan menggunakan berbagai alat. Alat seperti OpenTelemetry dan lainnya yang menggabungkan alat observabilitas LLM canggih ke dalam platform observabilitas terintegrasi dan dasbor akan sangat penting untuk membangun sistem AI yang dapat diskalakan dan stabil yang memberikan kinerja model yang optimal.9, 10

Solusi terkait
IBM DevOps Mempercepat

Otomatiskan pengiriman perangkat lunak untuk aplikasi apa pun di lingkungan on premises, cloud, atau mainframe.

Jelajahi DevOps Accelerate
Solusi DevOps

Gunakan perangkat lunak dan alat bantu DevOps untuk membangun, menerapkan, dan mengelola aplikasi cloud native di berbagai perangkat dan lingkungan.

Jelajahi solusi DevOps
Layanan Konsultasi Cloud 

Dapatkan kemampuan baru dan dorong ketangkasan bisnis dengan layanan konsultasi cloud IBM. Temukan cara berkolaborasi dalam menciptakan solusi, mempercepat transformasi digital, dan mengoptimalkan kinerja melalui strategi hybrid cloud dan kemitraan pakar.

Layanan cloud
Ambil langkah selanjutnya

Maksimalkan potensi DevOps untuk membangun, menguji, dan menerapkan aplikasi cloud-native secara aman dengan integrasi berkelanjutan dan pengiriman tanpa henti.

Jelajahi solusi DevOps Temukan DevOps dalam aksi
Catatan kaki:

1 Kumar, S., & Singh, R. (2024). Don’t blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://dl.acm.org/doi/10.1145/3706599.3719914

2 Datadog. (n.d.). Apa itu Observabilitas LLM & Monitoring?. Diakses pada 19 Mei 2025, dari https://www.datadoghq.com/knowledge center/llm-observability/.

3 Observabilitas LLM, GitHub. Diakses 19 Mei 2025 dari https://github.com/DataDog/llm-observability, Datadog. (n.d.).

4 Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

5 LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Diakses tanggal 19 Mei 2025, dari https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

6 Mengoptimalkan Akurasi LLM, Diakses pada tanggal 19 Mei 2025, dari https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

7 IBM Instana Observability. Diakses 19 Mei 2025 dari https://www.ibm.com/id-id/products/instana.

8 Memantau Agen AI. Dokumentasi IBM. Diakses 19 Mei 2025 dari https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents. 

9 Zhou, Y., Yang, Y., & Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

10 Vesely, K., & Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136.