Apa itu rekayasa observabilitas?

Seorang pria berkacamata dan mengenakan kemeja kotak-kotak bekerja di meja dengan dua monitor besar yang menampilkan barisan kode dan laptop terbuka di depannya.

Penyusun

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

Apa itu rekayasa observabilitas?

Rekayasa observabilitas adalah proses merancang dan membangun sistem yang secara inheren dapat diamati dan memanfaatkan alat dan metode canggih untuk mengumpulkan, menganalisis, dan memvisualisasikan data observabilitas.

Ketika suatu sistem dapat diamati, pengembang dapat membedakan status sistem perangkat lunak, infrastruktur, dan komponen jaringan dengan menganalisis output eksternal mereka. Alat pemantauan TI konvensional sering kali tidak mampu memberikan visibilitas lengkap tentang lingkungan perangkat lunak yang rumit saat ini, yang menampilkan arsitektur terdistribusi dan banyak sekali layanan mikro serta komponen lain yang saling bergantung.

Sistem perangkat lunak modern dan lingkungan komputasi memerlukan full stack observability modern yang menyediakan fitur pelacakan terdistribusi dan metrik yang komprehensif serta fungsionalitas pencatatan. Dengan rekayasa observabilitas, fitur observabilitas dimasukkan ke dalam sistem pengembangan dan produksi.

Insinyur observabilitas membangun fungsi observabilitas ke dalam kode aplikasi, infrastruktur, dan lapisan middleware, serta mengintegrasikan data peristiwa sistem ke dalam saluran pemantauan. Mereka menggunakan alat canggih yang menghubungkan peristiwa sistem di seluruh kontainer, pod, server, dan jaringan pengiriman konten (CDN) untuk memungkinkan keterlacakan menyeluruh di lingkungan komputasi cloud native yang kompleks.

Rekayasa observabilitas membantu tim menganalisis data pemantauan dan telemetri, membuat mekanisme peringatan yang lebih responsif, dan mendapatkan visualisasi dan dasbor data yang lebih mendalam. Praktik ini juga mendukung strategi shift left pada observabilitas, yang memungkinkan pengembang untuk secara proaktif mendeteksi masalah sistem, memahami akar masalah, dan menentukan cara paling efektif untuk menyelesaikannya dengan menjalankan fitur observabilitas lebih awal dalam siklus proses pengembangan.

Dengan memasukkan rekayasa observabilitas ke dalam praktik pengembangan dan manajemen jaringan mereka, bisnis dapat membuat sistem yang lebih dapat diamati yang memfasilitasi pengiriman aplikasi dan layanan yang aman, terus beroperasi, dan berkinerja tinggi.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Penjelasan tentang observabilitas

Observabilitas adalah kemampuan untuk memahami keadaan internal atau kondisi sistem yang kompleks hanya berdasarkan pengetahuan tentang output eksternalnya, khususnya telemetrinya.

Dalam sistem yang dapat diamati, tim TI dapat lebih mudah memantau dan menganalisis kinerja sistem. Sebagai contoh, mereka bisa melihat dengan tepat bagaimana data mengalir di seluruh tumpukan teknologi organisasi, termasuk aplikasi, pusat data on premises, dan lingkungan cloud, serta di mana saja hambatannya. Insight ini membantu tim mengidentifikasi dan memulihkan masalah dengan lebih cepat, dan secara umum menciptakan sistem yang lebih kuat dan tangguh.

Pada intinya, observabilitas menyangkut mengubah data mentah menjadi insight yang dapat ditindaklanjuti. Namun, tidak seperti pendekatan pemantauan tradisional (yang berfokus pada metrik yang telah ditentukan dan pemecahan masalah reaktif), observabilitas mengambil pendekatan proaktif.

Alat observabilitas mengandalkan pengumpulan data dari berbagai sumber data untuk melakukan analisis yang lebih dalam dan mempercepat penyelesaian masalah. Mereka mengumpulkan telemetri dan data lainnya dari berbagai komponen jaringan (di antaranya kontainer, pod, dan layanan mikro) untuk memberikan tim pengembangan gambaran holistik tentang kesehatan dan kinerja komponen, serta gambaran sistem yang lebih besar di mana mereka merupakan bagian darinya.

Telemetri mencakup “tiga pilar” observabilitas: log, metrik, dan jejak.

Log adalah catatan terperinci tentang apa yang terjadi dalam jaringan dan sistem perangkat lunak. Log memberikan informasi terperinci tentang apa, kapan, dan di mana hal tersebut terjadi di lingkungan.

Metrik adalah penilaian numerik kinerja sistem dan penggunaan sumber daya. Metrik memberikan gambaran umum tingkat tinggi tentang kesehatan sistem dengan menangkap jenis data tertentu dan indikator kinerja utama (KPI), seperti latensi, kehilangan paket, ketersediaan bandwidth, dan penggunaan CPU perangkat.

Jejak adalah catatan menyeluruh dari setiap perjalanan permintaan pengguna melalui jaringan. Jejak memberikan insight tentang jalur dan perilaku paket data saat melintasi berbagai perangkat dan sistem yang kompleks, sehingga sangat penting untuk memahami lingkungan terdistribusi.

Tidak seperti alat pemantauan, platform observabilitas menggunakan telemetri secara proaktif. Tim DevOps dan insinyur keandalan situs (SRE) menggunakan alat observabilitas untuk menghubungkan telemetri secara real-time dan mendapatkan tampilan kesehatan sistem yang lengkap dan sesuai konteks. Semua fitur ini memungkinkan tim untuk lebih memahami setiap elemen sistem dan bagaimana elemen yang berbeda berkaitan satu sama lain.

Dengan memberikan pandangan komprehensif tentang lingkungan TI, berikut dependensinya, solusi observabilitas dapat menunjukkan kepada tim "apa", "di mana", dan "mengapa" dari setiap peristiwa sistem, dan bagaimana peristiwa tersebut dapat memengaruhi kinerja seluruh lingkungan. Mereka juga dapat secara otomatis menemukan sumber telemetri baru yang mungkin muncul dalam sistem (misalnya, panggilan antarmuka pemrograman aplikasi (API) baru ke aplikasi perangkat lunak).

Fitur telemetri dan korelasi data sering menentukan bagaimana insinyur perangkat lunak dan tim DevOps menerapkan instrumentasi aplikasi, proses debug, dan penyelesaian masalah. Alat ini memberdayakan tim TI untuk mendeteksi dan mengatasi masalah sebelum meningkat, membantu memastikan konektivitas yang lancar, waktu henti minimal, dan pengalaman pengguna yang dioptimalkan.

Namun, mereka juga memberikan masukan yang dapat digabungkan oleh pengembang ke dalam praktik observabilitas masa depan, yang menjadikannya pula sebagai bagian integral dari rekayasa observabilitas.

Prinsip dasar rekayasa observabilitas

Rekayasa observabilitas yang sukses bergantung pada beberapa prinsip penting, termasuk:

    Instrumentasi aplikasi yang komprehensif

    Menanamkan pencatatan, metrik, dan pelacakan di seluruh basis kode aplikasi membantu tim teknik menangkap data penting di titik pengumpulan utama.

    Tim dapat menggunakan format pencatatan terstruktur (seperti JSON) untuk merampingkan manajemen log dan membuat log lebih mudah dicari dan diurai. Dan instrumentasi setiap layanan mikro dan integrasi pihak ketiga untuk mengumpulkan jejak permintaan data masuk dan keluar memfasilitasi visibilitas lengkap di seluruh lingkungan TI sehingga pengembang dapat menemukan dan melakukan perbaikan masalah dengan lebih cepat.

    Penelusuran terdistribusi

    Alat pelacakan terdistribusi yang memvisualisasikan seluruh jalur dari setiap permintaan data dalam lingkungan komputasi membantu tim TI memecahkan masalah dengan cepat saat masalah muncul.

    Pengembang dapat menggunakan pengidentifikasi unik untuk mengikuti permintaan saat mereka melintasi berbagai layanan, memberikan insight lengkap dan menyeluruh tentang operasi. Misalnya, insinyur dapat menetapkan ID jejak unik ke setiap permintaan data yang masuk di tepi ekosistem (misalnya di API Gateway) dan menerapkan ID rentang ke setiap segmen perjalanan permintaan.

    Sasaran tingkat layanan (SLO) yang bermakna

    SLO adalah target kinerja yang disepakati untuk layanan selama periode tertentu. Target ini membantu memastikan bahwa bisnis dapat memenuhi perjanjian tingkat layanan (SLA), kontrak antara penyedia layanan dan pelanggan yang menentukan layanan yang akan diberikan, dan tingkat kinerja yang harus diharapkan pengguna.  

    Menetapkan metrik yang jelas dan dapat diukur yang mewakili pengalaman pengguna aktual dan menetapkan tujuan yang dapat dicapai untuk keandalan dan kinerja sistem merupakan bagian integral dari rekayasa observabilitas. Proses ini tidak hanya membantu memastikan bahwa para insinyur selalu bekerja dengan data observabilitas yang relevan, tetapi juga memfasilitasi deteksi dan penyelesaian masalah yang akurat.

    Budaya yang mengutamakan observabilitas

    Rekayasa observabilitas bukan hanya menyangkut menggeser observabilitas ke kiri dalam siklus proses pengembangan. Ini juga menyangkut memfasilitasi pengembangan yang didorong oleh observabilitas, di mana praktik observabilitas diintegrasikan ke dalam alur kerja sehari-hari pengembang dan mereka mendorong cara para insinyur membuat dan mengelola kode.

    Komponen kunci dari rekayasa observabilitas

    Selain data telemetri dasar dan alat korelasi, rekayasa observabilitas bergantung pada:

    Pemantauan dan peringatan secara real-time

    Menetapkan protokol pemantauan yang kuat sangat penting untuk memelihara sistem yang dapat diamati. Alat pemantauan dapat terus mengumpulkan dan melacak berbagai metrik sistem, termasuk penggunaan memori, tingkat kesalahan, waktu respons, dan hasil transaksi sintetis. Pemantauan real-time membantu memastikan bahwa insinyur memiliki informasi terkini tentang perilaku sistem.

    Sebagian besar solusi observabilitas juga menyertakan mekanisme peringatan otomatis yang memberi tahu tim tentang peristiwa anomali dan penyimpangan dari nilai dasar yang telah ditetapkan.

    Peristiwa terstruktur

    Peristiwa terstruktur adalah catatan data yang berisi pasangan kunci-nilai, yang menggambarkan aktivitas atau kejadian tertentu dalam sistem. Mengirimkan peristiwa terstruktur sering kali merupakan cara terbaik untuk melacak aktivitas dan perubahan sistem yang signifikan karena peristiwa tersebut menangkap konteks dan urutan operasi yang menyebabkan status atau kesalahan tertentu.

    Setiap peristiwa biasanya menyertakan pengenal unik, metadata (seperti header dan variabel), dan stempel waktu eksekusi, sehingga sangat berharga untuk debug, audit, dan analisis forensik.

    Pemantauan Kinerja Aplikasi

    Alat pemantauan kinerja aplikasi memberikan visibilitas menyeluruh tentang kesehatan aplikasi dan pengalaman pengguna akhir. Mereka dapat melacak metrik kinerja aplikasi penting—seperti throughput transaksi, latensi, dan dependensi antara layanan—yang membantu tim mendiagnosis hambatan kinerja, melacak interaksi pengguna, dan memahami dampak perubahan di seluruh tumpukan aplikasi.

    Dasbor

    Dasbor mengumpulkan dan menampilkan metrik, log, dan jejak dari berbagai komponen sistem, menawarkan tim visualisasi insight yang membantu mereka menilai kinerja sistem dengan cepat, mengidentifikasi tren data, dan menentukan masalah. Dasbor sering kali dapat disesuaikan, yang memungkinkan pengembang untuk mengonfigurasinya guna menyoroti data yang paling relevan untuk setiap peran pemangku kepentingan dalam organisasi.

    Integrasi dengan DevOps dan SRE

    Rekayasa observabilitas sangat terkait dengan metodologi DevOps dan SRE.

    Dasbor menyediakan data yang dibutuhkan tim untuk menerapkan praktik observabilitas tingkat lanjut, seperti penandaan fitur (di mana fitur baru diaktifkan atau dinonaktifkan pada waktu proses untuk mengontrol pengguna mana yang bisa mengaksesnya) dan penerapan biru-hijau (di mana pengembang menjalankan dua lingkungan produksi paralel yang serupa (atau klaster) dan setiap lingkungan menjalankan rilis aplikasi yang berbeda).

    Dengan menanamkan rekayasa observabilitas ke dalam saluran CI/CD dan proses otomatisasi, tim TI dapat meningkatkan keandalan sistem secara keseluruhan, mempercepat pengiriman perangkat lunak, dan mengelola perubahan dalam lingkungan produksi dengan percaya diri.

    Gabungan Para Pakar | 28 Agustus, episode 70

    Decoding AI: Rangkuman Berita Mingguan

    Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

    Teknik rekayasa observabilitas

    Rekayasa observabilitas mencakup kumpulan praktik dan alat yang dapat memperdalam visibilitas tentang lingkungan TI. Praktik ini juga memungkinkan pengembang untuk menerapkan teknik rekayasa yang lebih canggih, termasuk:

    Korelasi KPI bisnis

    Rekayasa observabilitas membantu tim menghubungkan indikator teknis (misalnya latensi) dengan hasil bisnis utama (seperti kepuasan pelanggan atau penciptaan pendapatan). Pendekatan ini memungkinkan personel TI untuk menilai dampak bisnis dari masalah teknis, memprioritaskan perbaikan yang paling penting, dan menyelaraskan prioritas teknis dengan tujuan organisasi.

    Jika, misalnya, data observabilitas menunjukkan bahwa latensi yang lebih tinggi terkait dengan tingkat konversi yang lebih rendah, pengembang dapat mengatasi masalah latensi untuk membantu meningkatkan konversi.

    OpenTelemetry (OTel)

    OpenTelemetry, atau OTel, adalah kerangka kerja observabilitas sumber terbuka yang mencakup kumpulan kit pengembangan perangkat lunak (SDK), API yang netral vendor, dan alat lain untuk aplikasi, sistem, dan instrumentasi perangkat. OTel menyederhanakan bagaimana data telemetri dikumpulkan, terlepas dari lingkungan bahasa pemrograman, infrastruktur, atau waktu proses, dan memungkinkan pengembang untuk menghasilkan, mengumpulkan, dan mengekspor data telemetri terstandardisasi untuk backend observabilitas apa pun.

    Dengan oTel, teknisi observabilitas dapat mengumpulkan data telemetri secara konsisten di berbagai aplikasi, sistem, dan contoh penggunaan; merampingkan integrasi data dan praktik observabilitas; dan membuat lingkungan TI mereka relevan untuk masa depan.

    Verifikasi berkelanjutan

    Verifikasi berkelanjutan memungkinkan pengembang untuk menanamkan pemeriksaan observabilitas secara langsung ke dalam saluran CI/CD dan mengidentifikasi masalah sebelum mencapai produksi. Menggunakan fitur pemantauan otomatis, pencatatan, dan peringatan selama fase pembuatan dan penerapan pengembangan aplikasi, tim dapat mendeteksi masalah kinerja dengan segera. Semua proses ini membantu mengoptimalkan keandalan penerapan dan mempercepat siklus masukan untuk rilis perangkat lunak yang lebih cepat dan berkualitas lebih tinggi.

    Deteksi anomali berbasis machine learning

    Bisnis dapat menggunakan algoritma yang didukung AI untuk memilah sejumlah besar data observabilitas dan menemukan masalah sistem yang muncul yang mungkin lolos alat tradisional. Misalnya, dalam jaringan memori jangka pendek yang panjang (LSTM), teknologi machine learning (ML) memungkinkan jaringan untuk memodelkan dan belajar lebih baik dari data yang datang secara berurutan, seperti data deret waktu dan bahasa alami.

    LSTM dapat dilatih pada telemetri untuk mengidentifikasi perilaku sistem normal dan memprediksi status sistem mendatang. Jika data aktual menyimpang secara signifikan dari prediksi, tim akan menerima peringatan yang memberitahukan mereka tentang potensi pelanggaran keamanan, kegagalan jaringan, atau degradasi sistem.

    Rekayasa kekacauan

    Rekayasa kekacauan adalah proses di mana pengembang sengaja menyebabkan kegagalan di lingkungan produksi atau praproduksi untuk memahami dampaknya pada sistem. Menyimulasikan gangguan (seperti kegagalan jaringan, kerusakan server, atau lonjakan lalu lintas) memungkinkan insinyur observabilitas untuk mengidentifikasi kerentanan sistem. Tindakan ini juga membantu mereka meningkatkan postur pertahanan dan strategi respons insiden serta memastikan bahwa sistem dapat bertahan dari peristiwa tidak terduga.

    Manfaat rekayasa observabilitas

    • Deteksi anomali dan pemecahan masalah yang lebih baik. Rekayasa observabilitas membantu tim menemukan dengan cepat aktivitas yang tidak biasa untuk pemecahan masalah dan debug yang lebih cepat dan menyeluruh.
    • Waktu rata-rata untuk memperbaiki (MTTR) yang lebih cepat. Rekayasa observabilitas memungkinkan tim pengembangan untuk mendeteksi dan menyelesaikan masalah dengan cepat, sehingga mengurangi MTTR secara signifikan.
    • Pengambilan keputusan berbasis data. Insight yang dapat ditindaklanjuti yang diberikan oleh alat observabilitas dapat memberdayakan tim untuk membuat keputusan yang lebih cerdas tentang arsitektur sistem, manajemen sumber daya, dan penyetelan kinerja.
    • Pengalaman pengguna yang ditingkatkan. Rekayasa observabilitas membantu pengembang mengidentifikasi secara proaktif peluang untuk peningkatan dan pengoptimalan fitur sehingga pengguna memiliki interaksi yang lancar dengan perangkat lunak dan jaringan.  
    • Peningkatan berkelanjutan. Dengan rekayasa observabilitas, tim DevOps mendapatkan pemahaman yang holistik dan mendalam tentang bagaimana kinerja kode mereka dalam produksi, yang mempercepat identifikasi bug dan memfasilitasi peningkatan berkelanjutan. 
    Solusi terkait
    Observabilitas Otomatis Keseluruhan Lapisan

    Mengidentifikasi dan memperbaiki sumber masalah dengan cepat.Data real-time dengan fidelitas tinggi menawarkan visibilitas lengkap terhadap lingkungan aplikasi dan infrastruktur yang dinamis.

    Pelajari lebih lanjut tentang Observabilitas Tumpukan Penuh
    Konsultasi AIOps

    Tingkatkan otomatisasi dan operasi TI dengan AI generatif, yang menyelaraskan setiap aspek infrastruktur TI Anda dengan prioritas bisnis.

    Pelajari lebih lanjut tentang konsultasi AIOps
    IBM SevOne Network Performance Management

    IBM SevOne Network Performance Management adalah perangkat lunak pemantauan dan analitik yang memberikan visibilitas dan wawasan real-time ke dalam jaringan yang kompleks.

    Pantau kinerja jaringan
    Ambil langkah selanjutnya

    Temukan cara AI untuk operasi TI memberikan insight yang Anda butuhkan untuk membantu mendorong kinerja bisnis yang luar biasa.

    Jelajahi solusi AIOps Pesan demo langsung
    Catatan kaki:

    1 Kumar, S. & Singh, R. (2024). Don't blame the user: Toward means for usable and practical authentication. Communications of the ACM, 67(4), 78–85. https://doi.org/10.1145/3706599.3719914

    2 Datadog. (n.d.). What Is LLM Observability & Monitoring?. Diakses 19 Mei 2025 dari https://www.datadoghq.com/knowledge center/llm-observability/.

    3 LLM-observability, GitHub. Diakses 19 Mei 2025 dari https://github.com/DataDog/llm-observability, Datadog. (n.d.).

    4 Dong, L., Lu, Q. & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

    5 LangChain. (n.d.). Datadog LLM Observability - LangChain, Langsmith .js. Diakses 19 Mei 2025 dari https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/.

    6 Optimizing LLM Accuracy, Diakses 19 Mei 2025 dari https://platform.openai.com/docs/guides/optimizing-llm-accuracy.

    7 IBM Instana Observability. Diakses 19 Mei 2025 dari https://www.ibm.com/id-id/products/instana.

    8 Memantau Agen AI. Dokumentasi IBM. Diakses 19 Mei 2025 dari https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents

    9 Zhou, Y., Yang, Y. & Zhu, Q. (2023). LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection. arXiv preprint arXiv:2307.15043. https://arxiv.org/abs/2307.15043.

    10 Vesely, K. & Lewis, M. (2024). Real-Time Monitoring and Diagnostics of Machine Learning Pipelines. Journal of Systems and Software, 185, 111136. https://doi.org/10.1016/j.jss.2023.111136