Tim rekayasa keandalan situs (SRE) dan DevOps kelelahan. Aset TI yang luas, jumlah alat yang berlebihan, dan sifat pekerjaan di mana karyawan harus selalu siap sedia, semuanya berperan dalam masalah yang menyeluruh: kelelahan peringatan.
Kelelahan peringatan (kadang-kadang disebut kelelahan alarm) mengacu pada “kondisi kelelahan mental dan operasional yang disebabkan oleh terlalu banyaknya peringatan.” Hal ini mengikis daya tanggap dan efektivitas DevOps, pusat operasi keamanan (SOC), rekayasa keandalan situs (SRE), dan tim lain yang bertanggung jawab atas kinerja dan keamanan TI, dan merupakan masalah yang meluas dan berdampak besar.
Laporan “2023 State of Threat Detection” dari Vectra (berdasarkan survei terhadap 2.000 analis keamanan TI di perusahaan dengan 1.000 karyawan atau lebih) menemukan bahwa tim SOC menanggapi rata-rata 4.484 peringatan per hari. Dari jumlah tersebut, 67% diabaikan karena tingginya volume positif palsu dan kelelahan peringatan. Laporan tersebut juga menemukan bahwa 71% analis meyakini bahwa organisasi mereka mungkin telah “disusupi tanpa sepengetahuan mereka akibat kurangnya visibilitas dan kepercayaan terhadap kemampuan deteksi ancaman.”
Sementara laporan Vectra mengambil fokus khusus keamanan, tim yang bertanggung jawab untuk memantau kinerja aplikasi dan infrastruktur menghadapi kelebihan beban yang sama. Misalnya, satu kesalahan konfigurasi dapat menyebabkan ratusan atau ribuan peringatan kinerja, “badai peringatan” yang dapat mengalihkan perhatian atau membuat tim TI tidak peka dan menyebabkan respons tertunda terhadap peringatan penting dan masalah nyata. Masalah nyata tersebut bisa jadi mahal.
Apa yang mendorong kelelahan ini dan dapatkah AI agen menjadi bagian dari solusi yang dapat diskalakan?
Buletin industri
Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.
Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Ada beberapa penyebab dan volume telemetri yang sangat besar sering disebut sebagai salah satunya, tetapi fokus pada volume data secara khusus mengaburkan masalah utama—kualitas dan konteks data.
Ketika tim berurusan dengan banyak data berkualitas rendah dan konteks yang buruk, memasukkan data dari puluhan intelijen ancaman atau umpan kinerja yang berbeda, mereka pasti akan menghadapi masalah. Ini adalah jenis lingkungan di mana positif palsu dan peringatan yang berlebihan berkembang dengan pesat dan ketidakakuratan dengan prioritas rendah mengalihkan perhatian dari ancaman nyata dan masalah kinerja. “Alarm palsu” ini dapat membosankan bagi tim TI, DevOps, dan keamanan.
Memasukkan aliran telemetri besar-besaran ini ke dalam model bahasa besar (LLM) juga bukan solusi yang praktis. Pertama, ini adalah pemborosan komputasi. Ini juga merupakan cara yang bagus untuk menghasilkan halusinasi.
Solusi praktis dimulai dengan mengembangkan alur kerja yang menyatukan data mentah dan menggabungkan data berkualitas tinggi dengan konteks mendalam ini dalam platform terpusat. Alur kerja ini dapat digunakan di platform tersebut untuk observabilitas di seluruh perusahaan dan pelatihan model AI lokal.
Perusahaan sering menggunakan banyak solusi pemantauan kinerja dan keamanan—perusahaan besar memiliki rata-rata 76 alat keamanan. Semua alat ini bisa khusus untuk tim atau produk, atau khusus untuk lingkungan TI tertentu (misalnya, solusi on premises vs solusi cloud).
Masing-masing alat ini mungkin bertanggung jawab untuk memantau puluhan atau ratusan aplikasi, antarmuka pemrograman aplikasi (API), atau server, masing-masing memasukkan data ke saluran data mereka sendiri. Dengan silo seperti itu, alat terpisah dapat menghasilkan banyak peringatan yang berasal dari masalah mendasar yang sama. Kurangnya integrasi ini membatasi visibilitas yang menghambat korelasi dan analisis akar masalah. SRE membuang waktu untuk mengejar setiap peringatan ini sebelum mengidentifikasi redundansi.
Ketika aliran data tidak diintegrasikan ke dalam sistem pemantauan yang komprehensif, tim TI tidak memiliki observabilitas di seluruh sistem yang diperlukan untuk korelasi peringatan yang efisien, analisis akar masalah, dan remediasi.
Yang lebih buruk lagi, kurangnya integrasi ini menghambat kemanjuran alat otomatisasi untuk manajemen peringatan, seperti pemrioritasan peringatan dan alur kerja korelasi, yang disiapkan untuk membantu deteksi dan resolusi serta mengurangi volume peringatan. Tim dibiarkan menghubungkan titik-titik secara manual, tugas yang sulit dan memakan waktu (bahkan nyaris mustahil).
Sebuah survei yang dikutip dalam laporan Deloitte "Pertahanan Adaptif: Peringatan Khusus untuk Ancaman Modern" menemukan bahwa "tidak adanya visibilitas atau konteks dari alat keamanan mengakibatkan 47% serangan terlewat dalam periode 12 bulan."
Meskipun tiap agen tidak selalu memerlukan sentralisasi, platform terpusat tempat data dari agen dikumpulkan akan memfasilitasi analisis di seluruh sistem, penyimpanan, dan visualisasi.
Ya... dengan strategi terfokus.
Sebuah laporan MIT baru-baru ini memicu debat dengan klaim bahwa "95% organisasi tidak mendapatkan keuntungan" atas investasi AI generatif mereka.
Mengesampingkan statistik yang provokatif ini dan aliran opini yang diminta oleh laporan ini, laporan tersebut menyoroti tema yang berharga: banyak proyek AI gagal karena "alur kerja yang rapuh, tidak ada pembelajaran kontekstual, dan ketidakselarasan dengan operasi sehari-hari." Seperti yang diamati oleh Marina Danilevsky, Senior Research Scientist di IBM pada podcast Mixture of Experts baru-baru ini, penerapan yang paling sukses adalah “terfokus, memiliki cakupan, dan mengatasi titik masalah yang tepat.”
Laporan MIT memperkuat fakta bahwa perusahaan yang memandang AI sebagai semacam obat mujarab atau sesuatu yang dapat dimasukkan secara sembarangan ke dalam suatu proses, kemungkinan tidak akan menikmati laba atas investasi mereka. Organisasi yang secara strategis dapat menerapkan alat AI ke dalam alur kerja mereka untuk memecahkan masalah tertentu dan memperkuat alat tersebut dari waktu ke waktu, memiliki kemungkinan lebih besar untuk sukses.
Solusi observabilitas atau keamanan yang dapat menggabungkan machine learning adaptif, pemrioritasan kontekstual, AI yang dapat dijelaskan, otomatisasi yang didukung AI, dan kecerdasan real-time ke dalam strategi terintegrasi dapat memungkinkan tim untuk membuat alur kerja yang lebih kuat yang membantu menghubungkan, memprioritaskan dan memperbaiki kinerja atau peringatan keamanan.
Agen AI dapat meningkatkan sistem tradisional yang mengandalkan aturan statis dan ambang batas yang telah ditetapkan dengan mempertimbangkan berbagai faktor seperti pentingnya aset, jaminan kinerja, profil risiko, dan tren historis.
Misalnya, pertimbangkan alur kerja deteksi dan remediasi pascainsiden, dan bagaimana agen AI dapat membantu tim SRE.
Sebuah notifikasi masuk ke sistem peringatan yang menandai penggunaan CPU yang tinggi pada sebuah node di klaster Kubernetes . Dalam sistem tradisional, SRE mungkin perlu menyisir data MELT (metrik, peristiwa, log, jejak) dan dependensi untuk mengidentifikasi akar masalah.
Dalam alur kerja agen hipotetis ini, agen menggunakan grafik pengetahuan dari alat observabilitas dan korelasi yang sadar topologi, untuk menarik telemetri yang hanya terkait dengan peringatan (seperti log untuk layanan yang berjalan di node itu, penerapan terbaru, telemetri dari server API Kubernetes, atau penyeimbang beban yang mengarahkan lalu lintas ke node atau klaster). Dengan informasi tambahan ini, agen dapat memperkaya peringatan mentah dan memberikan telemetri dengan konteks mendalam ke model AI lokal yang dilatih pada data kinerja dan tolok ukur perusahaan.
Agen mengecualikan informasi yang tidak relevan, seperti log untuk layanan yang tidak terkait yang kebetulan berjalan pada klaster yang sama. Selama pengumpulan konteks ini, agen juga dapat mengidentifikasi sinyal terkait dan menghubungkan peringatan yang kemungkinan berasal dari akar masalah yang sama dan mengelompokkan peringatan ini untuk diselidiki sebagai satu insiden.
Dengan informasi ini, model dapat mengusulkan hipotesis. Agen juga dapat meminta lebih banyak informasi (mungkin memeriksa konfigurasi kontainer atau data deret waktu di sekitar lonjakan penggunaan) untuk memeriksa dan menyempurnakan hipotesis model, menambahkan konteks tambahan sebelum mengusulkan kemungkinan akar masalah.
Penggunaan AI yang dapat dijelaskan dan agen adalah bagian penting dalam memecahkan masalah kepercayaan "melihat di dalam kotak hitam,” atau cara kerja internal dari alat AI.
Kecerdasan buatan yang dapat dijelaskan (XAI) “adalah serangkaian proses dan metode yang memungkinkan pengguna manusia untuk memahami dan mempercayai hasil dan output yang dibuat oleh algoritma machine learning.”
Selain kemungkinan akar masalah, agen dapat memberikan penjelasan melalui rantai pemikirannya, proses penalarannya, beserta bukti pendukung yang menunjukkan bagaimana ia sampai pada kemungkinan akar masalah yang diusulkan. Penjelasan dan bukti pendukung ini:
- Memungkinkan manusia untuk melihat mengapa sesuatu telah direkomendasikan atau difilter dengan cara tertentu
- Memberikan transparansi yang diperlukan untuk meninjau analisis dan proposal agen, dan menilai apakah proposal tersebut dapat dipercaya
Analisis SRE dan penilaian rekomendasi agen dapat dimasukkan kembali ke dalam model untuk lebih meningkatkan akurasi.
Ada beberapa jalan untuk mencapai resolusi. Tim dapat memutuskan seberapa besar otonomi yang diberikan kepada agen atau menetapkan otonomi ini berdasarkan jenis insiden, tingkat keparahan, lingkungan, atau faktor lainnya. Langkah-langkah selanjutnya meliputi:
- Validasi: Agen dapat menghasilkan langkah-langkah untuk membantu tim SRE dan DevOps memvalidasi bahwa akar masalah yang diidentifikasi benar. Hal ini membantu menjaga input manusia dalam sistem.
- Runbook: Ketika divalidasi, agen dapat membuat panduan langkah demi langkah untuk langkah remediasi (runbook). Ini adalah skrip yang dapat diikuti oleh anggota tim untuk menyelesaikan masalah.
- Skrip otomatisasi: Agen juga dapat mengambil tindakan yang disarankan dan membangun alur kerja (skrip otomatisasi). Ini dapat mengubah langkah-langkah runbook ini menjadi cuplikan playbook Ansible dengan sintaks perintah dan parameter untuk langkah-langkahnya.
- Dokumentasi: Agen dapat menghasilkan dokumentasi otomatis, seperti ulasan pascainsiden yang merangkum insiden, tindakan yang diambil, dan alasan untuk melakukannya. Seorang agen juga dapat menghasilkan ringkasan perkembangan terkini yang membantu mereka yang baru terlibat dalam tugas ini untuk memahami dengan cepat apa yang sedang terjadi. Dokumentasi ini dapat digunakan untuk pembelajaran penguatan.
Semua langkah ini membantu mengoptimalkan respons insiden dan mengurangi waktu rata-rata untuk memperbaiki. Untuk panduan video hipotesis serupa, klik di sini.
Kerangka kerja AI dapat digunakan untuk meningkatkan berbagai aspek kelelahan peringatan, seperti pemrioritasan peringatan yang dapat ditindaklanjuti di seluruh lingkungan TI.
Dalam makalah tahun 2023 berjudul "That Escalated Quickly: Sebuah kerangka kerja ML untuk Prioritas Peringatan," Gelman dkk. memperkenalkan kerangka kerja machine learning yang dirancang untuk mengurangi kelelahan peringatan dengan perubahan minimal pada alur kerja yang ada melalui sistem penilaian tingkat peringatan dan dapat ditindaklanjuti pada tingkat insiden. Dijalankan pada data dunia nyata, model TEQ mengurangi waktu respons terhadap insiden yang dapat ditindaklanjuti sebesar 22,9% dan menekan 54% positif palsu (dengan tingkat deteksi 95,1%.) Model ini juga mengurangi jumlah peringatan dalam insiden tunggal sebesar 14%.1
Dalam "Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence," Tellache dkk. mendemonstrasikan bagaimana kerangka kerja berbasis retrieval-augmented generation (RAG) dapat meningkatkan penyelesaian insiden dengan mengintegrasikan data dari sumber intelijen ancaman siber.2 Solusi serupa yang menggunakan agen untuk membangun dengan pendekatan RAG dapat digunakan untuk menambahkan konteks yang lebih besar ke data kinerja, misalnya, mengambil ambang batas kinerja yang disepakati dari perjanjian tingkat layanan (SLA) perusahaan untuk membantu memutuskan peringatan aplikasi mana yang perlu diprioritaskan.
Tim TI dapat menggunakan beberapa agen untuk meningkatkan proses peringatan, masing-masing dirancang untuk mengatasi aspek yang berbeda dari kelelahan peringatan, seperti agen triase insiden yang mengeluarkan ancaman penting untuk perhatian segera, atau agen perutean yang mengumpulkan peringatan yang diprioritaskan dan mengarahkannya ke tim yang sesuai bersama dengan dokumentasi dan analisis.
Dengan mengarahkan data ke dalam hub terpusat, perusahaan dapat membantu menghilangkan titik-titik buta dan memberikan pemahaman yang lebih komprehensif kepada agen tentang lingkungan tempat mereka beroperasi. AI paling efektif ketika bekerja dengan data dapat dipercaya berkualitas tinggi dan platform terpusat dapat membantu memastikan penerapan standar tata kelola data yang seragam. Ketika organisasi menskalakan solusi AI, platform ini memainkan peran penting untuk menjaga konsistensi dalam manajemen data dan penerapan agen di seluruh unit bisnis.
Bisakah organisasi hanya "menggunakan AI" dan membersihkan banjir peringatan? Tidak. Dapatkah model dan agen yang terlatih dengan baik membantu menggabungkan dan menganalisis telemetri dan peringatan triase untuk memberi waktu istirahat kepada tim TI? Ada banyak alasan untuk bersikap optimis.
Keberhasilan penggunaan AI dan agen untuk mengurangi kelelahan peringatan bergantung pada beberapa faktor kunci: penargetan contoh penggunaan khusus, implementasi strategis, dan kemampuan AI untuk belajar dan meningkatkan kualitas serta lingkungan yang dinamis. Pemimpin perusahaan harus memahami apa yang diperlukan, bersedia membuat perubahan budaya, dan menetapkan sumber daya yang diperlukan untuk membuat sistem ini bekerja dan menemukan vendor yang alatnya dapat disesuaikan agar sesuai dengan kebutuhan mereka.
1 “That Escalated Quickly: An ML Framework for Alert Prioritization,” Gelman, Taoufiq, Vörös, Berlin, 15 Februari 2023
2 “Advancing Autonomous Incident Response: Leveraging LLMs and Cyber Threat Intelligence,” Tellache, Korba, Mokhtari, Moldovan, Ghamri-Doudane, 14 Agustus 2025