Apa itu deteksi anomali?
Jelajahi Databand
Gambar menunjukkan sumber data yang mengarah ke layar

Diterbitkan: 12 Desember 2023
Kontributor: Joel Barnard

Apa itu deteksi anomali?

Deteksi anomali, atau deteksi pencilan, adalah identifikasi pengamatan, peristiwa, atau titik data yang menyimpang dari standar atau yang diharapkan, sehingga tidak konsisten dengan kumpulan data lainnya.

Deteksi anomali memiliki sejarah panjang dalam bidang statistik, di mana para analis dan ilmuwan akan mempelajari grafik untuk mencari elemen apa pun yang tampak tidak normal. Saat ini, deteksi anomali memanfaatkan kecerdasan buatan (AI) dan pembelajaran mesin (ML) untuk secara otomatis mengidentifikasi perubahan yang tidak terduga dalam perilaku normal kumpulan data.

Data anomali dapat menandakan insiden kritis yang terjadi di bawah tenda, seperti kegagalan infrastruktur, perubahan besar dari sumber hulu atau ancaman keamanan. Anomali juga dapat menyoroti peluang untuk optimasi arsitektur atau meningkatkan strategi pemasaran.

Deteksi anomali memiliki berbagai kasus penggunaan di berbagai industri. Misalnya, digunakan di bidang keuangan untuk mendeteksi penipuan, di bidang manufaktur untuk mengidentifikasi cacat atau kerusakan peralatan, di bidang keamanan siber untuk mendeteksi aktivitas jaringan yang tidak biasa, dan di bidang perawatan kesehatan untuk mengidentifikasi kondisi pasien yang tidak normal.

Deteksi outlier bisa jadi menantang karena anomali sering kali jarang terjadi, dan karakteristik perilaku normal dapat menjadi kompleks dan dinamis. Dari perspektif bisnis, penting untuk mengidentifikasi anomali yang sebenarnya, bukannya positif palsu atau gangguan data.

Pesan demo IBM Databand hari ini

Lihat cara observabilitas data proaktif dapat membantu Anda mendeteksi insiden data lebih awal dan menyelesaikannya dengan lebih cepat.

Konten terkait

Berlangganan buletin IBM

Mengapa deteksi anomali itu penting?

Anomali data dapat memiliki dampak yang signifikan dalam bidang ilmu data, yang mengarah kepada kesimpulan yang salah atau menyesatkan. Sebagai contoh, satu outlier dapat secara signifikan mengubah rata-rata dari kumpulan data, menjadikannya representasi data yang tidak akurat. Selain itu, anomali data dapat memengaruhi kinerja algoritma machine learning, karena dapat menyebabkan model lebih sesuai dengan gangguan daripada pola yang mendasari data.

Mengidentifikasi dan menangani anomali data sangat penting untuk beberapa alasan: 

Peningkatan kualitas data: Mengidentifikasi dan menangani anomali data dapat secara signifikan meningkatkan kualitas data, yang sangat penting untuk analisis data yang akurat dan andal. Dengan menangani anomali data, analis dapat mengurangi kebisingan dan kesalahan dalam kumpulan data, memastikan bahwa data tersebut lebih mewakili pola yang sebenarnya.

Pengambilan keputusan yang lebih baik: Pengambilan keputusan berbasis data bergantung pada analisis data yang akurat dan dapat diandalkan untuk menginformasikan keputusan. Dengan mengidentifikasi dan menangani anomali data, analis dapat memastikan bahwa temuan mereka lebih dapat dipercaya, sehingga menghasilkan keputusan yang lebih tepat dan hasil yang lebih baik.

Kinerja pembelajaran mesin yang dioptimalkan: Anomali data dapat berdampak signifikan terhadap kinerja algoritme pembelajaran mesin, karena dapat menyebabkan model lebih sesuai dengan noise daripada pola yang mendasari data. Dengan mengidentifikasi dan menangani anomali data, analis dapat mengoptimalkan kinerja model pembelajaran mesin mereka, memastikan bahwa model tersebut memberikan prediksi yang akurat dan andal.

Jenis-jenis anomali

Jenis anomali data yang dapat diungkap oleh sistem pendeteksi anomali terbagi dalam salah satu dari dua jenis umum: tidak disengaja dan disengaja.

Anomali yang tidak disengaja adalah titik data yang menyimpang dari norma karena kesalahan atau noise dalam proses pengumpulan data. Kesalahan ini dapat bersifat sistematis atau acak, yang berasal dari masalah seperti sensor yang rusak atau kesalahan manusia selama entri data. Anomali yang tidak disengaja dapat mendistorsi kumpulan data, sehingga sulit untuk mendapatkan wawasan yang akurat.

Di sisi lain, anomali yang disengaja adalah titik data yang menyimpang dari norma karena tindakan atau peristiwa tertentu. Anomali ini dapat memberikan wawasan yang berharga ke dalam kumpulan data, karena dapat menyoroti kejadian atau tren yang unik.

Sebagai contoh, lonjakan penjualan yang tiba-tiba selama musim liburan dapat dianggap sebagai anomali yang disengaja, karena hal ini menyimpang dari pola penjualan pada umumnya, namun diperkirakan terjadi karena suatu peristiwa di dunia nyata.

Dalam hal data bisnis, ada tiga anomali data deret waktu utama: anomali titik, anomali kontekstual, dan anomali kolektif.

Anomali titik, juga dikenal sebagai pencilan global, adalah titik data individual yang berada jauh di luar kumpulan data lainnya. Anomali ini dapat disengaja atau tidak disengaja dan dapat disebabkan oleh kesalahan, gangguan, atau kejadian unik.

Contoh anomali poin adalah penarikan rekening bank yang secara signifikan lebih besar daripada penarikan pengguna sebelumnya.   

Anomali kontekstual adalah titik data yang menyimpang dari norma dalam konteks tertentu. Anomali ini tidak selalu merupakan outlier ketika dipertimbangkan secara terpisah, tetapi menjadi anomali ketika dilihat dalam konteks spesifiknya.

Misalnya, pertimbangkan penggunaan energi rumah. Jika terjadi peningkatan konsumsi energi secara tiba-tiba pada tengah hari ketika tidak ada anggota keluarga yang berada di rumah, maka anomali tersebut bersifat kontekstual. Titik data ini mungkin bukan pencilan jika dibandingkan dengan penggunaan energi di pagi atau sore hari (saat orang biasanya berada di rumah), tetapi ini adalah anomali dalam konteks waktu terjadinya.

Anomali kolektif melibatkan sekumpulan contoh data yang secara bersama-sama menyimpang dari norma, meskipun contoh individu mungkin tampak normal.

Contoh dari jenis anomali ini adalah kumpulan data lalu lintas jaringan yang menunjukkan lonjakan lalu lintas yang tiba-tiba dari beberapa alamat IP pada saat yang bersamaan.

Metode deteksi anomali

Menggunakan sistem pendeteksi anomali untuk mendeteksi anomali data merupakan aspek penting dalam analisis data, untuk memastikan bahwa temuannya akurat dan dapat diandalkan. Berbagai metode deteksi anomali dapat digunakan dalam membangun sistem deteksi anomali:

Visualisasi adalah alat yang ampuh untuk mendeteksi anomali data, karena memungkinkan ilmuwan data untuk dengan cepat mengidentifikasi potensi pencilan dan pola dalam data. Dengan memplot data menggunakan bagan dan grafik, analis dapat memeriksa kumpulan data secara visual untuk mengetahui adanya titik data atau tren yang tidak biasa.

Uji statistik dapat digunakan oleh ilmuwan data untuk mendeteksi anomali data dengan membandingkan data yang diamati dengan distribusi atau pola yang diharapkan.

Sebagai contoh, uji Grubbs dapat digunakan untuk mengidentifikasi outlier dalam kumpulan data dengan membandingkan setiap titik data dengan rata-rata dan standar deviasi data. Demikian pula, uji Kolmogorov-Smirnov dapat digunakan untuk menentukan apakah kumpulan data mengikuti distribusi tertentu, seperti distribusi normal.

Algoritma machine learning dapat digunakan untuk mendeteksi anomali data dengan mempelajari pola yang mendasari data dan kemudian mengidentifikasi penyimpangan dari polatersebut. Beberapa algoritma pendeteksian anomali ML yang paling umum meliputi:

  • Pohon keputusan: Salah satu jenis pohon keputusan, Isolation Forest, adalah sebuah metode pembelajaran ensembel yang mengisolasi anomali dengan memilih fitur secara acak dan kemudian secara acak memilih nilai split antara nilai maksimum dan minimum dari fitur yang dipilih.

  • One-Class Support Vector Machine (SVM): One-Class SVM adalah metode algoritme klasifikasi yang dilatih hanya pada contoh "normal", yang bertujuan untuk membuat batasan yang mencakup data normal. Kejadian yang berada di luar batas ini dianggap sebagai anomali.

  • k-Nearest Neighbors (k-NN): k-NN adalah algoritme sederhana yang mengklasifikasikan sebuah titik data berdasarkan kelas mayoritas dari k tetangga terdekatnya. Instans yang memiliki tetangga yang jauh lebih sedikit dari kelas yang sama dapat dianggap sebagai anomali.

  • Naive Bayesian: Metode ini bekerja dengan menentukan probabilitas bahwa suatu peristiwa akan terjadi berdasarkan keberadaan faktor-faktor yang berkontribusi dan mendeteksi hubungan dengan akar penyebab yang sama.

  • Autoencoder: Jenis jaringan neural yang menggunakan data berstempel waktu untuk meramalkan pola data dan mengidentifikasi kelainan yang tidak selaras dengan data historis. 

  • Faktor Pencilan Lokal (LOF): LOF adalah algoritme berbasis kepadatan yang mengukur deviasi kepadatan lokal dari suatu titik data sehubungan dengan tetangganya. Poin dengan kepadatan yang jauh lebih rendah dibandingkan dengan tetangga mereka dianggap outlier.

  • k-means clustering: k-means adalah teknik pengelompokan yang menganalisis jarak rata-rata dari titik-titik data yang tidak diberi label dan kemudian membantu mengelompokkan titik-titik data tersebut ke dalam kelompok-kelompok tertentu. 
Teknik deteksi anomali

Algoritma deteksi anomali dapat belajar mengidentifikasi pola dan mendeteksi data anomali menggunakan berbagai teknik pelatihan pembelajaran mesin. Jumlah data berlabel, jika ada, dalam kumpulan data pelatihan tim data menentukan teknik deteksi anomali utama mana yang akan mereka gunakan-tanpa pengawasan, dengan pengawasan, atau semi-pengawasan.

Dengan teknik deteksi anomali tanpa pengawasan, para insinyur data melatih sebuah model dengan menyediakan set data tanpa label yang digunakannya untuk menemukan pola atau ketidaknormalan dengan sendirinya. Meskipun teknik ini adalah yang paling umum digunakan karena aplikasinya yang lebih luas dan relevan, teknik ini membutuhkan kumpulan data yang sangat besar dan daya komputasi. Pembelajaran mesin tanpa pengawasan paling sering ditemukan dalam skenario pembelajaran mendalam, yang mengandalkan jaringan neural tiruan.

Teknik deteksi anomali yang diawasi menggunakan algoritme yang dilatih pada kumpulan data berlabel yang mencakup instans normal dan anomali. Karena tidak tersedianya data pelatihan berlabel secara umum dan sifat kelas yang tidak seimbang yang melekat, teknik deteksi anomali ini jarang digunakan. 

Teknik semi-pengawasan memaksimalkan atribut positif dari deteksi anomali tak terawasi dan deteksi anomali terawasi. Dengan menyediakan algoritma dengan sebagian data berlabel, algoritma ini dapat dilatih secara parsial. Insinyur data kemudian menggunakan algoritme yang telah dilatih sebagian untuk memberi label pada kumpulan data yang lebih besar secara mandiri, yang disebut sebagai "pelabelan semu." Dengan asumsi bahwa mereka terbukti dapat diandalkan, titik data yang baru dilabeli ini digabungkan dengan kumpulan data asli untuk menyempurnakan algoritme.

Menemukan kombinasi yang tepat antara pembelajaran mesin yang diawasi dan tidak diawasi sangat penting untuk otomatisasi pembelajaran mesin. Idealnya, sebagian besar klasifikasi data akan dilakukan tanpa interaksi manusia dengan cara yang tidak diawasi. Meskipun demikian, insinyur data harus tetap dapat memberi makan algoritme dengan data pelatihan yang akan membantu menciptakan garis dasar bisnis seperti biasa. Pendekatan semi-pengawasan memungkinkan deteksi anomali berskala dengan fleksibilitas untuk membuat aturan manual mengenai anomali tertentu.

Contoh penggunaan deteksi anomali

Model deteksi anomali digunakan secara luas di industri perbankan, asuransi dan perdagangan saham untuk mengidentifikasi aktivitas penipuan secara real time, seperti transaksi yang tidak sah, pencucian uang, penipuan kartu kredit, klaim pengembalian pajak palsu dan pola perdagangan yang tidak normal.

Dalam keamanan siber, Intrusion Detection System (IDS) menggunakan deteksi anomali untuk membantu mengidentifikasi aktivitas yang tidak biasa atau mencurigakan dalam lalu lintas jaringan, yang mengindikasikan potensi ancaman keamanan atau serangan seperti infeksi malware atau akses tidak sah.

Teknologi ini digunakan dalam industri perawatan kesehatan untuk mengidentifikasi kondisi pasien yang tidak biasa atau anomali dalam data medis, membantu mendeteksi penyakit, memantau kesehatan pasien, dan merawat pasien dengan lebih efektif.

Di bidang manufaktur, algoritme pendeteksi anomali, bersama dengan visi komputer, digunakan untuk mengidentifikasi cacat pada produk atau kemasan dengan menganalisis rekaman kamera beresolusi tinggi, data sensor, dan metrik produksi.

Solusi ini digunakan untuk memantau kinerja sistem TI dan menjaga operasi berjalan lancar dengan mengidentifikasi pola yang tidak biasa dalam log server dan merekonstruksi kesalahan dari pola dan pengalaman masa lalu untuk memprediksi potensi masalah atau kegagalan.

Deteksi anomali membantu dalam memprediksi kegagalan peralatan atau kebutuhan pemeliharaan di industri seperti penerbangan, energi, dan transportasi. Sensor bertenaga IoT digunakan untuk mengumpulkan data dari peralatan industri, mengidentifikasi penyimpangan, dan memprediksi kegagalan di masa depan.

Alat ini digunakan untuk memantau pola konsumsi energi dan mengidentifikasi anomali dalam penggunaan, yang dapat mengarah pada manajemen energi yang lebih efisien dan deteksi dini kegagalan peralatan.

Dalam e-commerce, deteksi anomali diterapkan untuk mengidentifikasi aktivitas penipuan, seperti ulasan palsu, pengambilalihan akun, atau perilaku pembelian yang tidak normal.

Bisnis juga menggunakan model deteksi anomali untuk mengidentifikasi pola yang tidak biasa dalam perilaku pelanggan, membantu deteksi penipuan, memprediksi churn pelanggan dan meningkatkan strategi pemasaran.

Produk terkait
IBM Databand

IBM® Databand® adalah perangkat lunak observabilitas untuk pipeline dan data gudang yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan memberikan peringatan triase untuk memperbaiki masalah kualitas data.

Jelajahi Databand

IBM DataStage

Mendukung pola ETL dan ELT, IBM® DataStage® memberikan integrasi data yang fleksibel dan hampir real-time baik on premises maupun di cloud.

Jelajahi DataStage

Katalog Pengetahuan IBM

Katalog data cerdas untuk era AI, Katalog Pengetahuan IBM® memungkinkan Anda mengakses, mengkurasi, mengategorikan, dan membagikan data, aset pengetahuan, dan hubungannya, di mana pun mereka berada.

Jelajahi Katalog Pengetahuan
Sumber daya Menggunakan deteksi anomali Databand untuk memenuhi tenggat waktu pengiriman data

Dalam artikel ini, pelajari bagaimana Deteksi Anomali Databand membantu tim data mengidentifikasi masalah pipeline data dengan lebih cepat sehingga mereka dapat melakukan pekerjaan yang lebih baik dalam memenuhi SLA data yang telah mereka tetapkan.

Pembelajaran yang diawasi versus tanpa pengawasan

Jelajahi dasar-dasar dari dua pendekatan sains data: diawasi dan tidak diawasi. Cari tahu pendekatan mana yang tepat untuk situasi Anda.

Cara memastikan kualitas, nilai, dan keandalan data

Memastikan data berkualitas tinggi adalah tanggung jawab teknisi data dan seluruh organisasi. Artikel ini menjelaskan pentingnya kualitas data, cara mengaudit dan memantau data Anda, serta cara mendapatkan dukungan dari para pemangku kepentingan.

Ambil langkah selanjutnya

Terapkan observabilitas data proaktif dengan IBM Databand hari ini sehingga Anda dapat mengetahui kapan ada masalah kesehatan data sebelum pengguna Anda melakukannya.

Jelajahi Databand