Apa itu deteksi anomali?

Deteksi anomali, atau deteksi outlier, adalah identifikasi pengamatan, peristiwa, atau titik data yang menyimpang dari standar atau yang diharapkan, sehingga tidak konsisten dengan kumpulan data lainnya.

Deteksi anomali memiliki sejarah panjang dalam bidang statistik, di mana para analis dan ilmuwan akan mempelajari grafik untuk mencari elemen apa pun yang tampak tidak normal. Saat ini, deteksi anomali memanfaatkan kecerdasan buatan (AI) dan pembelajaran mesin (ML) untuk secara otomatis mengidentifikasi perubahan yang tidak terduga dalam perilaku normal kumpulan data.

Data anomali dapat menandakan insiden kritis yang terjadi di bawah tenda, seperti kegagalan infrastruktur, perubahan besar dari sumber hulu atau ancaman keamanan. Anomali juga dapat menyoroti peluang untuk optimasi arsitektur atau meningkatkan strategi pemasaran.

Deteksi anomali memiliki berbagai kasus penggunaan di berbagai industri. Misalnya, digunakan di bidang keuangan untuk mendeteksi penipuan, di bidang manufaktur untuk mengidentifikasi cacat atau kerusakan peralatan, di bidang keamanan siber untuk mendeteksi aktivitas jaringan yang tidak biasa, dan di bidang perawatan kesehatan untuk mengidentifikasi kondisi pasien yang tidak normal.

Deteksi outlier bisa jadi menantang karena anomali sering kali jarang terjadi, dan karakteristik perilaku normal dapat menjadi kompleks dan dinamis. Dari perspektif bisnis, penting untuk mengidentifikasi anomali yang sebenarnya, bukannya positif palsu atau gangguan data.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Mengapa deteksi anomali penting?

Anomali data dapat memiliki dampak yang signifikan dalam bidang ilmu data, yang mengarah kepada kesimpulan yang salah atau menyesatkan. Sebagai contoh, satu outlier dapat secara signifikan mengubah rata-rata dari kumpulan data, menjadikannya representasi data yang tidak akurat. Selain itu, anomali data dapat memengaruhi kinerja algoritma machine learning, karena dapat menyebabkan model lebih sesuai dengan gangguan daripada pola yang mendasari data.

Mengidentifikasi dan menangani anomali data sangat penting untuk beberapa alasan:

Peningkatan kualitas data: Mengidentifikasi dan menangani anomali data dapat secara signifikan meningkatkan kualitas data, yang sangat penting untuk analisis data yang akurat dan andal. Dengan menangani anomali data, analis dapat mengurangi kebisingan dan kesalahan dalam kumpulan data, memastikan bahwa data tersebut lebih mewakili pola yang sebenarnya.

Pengambilan keputusan yang lebih baik: Pengambilan keputusan berbasis data bergantung pada analisis data yang akurat dan dapat diandalkan untuk menginformasikan keputusan. Dengan mengidentifikasi dan menangani anomali data, analis dapat memastikan bahwa temuan mereka lebih dapat dipercaya, sehingga menghasilkan keputusan yang lebih tepat dan hasil yang lebih baik.

Kinerja machine learning yang dioptimalkan: Anomali data dapat berdampak signifikan terhadap kinerja algoritma machine learning, karena dapat menyebabkan model lebih sesuai dengan noise daripada pola yang mendasari data. Dengan mengidentifikasi dan menangani anomali data, analis dapat mengoptimalkan kinerja model machine learning mereka, memastikan bahwa model tersebut memberikan prediksi yang akurat dan andal.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Jenis-jenis anomali

Sistem deteksi anomali dapat mengungkap dua jenis umum anomali: tidak disengaja dan disengaja.

Anomali yang tidak disengaja adalah titik data yang menyimpang dari norma karena kesalahan atau noise dalam proses pengumpulan data. Kesalahan ini dapat bersifat sistematis atau acak, yang berasal dari masalah seperti sensor yang rusak atau kesalahan manusia selama entri data. Anomali yang tidak disengaja dapat mendistorsi kumpulan data, sehingga sulit untuk mendapatkan wawasan yang akurat.

Anomali yang disengaja adalah titik data yang menyimpang dari norma karena tindakan atau peristiwa tertentu. Anomali ini dapat memberikan insight yang berharga ke dalam kumpulan data, karena dapat menyoroti kejadian atau tren yang unik. Sebagai contoh, lonjakan penjualan yang tiba-tiba selama musim liburan dapat dianggap sebagai anomali yang disengaja, karena hal ini menyimpang dari pola penjualan pada umumnya, namun diperkirakan terjadi karena suatu peristiwa di dunia nyata.

Anomali data deret waktu

Dalam data bisnis, ada tiga anomali data deret waktu utama: anomali titik, anomali kontekstual, dan anomali kolektif.

Anomali titik, juga dikenal sebagai outlier global, adalah titik data tunggal yang berada jauh di luar pola kumpulan data lainnya. Anomali bisa disengaja maupun tidak, dan dapat muncul akibat kesalahan, kebisingan, atau peristiwa yang bersifat unik. Contoh anomali poin adalah penarikan rekening bank yang secara signifikan lebih besar daripada penarikan pengguna sebelumnya.

Anomali kontekstual adalah titik data yang menyimpang dari norma dalam konteks tertentu. Anomali ini tidak selalu merupakan outlier ketika dipertimbangkan secara terpisah tetapi menjadi anomali jika dilihat dalam konteks spesifiknya.

Misalnya, pertimbangkan penggunaan energi rumah. Jika terjadi peningkatan konsumsi energi secara tiba-tiba pada tengah hari ketika tidak ada anggota keluarga yang berada di rumah, maka anomali tersebut bersifat kontekstual. Titik data ini mungkin bukan pencilan jika dibandingkan dengan penggunaan energi di pagi atau sore hari (saat orang biasanya berada di rumah), tetapi ini adalah anomali dalam konteks waktu terjadinya.

Anomali kolektif melibatkan sekumpulan contoh data yang secara bersama-sama menyimpang dari norma, meskipun contoh individu mungkin tampak normal. Contoh dari jenis anomali ini adalah kumpulan data lalu lintas jaringan yang menunjukkan lonjakan lalu lintas yang tiba-tiba dari beberapa alamat IP pada saat yang bersamaan.

Metode deteksi anomali

Menggunakan sistem pendeteksi anomali untuk mendeteksi anomali data merupakan aspek penting dalam analisis data, untuk memastikan bahwa temuannya akurat dan dapat diandalkan. Berbagai metode deteksi anomali dapat digunakan dalam membangun sistem deteksi anomali.

Visualisasi

Visualisasi adalah alat yang ampuh untuk mendeteksi anomali data, karena memungkinkan ilmuwan data untuk dengan cepat mengidentifikasi potensi outlier dan pola dalam data. Dengan memplot data menggunakan bagan dan grafik, analis dapat memeriksa kumpulan data secara visual untuk setiap titik data atau tren yang tidak biasa.

Tes statistik

Uji statistik dapat digunakan oleh ilmuwan data untuk mendeteksi anomali data dengan membandingkan data yang diamati dengan distribusi atau pola yang diharapkan.

Sebagai contoh, uji Grubbs dapat digunakan untuk mengidentifikasi outlier dalam kumpulan data dengan membandingkan setiap titik data dengan rata-rata dan standar deviasi data. Demikian pula, uji Kolmogorov-Smirnov dapat digunakan untuk menentukan apakah kumpulan data mengikuti distribusi tertentu, seperti distribusi normal.

Algoritma machine learning

Algoritma machine learning dapat digunakan untuk deteksi anomali data dengan mempelajari pola yang mendasarinya dalam data dan kemudian mengidentifikasi penyimpangan dari pola itu. Beberapa algoritma deteksi anomali ML yang paling umum meliputi:

Struktur keputusan: Salah satu jenis struktur keputusan, Isolation Forest, adalah sebuah metode pembelajaran ensembel yang mengisolasi anomali dengan memilih fitur secara acak dan kemudian secara acak memilih nilai split antara nilai maksimum dan minimum dari fitur yang dipilih.
One-Class Support Vector Machine (SVM): One-Class SVM adalah metode algoritma klasifikasi yang dilatih hanya pada contoh "normal", yang bertujuan untuk membuat batasan yang mencakup data normal. Kejadian yang berada di luar batas ini dianggap sebagai anomali.
k-Nearest Neighbors (k-NN): k-NN adalah algoritma sederhana yang mengklasifikasikan sebuah titik data berdasarkan kelas mayoritas dari k tetangga terdekatnya. Instans yang memiliki tetangga yang jauh lebih sedikit dari kelas yang sama dapat dianggap sebagai anomali.
Naive Bayesian: Metode ini bekerja dengan menentukan probabilitas bahwa suatu peristiwa akan terjadi berdasarkan keberadaan faktor-faktor yang berkontribusi dan mendeteksi hubungan dengan akar masalah yang sama.
Autoencoder: Jenis neural networks yang menggunakan data berstempel waktu untuk memperirakan pola data dan mengidentifikasi kelainan yang tidak selaras dengan data historis.
Faktor Outlier Lokal (LOF): LOF adalah algoritma berbasis kepadatan yang mengukur deviasi kepadatan lokal dari suatu titik data sehubungan dengan tetangganya. Poin dengan kepadatan yang jauh lebih rendah dibandingkan dengan tetangga mereka dianggap outlier.
Pengelompokan k-means: k-means adalah teknik pengelompokan yang menganalisis jarak rata-rata dari titik-titik data yang tidak diberi label dan kemudian membantu mengelompokkan titik-titik data tersebut ke dalam kelompok-kelompok tertentu.

Teknik deteksi anomali

Algoritma deteksi anomali dapat belajar mengidentifikasi pola dan mendeteksi data anomali menggunakan berbagai teknik pelatihan pembelajaran mesin. Jumlah data berlabel, jika ada, dalam kumpulan data pelatihan tim data menentukan teknik deteksi anomali utama mana yang akan mereka gunakan-tanpa pengawasan, dengan pengawasan, atau semi-pengawasan.

Deteksi anomali tanpa pengawasan

Dengan teknik deteksi anomali tanpa pengawasan, para insinyur data melatih sebuah model dengan menyediakan set data tanpa label yang digunakannya untuk menemukan pola atau ketidaknormalan dengan sendirinya. Meskipun teknik ini adalah yang paling umum digunakan karena aplikasinya yang lebih luas dan relevan, teknik ini membutuhkan kumpulan data yang sangat besar dan daya komputasi. Machine learning tanpa pengawasan paling sering ditemukan dalam pembelajaran mendalam skenario, yang mengandalkan neural networks tiruan.

Deteksi anomali yang diawasi

Teknik deteksi anomali yang diawasi menggunakan algoritma yang dilatih pada kumpulan data berlabel yang mencakup instans normal dan anomali. Karena tidak tersedianya data pelatihan berlabel secara umum dan sifat kelas yang tidak seimbang yang melekat, teknik deteksi anomali ini jarang digunakan.

Deteksi anomali semi-terawasi

Teknik semi-pengawasan memaksimalkan atribut positif dari deteksi anomali tak terawasi dan deteksi anomali terawasi. Dengan menyediakan algoritma dengan sebagian data berlabel, algoritma ini dapat dilatih secara parsial. Insinyur data kemudian menggunakan algoritma yang telah dilatih sebagian untuk memberi label pada kumpulan data yang lebih besar secara mandiri, yang disebut sebagai “pelabelan semu.” Dengan asumsi bahwa mereka terbukti dapat diandalkan, titik data yang baru dilabeli ini digabungkan dengan kumpulan data asli untuk menyempurnakan algoritma.

Menemukan kombinasi yang tepat antara pembelajaran mesin yang diawasi dan tidak diawasi sangat penting untuk otomatisasi pembelajaran mesin. Idealnya, sebagian besar klasifikasi data akan dilakukan tanpa interaksi manusia dengan cara yang tidak diawasi. Meskipun demikian, insinyur data harus tetap dapat memberi makan algoritme dengan data pelatihan yang akan membantu menciptakan garis dasar bisnis seperti biasa. Pendekatan semi-pengawasan memungkinkan deteksi anomali berskala dengan fleksibilitas untuk membuat aturan manual mengenai anomali tertentu.

Contoh penggunaan deteksi anomali

Deteksi penipuan

Model deteksi anomali digunakan secara luas di industri perbankan, asuransi dan perdagangan saham untuk mengidentifikasi aktivitas penipuan secara real time, seperti transaksi yang tidak sah, pencucian uang, penipuan kartu kredit, klaim pengembalian pajak palsu dan pola perdagangan yang tidak normal.

Cyber security

Sistem deteksi intrusi (IDS) dan teknologi keamanan siber lainnya menggunakan deteksi anomali untuk mengidentifikasi aktivitas pengguna atau pola lalu lintas jaringan yang tidak biasa atau mencurigakan, yang dapat mengindikasikan ancaman keamanan seperti infeksi malware atau akses tidak sah.

Manufaktur dan kontrol kualitas

Algoritma deteksi anomali sering digunakan bersama visi komputer untuk mengidentifikasi cacat pada produk atau kemasan dengan menganalisis rekaman kamera beresolusi tinggi, data sensor, dan metrik produksi.

Manajemen sistem TI

Deteksi anomali digunakan untuk memantau kinerja sistem TI dan menjaga operasi berjalan lancar dengan mengidentifikasi pola yang tidak biasa dalam log server dan merekonstruksi kesalahan dari pola dan pengalaman masa lalu untuk memprediksi potensi masalah atau kegagalan.

Energi, transportasi, dan infrastruktur penting

Dengan mendeteksi penyimpangan pada data dari sensor Internet of Things (IoT) dan perangkat teknologi operasi (OT), deteksi anomali dapat membantu memprediksi kegagalan peralatan atau kebutuhan pemeliharaan di industri seperti penerbangan, energi, dan transportasi. Ketika digunakan untuk memantau pola konsumsi energi dan mengidentifikasi anomali dalam penggunaan, deteksi anomali dapat mengarah pada manajemen energi yang lebih efisien dan deteksi dini kegagalan peralatan.

Retail dan ecommerce

Pedagang juga menggunakan model deteksi anomali untuk mengidentifikasi pola yang tidak biasa dalam perilaku pelanggan, membantu deteksi penipuan, memprediksi churn pelanggan dan meningkatkan strategi pemasaran. Dalam e-commerce, deteksi anomali digunakan untuk mengidentifikasi ulasan palsu, pengambilalihan akun, perilaku pembelian yang tidak normal, serta indikasi penipuan atau kejahatan siber lainnya.

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu deteksi anomali?