Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Seiring organisasi mengumpulkan kumpulan data yang lebih besar dengan insight potensial ke dalam aktivitas bisnis, deteksi data anomali, atau outlier dalam kumpulan data ini, sangat penting untuk menemukan ketidakefisienan, kejadian langka, akar masalah, atau peluang untuk perbaikan operasional. Namun, apa itu anomali dan mengapa penting untuk mendeteksinya?
Jenis anomali bervariasi menurut perusahaan dan fungsi bisnis. Deteksi anomali berarti mendefinisikan pola dan metrik “normal”— berdasarkan fungsi dan tujuan bisnis—dan mengidentifikasi titik data yang berada di luar perilaku normal operasi. Misalnya, lalu lintas yang lebih tinggi dari rata-rata di situs web atau aplikasi untuk periode tertentu dapat menandakan ancaman keamanan siber, dalam hal ini Anda menginginkan sistem yang dapat secara otomatis memicu peringatan deteksi penipuan. Ini juga bisa menjadi tanda bahwa inisiatif pemasaran tertentu berhasil. Anomali tidak selalu buruk, tetapi menyadari keberadaannya, dan memiliki data untuk menempatkannya dalam konteks, merupakan bagian integral untuk memahami dan melindungi bisnis Anda.
Tantangan bagi departemen TI yang bekerja di bidang ilmu data adalah memahami perluasan dan titik data yang selalu berubah. Dalam blog ini, kita akan membahas bagaimana teknik machine learning, yang didukung oleh kecerdasan buatan, dimanfaatkan untuk mendeteksi perilaku anomali melalui tiga metode deteksi anomali yang berbeda: deteksi anomali yang diawasi, deteksi anomali yang tidak diawasi, dan deteksi anomali yang semi-diawasi.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Teknik pembelajaran yang diawasi menggunakan data input dan output dunia nyata untuk mendeteksi anomali. Jenis sistem deteksi anomali ini membutuhkan analis data untuk memberi label pada titik data sebagai normal atau tidak normal untuk digunakan sebagai data pelatihan. Model machine learning yang dilatih dengan data berlabel akan dapat mendeteksi outlier berdasarkan contoh yang diberikan. Jenis machine learning ini berguna dalam deteksi outlier yang diketahui, tetapi tidak mampu menemukan anomali yang tidak diketahui atau memprediksi masalah di masa depan.
Algoritma machine learning yang umum untuk pembelajaran yang diawasi meliputi:
Teknik pembelajaran tanpa pengawasan tidak memerlukan data berlabel dan dapat menangani kumpulan data yang lebih kompleks. Pembelajaran tanpa pengawasan didukung oleh pembelajaran mendalam dan neural networks atau encoder otomatis yang meniru cara neuron biologis saling memberi sinyal. Alat yang ampuh ini dapat menemukan pola dari data input dan membuat asumsi tentang data apa yang dianggap normal.
Teknik-teknik ini bisa sangat membantu dalam menemukan anomali yang tidak diketahui dan mengurangi pekerjaan memilah-milah kumpulan data yang besar secara manual. Namun, ilmuwan data harus memantau hasil yang dikumpulkan melalui pembelajaran tanpa pengawasan. Karena teknik-teknik ini membuat asumsi tentang data yang dimasukkan, ada kemungkinan teknik-teknik ini salah memberi label pada anomali.
Algoritma machine learning untuk data tidak terstruktur meliputi:
K-means: Algoritma ini merupakan teknik visualisasi data yang memproses titik data melalui persamaan matematis dengan tujuan mengelompokkan titik data yang serupa. "Means", atau data rata-rata, mengacu pada titik-titik di tengah kluster yang terkait dengan semua data lainnya. Melalui analisis data, kluster ini dapat digunakan untuk menemukan pola dan membuat kesimpulan tentang data yang ditemukan di luar kebiasaan.
Isolation forest: Jenis algoritma deteksi anomali ini menggunakan data tanpa pengawasan. Tidak seperti teknik deteksi anomali diawasi yang bekerja dari titik data normal berlabel, teknik ini mencoba mengisolasi anomali sebagai langkah pertama. Mirip dengan “random forest,” algoritma ini menciptakan “struktur keputusan” yang memetakan titik-titik data dan secara acak memilih area untuk dianalisis. Proses ini diulang dan setiap titik menerima skor anomali antara 0 dan 1, berdasarkan lokasinya terhadap titik lainnya; nilai di bawah 0,5 umumnya dianggap normal, sedangkan nilai yang melebihi ambang batas tersebut kemungkinan besar bersifat anomali. Model forest isolation dapat ditemukan di pustaka machine learning gratis untuk Python, scikit-learn.
Mesin vektor pendukung satu kelas (SVM): Teknik deteksi anomali ini menggunakan data pelatihan untuk membuat batas-batas di sekitar apa yang dianggap normal. Titik-titik yang berkerumun dalam batas yang ditetapkan dianggap normal dan yang di luar diberi label sebagai anomali.
Metode deteksi anomali semi-diawasi menggabungkan manfaat dari dua metode sebelumnya. Insinyur dapat menerapkan metode pembelajaran tanpa pengawasan untuk mengotomatiskan pembelajaran fitur dan bekerja dengan data yang tidak terstruktur. Namun, dengan menggabungkannya dengan pengawasan manusia, mereka memiliki kesempatan untuk memantau dan mengontrol pola seperti apa yang dipelajari oleh model tersebut. Ini biasanya membantu membuat prediksi model lebih akurat.
Regresi linear: Alat machine learning prediktif ini menggunakan variabel dependen dan independen. Variabel independen digunakan sebagai dasar untuk menentukan nilai variabel dependen melalui serangkaian persamaan statistik. Persamaan ini menggunakan data berlabel dan tidak berlabel untuk memprediksi hasil di masa mendatang ketika hanya sebagian informasi yang diketahui.
Deteksi anomali adalah alat penting untuk mempertahankan fungsi bisnis di berbagai industri. Penggunaan algoritma pembelajaran yang diawasi, tidak diawasi, dan semi-diawasi akan bergantung pada jenis data yang dikumpulkan dan tantangan operasional yang sedang dipecahkan. Contoh penggunaan deteksi anomali meliputi:
Menggunakan data berlabel dari total penjualan tahun sebelumnya dapat membantu memprediksi sasaran penjualan di masa depan. Hal ini juga dapat membantu menetapkan tolok ukur untuk karyawan penjualan tertentu berdasarkan kinerja mereka di masa lalu dan kebutuhan perusahaan secara keseluruhan. Karena semua data penjualan diketahui, pola dapat dianalisis untuk mendapatkan insight tentang produk, pemasaran, dan musiman.
Dengan menggunakan data historis, algoritma pembelajaran yang diawasi dapat membantu dalam prediksi pola cuaca. Menganalisis data terkini terkait tekanan barometrik, suhu, dan kecepatan angin memungkinkan ahli meteorologi membuat prakiraan yang lebih akurat yang memperhitungkan perubahan kondisi.
Jenis sistem ini hadir dalam bentuk perangkat lunak atau perangkat keras, yang memantau lalu lintas jaringan untuk mencari tanda-tanda pelanggaran keamanan atau aktivitas berbahaya. Algoritma machine learning dapat dilatih untuk mendeteksi potensi serangan pada jaringan secara real-time, melindungi informasi pengguna dan fungsi sistem.
Algoritma ini dapat membuat visualisasi kinerja normal berdasarkan data deret waktu, yang menganalisis titik data pada interval yang ditetapkan untuk waktu yang lama. Lonjakan lalu lintas jaringan atau pola tak terduga dapat ditandai dan diperiksa sebagai potensi pelanggaran keamanan.
Memastikan mesin berfungsi dengan baik sangat penting untuk membuat produk, mengoptimalkan jaminan kualitas, dan menjaga rantai pasokan. Algoritma pembelajaran tanpa pengawasan dapat digunakan untuk pemeliharaan prediktif dengan mengambil data tanpa label dari sensor yang terpasang pada peralatan dan membuat prediksi tentang potensi kegagalan atau kerusakan. Hal ini memungkinkan perusahaan untuk melakukan perbaikan sebelum kerusakan kritis terjadi, mengurangi waktu henti alat berat.
Menggunakan algoritma machine learning, profesional medis dapat memberi label pada gambar yang mengandung penyakit atau gangguan yang diketahui. Namun, karena gambar akan bervariasi dari orang ke orang, tidak mungkin untuk memberi label pada semua penyebab potensial yang perlu dikhawatirkan. Setelah dilatih, algoritma ini dapat memproses informasi pasien dan membuat kesimpulan pada gambar yang tidak berlabel dan menandai alasan potensial yang perlu dikhawatirkan.
Algoritma prediktif dapat menggunakan pembelajaran semi-pengawasan yang memerlukan data berlabel dan tidak berlabel untuk mendeteksi penipuan. Karena aktivitas kartu kredit pengguna diberi label, algoritma dapat digunakan untuk mendeteksi pola pengeluaran yang tidak wajar.
Namun, solusi deteksi penipuan tidak hanya bergantung pada transaksi yang sebelumnya telah dilabeli sebagai penipuan; solusi ini juga dapat membuat asumsi berdasarkan perilaku pengguna, termasuk lokasi saat ini, perangkat yang digunakan untuk masuk, dan faktor lain yang membutuhkan data yang tidak berlabel.
Deteksi anomali didukung oleh solusi dan alat yang memberikan kemampuan observasi lebih besar pada data kinerja. Alat-alat ini memungkinkan identifikasi anomali dengan cepat, membantu mencegah dan memperbaiki masalah. IBM Instana Observability memanfaatkan kecerdasan buatan dan machine learning untuk memberikan semua anggota tim gambaran terperinci dan kontekstual tentang data kinerja, membantu memprediksi secara akurat dan memecahkan masalah kesalahan secara proaktif.
IBM watsonx.ai menawarkan alat AI generatif tangguh yang dapat menganalisis kumpulan data besar untuk mengekstrak insight yang bermakna. Melalui analisis yang cepat dan komprehensif, IBM watson.ai dapat mengidentifikasi pola dan tren yang dapat digunakan untuk mendeteksi anomali saat ini dan membuat prediksi tentang outlier di masa depan. Watson.ai dapat digunakan di seluruh industri untuk berbagai kebutuhan bisnis.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.