Apa itu downsampling atau penurunan sampel?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Apa itu downsampling atau penurunan sampel?

Downsampling mengurangi jumlah sampel data dalam kumpulan data. Cara ini bertujuan untuk memperbaiki data yang tidak seimbang dan dengan demikian meningkatkan kinerja model.

Downsampling adalah teknik pemrosesan data yang umum digunakan untuk mengatasi ketidakseimbangan dalam kumpulan data dengan menghapus data dari kelas mayoritas sehingga sesuai dengan ukuran kelas minoritas. Ini berlawanan dengan upsampling, yang melibatkan pengambilan sampel ulang poin kelas minoritas. Baik Python scikit-learn dan Matlab berisi fungsi bawaan untuk mengimplementasikan teknik downsampling.

Downsampling untuk ilmu data sering disalahartikan sebagai downsampling dalam pemrosesan sinyal digital (DSP). Keduanya memiliki jiwa yang sama. Downsampling untuk pemrosesan sinyal digital (juga dikenal sebagai dekimasi) adalah proses pengurangan bandwidth dan laju sampling dari sampler, sehingga menghilangkan sebagian data asli dari sinyal asli. Proses penurunan frekuensi pengambilan sampel sering dilakukan dengan mengurangi laju pengambilan sampel dengan suatu faktor bilangan bulat, sehingga hanya satu dari setiap sampel ke-n. Hal ini dilakukan dengan menggunakan filter lowpass, atau dikenal juga sebagai filter anti-aliasing, untuk mengurangi komponen frekuensi tinggi/noise dari sinyal waktu diskrit dengan faktor bilangan bulat yang sudah disebutkan sebelumnya.

Downsampling untuk penyeimbangan data juga dapat disalahartikan sebagai downsampling untuk pemrosesan gambar. Ketika data berisi banyak fitur, seperti pada gambar MRI resolusi tinggi, perhitungan bisa menjadi mahal. Downsampling dalam pemrosesan gambar dengan demikian mengurangi dimensi setiap titik data melalui konvolusi. Ini tidak sama dengan menyeimbangkan kumpulan data: ini adalah teknik pengoptimalan yang nantinya akan membutuhkan interpolasi untuk mendapatkan kembali data asli.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Mengapa harus menggunakan downsampling?

Downsampling adalah cara yang efektif untuk mengatasi kekurangan dalam kumpulan data. Kumpulan data yang tidak seimbang didefinisikan sebagai kumpulan data di mana satu kelas sangat kurang terwakili dalam kumpulan data relatif terhadap populasi yang sebenarnya, menciptakan bias yang tidak diinginkan. Misalnya, bayangkan seorang model dilatih untuk mengklasifikasikan gambar sebagai menunjukkan kucing atau anjing. Kumpulan data yang digunakan terdiri dari 90% kucing dan 10% anjing. Kucing dalam skenario ini terlalu banyak diwakili, dan jika kita memiliki pengklasifikasi yang memprediksi kucing setiap saat, maka akan menghasilkan akurasi 90% untuk mengklasifikasikan kucing, tetapi 0% untuk mengklasifikasikan anjing. Kumpulan data yang tidak seimbang dalam kasus ini akan menyebabkan pengklasifikasi mengutamakan akurasi untuk kelas mayoritas dengan mengorbankan kelas minoritas. Masalah yang sama dapat muncul dengan kumpulan data dalam beberapa kelas.1

Proses downsampling dapat mengatasi masalah kumpulan data yang tidak seimbang. Proses ini mengidentifikasi poin kelas mayoritas untuk dihapus berdasarkan kriteria yang ditentukan. Kriteria ini dapat berubah dengan teknik downsampling yang dipilih. Hal ini menyeimbangkan kumpulan data dengan secara efektif menurunkan jumlah sampel untuk kelas mayoritas yang terlalu represenatif hingga kumpulan data berisi rasio poin yang sama di semua kelas.

Meskipun ketidakseimbangan dapat dilihat hanya dengan membuat plot jumlah titik data di setiap kelas, hal ini tidak menunjukkan apakah model akan sangat terpengaruh. Untungnya, kita dapat menggunakan metrik kinerja untuk mengukur seberapa baik teknik downsampling mengoreksi ketidakseimbangan kelas. Sebagian besar metrik ini adalah untuk klasifikasi biner, di mana hanya ada dua kelas: positif dan negatif. Biasanya, kelas positif adalah kelas minoritas sedangkan kelas negatif adalah kelas mayoritas. Dua metrik populer adalah kurva Karakteristik Operasi Penerima (Receiver Operating Characteristic atau ROC) dan kurva penarikan presisi.1

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Keuntungan dan kekurangan dari downsampling

Keuntungan

  • Kebutuhan penyimpanan yang lebih sedikit: Ketika penyimpanan membutuhkan biaya, misalnya untuk penyimpanan cloud, downsampling akan lebih disukai daripada upsampling untuk menghindari kenaikan biaya.2
  • Pelatihan yang lebih cepat: Downsampling menyusutkan kumpulan data dan membuat pelatihan tidak terlalu intensif pada CPU atau GPU, sehingga lebih ekonomis dan ramah lingkungan.
  • Tidak terlalu rentan terhadap overfitting: Upsampling menghasilkan data baru dari data lama, yang dapat menyebabkan model menjadi terlalu cocok dengan data yang diberikan. Downsampling, sebaliknya (menghapus data), tidak mengalami masalah ini.2

Kekurangan

  • Hilangnya Informasi: Menghapus poin dari kelas mayoritas dapat menyebabkan hilangnya informasi penting. Ini bisa menjadi masalah jika klasifikasi kelas mayoritas harus akurat. Masalah lain adalah jika kumpulan data menjadi terlalu kecil untuk dilatih model.2
  • Bias yang Diperkenalkan: Titik sampel kelas mayoritas yang tersisa dapat menjadi kumpulan data asli yang bias, yang secara negatif mempengaruhi kinerja pengklasifikasi.

Teknik downsampling

Downsampling acak

Downsampling acak adalah teknik penghapusan di mana titik-titik acak di kelas mayoritas dipilih tanpa penggantian dan dihapus dari kumpulan data hingga ukuran kelas mayoritas sama dengan ukuran kelas minoritas. Ini adalah cara mudah untuk menghapus subset data secara acak untuk tujuan penyeimbangan. Namun, teknik ini dapat menyebabkan pola atau distribusi penting dalam kelas mayoritas menghilang, sehingga berdampak negatif pada kinerja pengklasifikasi.2

Near Miss downsampling

Near Miss downsampling adalah teknik yang bertujuan untuk menyeimbangkan distribusi kelas dengan menghilangkan contoh kelas mayoritas tertentu secara acak.

Secara konseptual, Near Miss beroperasi dengan prinsip bahwa data harus disimpan di tempat-tempat di mana kelas mayoritas dan minoritas sangat dekat, karena tempat-tempat ini memberikan informasi penting dalam membedakan kedua kelas tersebut.3 Poin-poin ini umumnya dikenal sebagai titik data yang 'sulit' dipelajari. Near Miss downsampling umumnya beroperasi dalam dua langkah:

  • Langkah 1: Hitung jarak berpasangan antara semua instance kelas mayoritas-minoritas.
  • Langkah 2: Berdasarkan jarak yang dihitung, hapus instans dari kelas mayoritas yang berada lebih jauh dari titik-titik minoritas.

Ada tiga variasi algoritma Near Miss yang menyediakan cara yang lebih pasti untuk memilih instans kelas mayoritas untuk dihapus.

  • Versi 1: Versi ini menyimpan instans kelas mayoritas dengan jarak rata-rata terkecil ke N instans kelas minoritas terdekat. Data yang dihasilkan berpotensi terdistribusi secara tidak merata, dengan beberapa titik kelas mayoritas mendekati banyak titik kelas minoritas dan yang lainnya mendekati sangat sedikit, sehingga menyebabkan presisi dan recall yang rendah.4
Diagram downsampling - Near Miss 1
  • Versi 2: Versi Near Miss downsampling ini mempertahankan instans kelas mayoritas dengan jarak rata-rata terkecil ke N instans kelas minoritas terjauh. Tidak seperti versi pertama, versi ini menciptakan distribusi kelas mayoritas yang lebih merata, menghasilkan hasil yang lebih baik dari pengklasifikasi.4
Diagram downsampling - Near Miss 2
  • Versi 3: Versi ini menyimpan sampel kelas mayoritas terdekat untuk contoh kelas minoritas yang paling dekat dengan kelas mayoritas. Versi ini beroperasi dalam dua langkah. Pertama, M tetangga kelas mayoritas terdekat dari setiap instans kelas minoritas disimpan. Kemudian, dari mayoritas contoh kelas yang tersisa, contoh yang memiliki jarak rata-rata terbesar diidentifikasi dan disimpan. Karena versi ini menyimpan contoh kelas mayoritas yang dekat dengan banyak contoh kelas minoritas, maka versi ini dapat memiliki presisi yang tinggi tetapi ingatannya rendah.4
Diagram downsampling - Near Miss 3

Condensed Nearest Neighbor Rule downsampling

Condensed Nearest Neighbors (disingkat CNN, jangan disamakan dengan Convolutional Neural Networks) berusaha menemukan subset dari kumpulan data yang dapat digunakan untuk pelatihan tanpa kehilangan kinerja model. Hal ini dicapai dengan mengidentifikasi subset data yang dapat digunakan untuk melatih model yang memprediksi seluruh kumpulan data dengan benar.

CNN downsampling dapat dibagi menjadi langkah-langkah berikut:5

  1. Buat kumpulan data baru, S, yang berisi semua contoh kelas minoritas dan satu contoh kelas mayoritas yang diambil secara acak.
  2. Latih pengklasifikasi 1-NN pada kumpulan data baru S.
  3. Untuk semua titik data kelas mayoritas yang tidak berada di S, gunakan pengklasifikasi 1-NN untuk memprediksi labelnya. Jika pengklasifikasi 1-NN memprediksi label dengan benar, abaikan poin tersebut. Jika tidak, tambahkan ke S.

Seperti Near Miss, proses ini pada dasarnya menghapus semua contoh kelas mayoritas yang jauh dari batas keputusan, yang, sekali lagi, merupakan titik-titik yang mudah diklasifikasikan. Hal ini juga memastikan bahwa setiap data dalam kumpulan data asli dapat diprediksi dengan benar hanya dengan menggunakan data di dalam S. Dengan cara ini, kumpulan data dapat disusutkan secara signifikan sambil mempertahankan batas keputusan dengan cukup baik.

Diagram dengan 3 grafik sampel kelas mayoritas, sampel kelas minoritas, dan sampel kelas mayoritas dengan tetangga kelas minoritas.

Gambar ini menunjukkan contoh penerapan nearest neighbors yang dipadatkan dengan menggunakan 1 tetangga terdekat dan 21 tetangga terdekat pada dua kumpulan data. Dua gambar teratas sebelum menerapkan tetangga terdekat yang dipadatkan sementara dua gambar terbawah adalah setelahnya. Seperti yang bisa dilihat, batas keputusan cukup terjaga dengan baik.

Tomek Link

Premis dari Tomek Link downsampling adalah untuk mengurangi noise pada data dengan menghapus titik-titik di dekat batas keputusan dan meningkatkan pemisahan kelas. Cara kerjanya adalah dengan mengidentifikasi "Tomek Link"—pengelompokan dua titik dari kelas yang berbeda tanpa adanya titik ketiga yang paling dekat dengan keduanya.2

Untuk semua Tomek Link, titik dalam kelas mayoritas dihapus. Dengan menghilangkan titik kelas mayoritas yang dekat dengan titik kelas minoritas, pemisahan kelas meningkat. Salah satu kelemahan metode ini adalah kompleksitas komputasi dalam menghitung semua jarak berpasangan antara titik kelas mayoritas dan minoritas.2 Tomek Link downsampling paling efektif bila dikombinasikan dengan teknik lain.

Edited Nearest Neighbors

Edited Nearest Neighbors (ENN) downsampling mirip dengan Tomek Link downsampling, di mana tujuannya adalah untuk menghapus contoh di dekat batas keputusan untuk meningkatkan pemisahan kelas. Secara umum, metode ini menghapus titik data yang berbeda dalam kelas dari sebagian besar tetangganya.2 Ini berarti bahwa proses menghapus titik data kelas mayoritas dengan mayoritas tetangga terdekatnya yang termasuk dalam kelas minoritas, dan sebaliknya. Mayoritas dalam konteks ini dapat didefinisikan secara bebas: ini bisa berarti bahwa setidaknya satu tetangga berasal dari kelas yang berbeda atau bahwa proporsi tetangga di kelas yang berbeda melebihi ambang batas tertentu.

ENN downsampling biasanya dilakukan dengan 3 tetangga terdekat, seperti yang diilustrasikan di bawah ini.

Diagram downsampling - Menjaga Batasan

Ini adalah strategi yang lebih umum karena melihat lingkungan keseluruhan dari titik-titik daripada satu tetangga, tetapi ini adalah cara yang efisien untuk menghilangkan noise dalam data. ENN downsampling paling efektif bila dikombinasikan dengan teknik lain.

Penelitian terbaru

Perkembangan terkini dalam downsampling berpusat pada integrasi pembelajaran mendalam. Hal ini telah digunakan dalam bidang seperti pemrosesan gambar dan data medis, yang melibatkan penggunaan neural networks untuk melakukan downsampling data.6 Contohnya adalah SOM-US, yang menggunakan neural networks dua lapis.7 Dalam beberapa tahun terakhir, pembelajaran aktif juga telah diterapkan pada downsampling untuk mencoba dan mengurangi efek data yang tidak seimbang.8 Eksperimen telah menunjukkan bahwa model ini berkinerja jauh lebih baik daripada teknik tradisional.

Penelitian saat ini dalam downsampling juga berkisar pada penggabungannya dengan teknik lain untuk membuat teknik hybrid. Salah satu kombinasi yang dapat dilakukan adalah dengan melakukan downsampling dan upsampling data untuk mendapatkan manfaat dari keduanya: SMOTE+Tomek Link, Agglomerative Hierarchical Clustering (AHC), dan SPIDER adalah beberapa contohnya.9 Teknik tingkat algoritma juga dapat menggabungkan ide-ide dari teknik downsampling tradisional, seperti pada Hard Example Mining di mana pelatihan hanya berfokus pada titik-titik data yang 'lebih sulit'.2 Semuanya menunjukkan kinerja yang lebih baik daripada menggunakan masing-masing teknik secara terpisah.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (tautan berada di luar ibm.com).

2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 Agustus 2016, https://arxiv.org/pdf/1608.06048 (tautan berada di luar ibm.com).

4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (tautan berada di luar ibm.com).

5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 Agustus 2016, https://arxiv.org/pdf/1608.06048 (tautan berada di luar ibm.com). Alberto Fernandez, dkk., Learning from Imbalanced Data Sets, Springer, 2018.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, dan M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 2 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (tautan berada di luar ibm.com).

7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 Januari 2024, https://hrcak.srce.hr/clanak/454006 (tautan berada di luar ibm.com).

8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089(tautan berada di luar ibm.com).(tautan berada di luar ibm.com).

9 Alberto Fernandez, dkk., Learning from Imbalanced Data Sets, Springer, 2018.