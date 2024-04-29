Upsampling meningkatkan jumlah sampel data dalam kumpulan data. Cara ini bertujuan untuk memperbaiki data yang tidak seimbang dan dengan demikian meningkatkan kinerja model.
Upsampling, atau dikenal juga sebagai oversampling, adalah teknik pemrosesan dan pengoptimalan data yang mengatasi ketidakseimbangan kelas dalam kumpulan data dengan menambahkan data. Upsampling menambahkan data dengan menggunakan sampel asli dari kelas minoritas sampai semua kelas memiliki ukuran yang sama. Baik Python scikit-learn dan Matlab berisi fungsi bawaan untuk mengimplementasikan teknik upsampling.
Upsampling untuk ilmu data sering disalahartikan sebagai upsampling dalam pemrosesan sinyal digital (DSP). Keduanya memiliki esensi yang sama tetapi berbeda. Layaknya upsampling dalam ilmu data, upsampling untuk DSP secara artifisial menciptakan lebih banyak sampel dalam domain frekuensi dari sinyal input (khususnya sinyal waktu diskrit) dengan menginterpolasi kecepatan sampling yang lebih tinggi. Sampel baru ini dihasilkan dengan menyisipkan angka nol ke dalam sinyal asli dan menggunakan low pass filter untuk interpolasi. Hal ini berbeda dengan cara data di-upsampling dalam penyeimbangan data.
Upsampling untuk penyeimbangan data juga berbeda dari upsampling dalam pemrosesan gambar. Dalam pemrosesan gambar, gambar resolusi tinggi pertama-tama dikurangi resolusinya (piksel dihapus) untuk komputasi yang lebih cepat, setelah itu konvolusi mengembalikan gambar ke dimensi aslinya (menambahkan kembali piksel).
Upsampling adalah cara yang efektif untuk mengatasi ketidakseimbangan dalam kumpulan data. Kumpulan data yang tidak seimbang didefinisikan sebagai kumpulan data di mana satu kelas sangat kurang terwakili dalam kumpulan data relatif terhadap populasi yang sebenarnya, menciptakan bias yang tidak diinginkan. Misalnya, bayangkan sebuah model dilatih untuk mengklasifikasikan gambar sebagai gambar kucing atau anjing. Kumpulan data yang digunakan terdiri dari 90% kucing dan 10% anjing. Perwakilan untuk kucing dalam skenario ini terlalu banyak, dan jika kita memiliki pengklasifikasi yang memprediksi kucing setiap saat, itu akan menghasilkan akurasi 90% untuk mengklasifikasikan kucing, tetapi 0% untuk mengklasifikasikan anjing. Kumpulan data yang tidak seimbang dalam kasus ini akan menyebabkan pengklasifikasi mengutamakan akurasi untuk kelas mayoritas dengan mengorbankan kelas minoritas. Masalah yang sama dapat muncul dengan kumpulan data dalam beberapa kelas.1
Proses upsampling dapat mengatasi masalah kumpulan data yang tidak seimbang. Proses ini mengisi kumpulan data dengan titik-titik yang disintesis dari karakteristik kelas minoritas kumpulan data asli. Hal ini menyeimbangkan kumpulan data dengan secara efektif meningkatkan jumlah sampel untuk kelas minoritas yang kurang terwakili hingga kumpulan data berisi rasio poin yang sama di semua kelas.
Meskipun ketidakseimbangan dapat dilihat hanya dengan membuat plot jumlah titik data di setiap kelas, hal ini tidak menunjukkan apakah model akan sangat terpengaruh. Untungnya, kita dapat menggunakan metrik kinerja untuk mengukur seberapa baik teknik upsampling mengoreksi ketidakseimbangan kelas. Sebagian besar metrik ini adalah untuk klasifikasi biner, di mana hanya ada dua kelas: positif dan negatif. Biasanya, kelas positif adalah kelas minoritas sedangkan kelas negatif adalah kelas mayoritas. Dua metrik populer adalah kurva Karakteristik Operasi Penerima (ROC) dan kurva precision-recall.1
Oversampling acak adalah proses penggandaan titik data secara acak pada kelas minoritas hingga ukuran kelas minoritas sama dengan kelas mayoritas.
Kendati sifatnya serupa, oversampling acak berbeda dari bootstrapping. Bootstrapping adalah teknik pembelajaran ansambel yang mengambil sampel ulang dari semua kelas. Sebaliknya, oversampling acak mengambil ulang sampel hanya dari kelas minoritas. Oversampling acak dengan demikian dapat dipahami sebagai bentuk bootstrapping yang lebih khusus.
Terlepas dari kesederhanaannya, oversampling acak memiliki keterbatasan. Karena oversampling acak hanya menambahkan titik data duplikat, hal ini dapat menyebabkan overfitting.3 Namun, metode ini masih memiliki banyak keunggulan dibandingkan metode lainnya: kemudahan dalam implementasi, tidak memerlukan asumsi peregangan data, dan kompleksitas waktu yang rendah karena algoritme yang sederhana.2
Synthetic Minority Oversampling Technique, atau SMOTE, adalah teknik upsampling yang pertama kali diperkenalkan pada tahun 2002 yang menyintesis titik-titik data baru dari titik yang ada di kelas minoritas.4 Prosesnya terdiri dari:2
SMOTE mengatasi masalah overfitting dalam pengambilan sampel acak dengan menambahkan data baru yang sebelumnya tidak terlihat ke dalam kumpulan data, bukan hanya menduplikasi data yang sudah ada sebelumnya. Untuk alasan ini, beberapa peneliti menganggap SMOTE sebagai teknik upsampling yang lebih baik daripada oversampling acak.
Di sisi lain, penghasilan titik data buatan SMOTE menambahkan kebisingan tambahan ke kumpulan data, yang berpotensi membuat pengklasifikasi menjadi lebih tidak stabil.1 Titik sintetis dan kebisingan dari SMOTE juga dapat secara tidak sengaja menyebabkan keadaan tumpang tindih antara kelas minoritas dan mayoritas yang tidak mencerminkan kenyataan, yang mengarah pada apa yang disebut dengan generalisasi yang berlebihan.5
Salah satu ekstensi yang populer, Borderline SMOTE, digunakan untuk mengatasi masalah kebisingan kumpulan data buatan dan untuk membuat titik data yang ‘lebih sulit’. Titik data yang ‘lebih sulit’ adalah titik data yang dekat dengan batas keputusan, dan karena itu lebih sulit untuk diklasifikasikan. Titik yang lebih sulit ini lebih berguna untuk dipelajari oleh model.2
Borderline SMOTE mengidentifikasi titik-titik kelas minoritas yang dekat dengan berbagai titik kelas mayoritas dan memasukkannya ke dalam set DANGER (BAHAYA). Titik DANGER merupakan titik data yang ‘sulit‘ untuk dipelajari, karena lebih sulit untuk diklasifikasikan dibandingkan dengan titik yang dikelilingi titik kelas minoritas. Proses seleksi ini mengecualikan titik-titik yang tetangga terdekatnya hanya berupa titik kelas mayoritas, yang dihitung sebagai kebisingan. Dari sana, algoritme SMOTE berlanjut seperti biasa menggunakan kumpulan data dalam kategori DANGER ini.3
Adaptive Synthetic Sampling Approach (ADASYN) mirip dengan Borderline SMOTE karena menghasilkan data yang lebih sulit untuk dipelajari oleh model. Namun, ini juga bertujuan untuk mempertahankan distribusi data kelas minoritas.6 Hal ini dilakukan dengan membuat terlebih dahulu distribusi tertimbang dari semua titik minoritas berdasarkan jumlah contoh kelas mayoritas di lingkungannya. Dari sana, lebih sering digunakan titik-titik kelas minoritas yang lebih dekat dengan kelas mayoritas dalam menghasilkan data baru.
Prosesnya berjalan sebagai berikut:2
Augmentasi data membuat data baru dengan membuat variasi data. Augmentasi data berlaku di berbagai bidang machine learning.
Bentuk paling dasar dari augmentasi data menangani transformasi input mentah dari kumpulan data. Misalnya, dalam visi komputer, augmentasi gambar (pemotongan, pengaburan, pencerminan, dan sebagainya) dapat digunakan untuk membuat lebih banyak gambar bagi model untuk diklasifikasikan. Demikian pula, augmentasi data juga dapat digunakan dalam tugas pemrosesan bahasa alami, seperti mengganti kata-kata dengan sinonimnya atau membuat kalimat yang setara secara semantik.
Para peneliti telah menemukan bahwa augmentasi data secara efektif meningkatkan akurasi model untuk tugas visi komputer dan NLP karena menambahkan data serupa dengan biaya rendah. Namun demikian, penting untuk memperhatikan beberapa peringatan sebelum menjalankan teknik ini. Untuk penambahan geometri tradisional, “keamanan” transformasi harus diperhatikan sebelum menjalankannya. Misalnya, memutar gambar angka “9” akan membuatnya tampak seperti angka “6”, sehingga mengubah makna semantiknya.7
Ekstensi SMOTE dan pembelajaran mendalam telah menjadi fokus teknik upsampling dalam beberapa tahun belakangan. Metode-metode ini bertujuan untuk meningkatkan kinerja model dan mengatasi beberapa kekurangan dari upsampling, seperti bias yang diperkenalkan dalam distribusi kelas minoritas.
Beberapa pengembangan dalam SMOTE termasuk SMOTE probabilitas-prediksi-minoritas (MPP-SMOTE), yang mengambil sampel berdasarkan estimasi probabilitas untuk melihat setiap sampel kelas minoritas.8 Multi-Label Borderline Oversampling Technique (MLBOTE) telah diusulkan untuk memperluas SMOTE ke klasifikasi multikelas.9 Keduanya telah mengungguli semua varian SMOTE yang ada dan mempertahankan pola dalam data asli.
Neural network juga telah digunakan untuk mengembangkan teknik oversampling. Generative Adversarial Network telah menarik minat beberapa pihak, memberikan hasil yang menjanjikan, meskipun waktu pelatihan membuat teknik ini lebih lambat daripada metode upsampling tradisional lainnya.10
