Upsampling adalah cara yang efektif untuk mengatasi ketidakseimbangan dalam kumpulan data. Kumpulan data yang tidak seimbang didefinisikan sebagai kumpulan data di mana satu kelas sangat kurang terwakili dalam kumpulan data relatif terhadap populasi yang sebenarnya, menciptakan bias yang tidak diinginkan. Misalnya, bayangkan seorang model dilatih untuk mengklasifikasikan gambar sebagai menunjukkan kucing atau anjing. Kumpulan data yang digunakan terdiri dari 90% kucing dan 10% anjing. Kucing dalam skenario ini terlalu banyak diwakili, dan jika kita memiliki pengklasifikasi yang memprediksi kucing setiap saat, maka akan menghasilkan akurasi 90% untuk mengklasifikasikan kucing, tetapi 0% untuk mengklasifikasikan anjing. Kumpulan data yang tidak seimbang dalam kasus ini akan menyebabkan pengklasifikasi mengutamakan akurasi untuk kelas mayoritas dengan mengorbankan kelas minoritas. Masalah yang sama dapat muncul dengan kumpulan data dalam beberapa kelas.1
Proses upsampling dapat mengatasi masalah kumpulan data yang tidak seimbang. Proses ini mengisi kumpulan data dengan titik-titik yang disintesis dari karakteristik kelas minoritas kumpulan data asli. Hal ini menyeimbangkan kumpulan data dengan secara efektif meningkatkan jumlah sampel untuk kelas minoritas yang kurang terwakili hingga kumpulan data berisi rasio poin yang sama di semua kelas.
Meskipun ketidakseimbangan dapat dilihat hanya dengan membuat plot jumlah titik data di setiap kelas, hal ini tidak menunjukkan apakah model akan sangat terpengaruh. Untungnya, kita dapat menggunakan metrik kinerja untuk mengukur seberapa baik teknik upsampling mengoreksi ketidakseimbangan kelas. Sebagian besar metrik ini adalah untuk klasifikasi biner, di mana hanya ada dua kelas: positif dan negatif. Biasanya, kelas positif adalah kelas minoritas sedangkan kelas negatif adalah kelas mayoritas. Dua metrik populer adalah kurva Karakteristik Operasi Penerima (Receiver Operating Characteristic atau ROC) dan kurva penarikan presisi.1