Saat bekerja dengan scikit-learn, penting untuk memastikan bahwa data pelatihan disiapkan dan diformat dengan benar sebelum dimasukkan ke dalam model machine learning. Proses ini dikenal sebagai prapemrosesan dan scikit-learn menyediakan berbagai alat untuk membantu mengatur kumpulan data. Salah satu tugas umum selama tahap ini dalam prapemrosesan scikit-learn adalah normalisasi, di mana fitur numerik diskalakan agar memiliki besaran yang sama dengan menggunakan teknik seperti MinMax Scaler atau Standard Scaler. Jika kumpulan data perlu dikodekan dari variabel kategoris menjadi representasi numerik, One-Hot Encoding (OHE) atau LabelEncoder (LE) dapat membuatnya kompatibel dengan alur kerja model. OHE mengubah nilai data kategori menjadi vektor biner, menghasilkan kolom baru untuk setiap kategori di mana 1 atau 0 menunjukkan ada atau tidak adanya kategori. LE digunakan dalam machine learning di mana label numerik ditetapkan pada kategori atau kelas. Tidak seperti One-Hot Encoder, LabelEncoder tidak membuat kolom baru tetapi menggantikan nilai kategoris dengan nilai integer. Hal ini dapat menyebabkan masalah seperti asumsi ordinalitas dan kurang umum dibandingkan OHE dalam praktik machine learning modern karena keterbatasannya.