Secara sederhana, overfitting merupakan kebalikan dari underfitting, terjadi ketika model telah dilatih secara berlebihan atau mengandung terlalu banyak kompleksitas, sehingga menghasilkan tingkat kesalahan yang tinggi pada data uji. Overfitting pada suatu model lebih umum terjadi daripada underfitting, dan underfitting biasanya terjadi dalam upaya untuk menghindari overfitting melalui suatu proses yang disebut “penghentian dini.”
Jika pelatihan kurang atau kompleksitas model terlalu rendah sehingga menimbulkan kekurangan, strategi pencegahannya adalah dengan memperpanjang durasi pelatihan atau menambahkan input yang lebih relevan. Namun, jika Anda melatih model terlalu lama atau menambahkan terlalu banyak fitur, model Anda mungkin mengalami overfitting, yang menghasilkan bias rendah tetapi varians tinggi (yaitu pertukaran bias-varian). Dalam skenario ini, model statistik terlalu cocok dengan data pelatihannya, sehingga tidak dapat menggeneralisasi dengan baik ke titik data baru. Penting untuk diperhatikan bahwa beberapa jenis model dapat lebih rentan terhadap overfitting daripada yang lain, seperti decision trees atau KNN.
Mengidentifikasi overfitting bisa jadi lebih sulit daripada underfitting karena tidak seperti underfitting, data pelatihan memiliki akurasi yang tinggi dalam model yang overfitting. Teknik yang biasanya digunakan untuk menilai keakuratan algoritma disebut k-fold cross-validation.
Dalam validasi silang k-folds, data dibagi menjadi k subset berukuran sama, yang juga disebut "lipatan." Salah satu lipatan-k akan bertindak sebagai set uji, juga dikenal sebagai set holdout atau set validasi, dan lipatan yang tersisa akan melatih model. Proses ini berulang sampai masing-masing lipatan telah bertindak sebagai lipatan holdout. Setelah setiap evaluasi, skor dicatat dan ketika semua iterasi telah selesai, skor dirata-rata untuk menilai kinerja model secara keseluruhan.
Skenario ideal saat memasang model adalah menemukan keseimbangan antara overfitting dan underfitting. Mengidentifikasi “titik pasti” di antara keduanya memungkinkan model machine learning untuk membuat prediksi dengan akurat.