Dalam istilah machine learning, regresi ridge berarti menambahkan bias ke dalam model dengan tujuan mengurangi varians model tersebut. Pertukaran bias-varians adalah masalah yang terkenal dalam machine learning. Untuk memahami pertukaran bias-varian, terlebih dahulu perlu diketahui apa arti “bias” dan “varian” masing-masing dalam riset machine learning.
Singkatnya: bias mengukur perbedaan rata-rata antara nilai prediksi dan nilai sebenarnya; varians mengukur perbedaan antara prediksi di berbagai realisasi model yang diberikan. Saat bias meningkat, model memprediksi kurang akurat pada kumpulan data pelatihan. Saat varians meningkat, model memprediksi kurang akurat pada kumpulan data lain. Bias dan varians masing-masing mengukur akurasi model pada pelatihan dan set uji. Jelas, pengembang berharap untuk mengurangi bias dan varians model. Namun, pengurangan keduanya secara bersamaan tidak selalu memungkinkan, dan dengan demikian diperlukan teknik regularisasi seperti regresi ridge.
Seperti disebutkan, regularisasi regresi ridge memperkenalkan bias tambahan demi penurunan varians. Dengan kata lain, model yang diregulasi melalui regresi ridge menghasilkan prediksi yang kurang akurat pada data pelatihan (bias yang lebih tinggi) tetapi menghasilkan prediksi yang lebih akurat pada data pengujian (varians yang lebih rendah). Ini adalah pertukaran bias-varian. Melalui regresi ridge, pengguna menentukan kerugian yang dapat diterima dalam akurasi pelatihan (bias yang lebih tinggi) untuk meningkatkan generalisasi model yang diberikan (varians yang lebih rendah).13 Dengan cara ini, meningkatkan bias dapat membantu meningkatkan kinerja model secara keseluruhan.
Kekuatan penalti L2, dan dengan demikian pertukaran bias-varian model, ditentukan oleh nilai λ dalam persamaan fungsi kerugian estimator ridge. Jika λ adalah nol, maka satu dibiarkan dengan fungsi kuadrat terkecil biasa. Ini menciptakan model regresi standar tanpa regularisasi apa pun. Sebaliknya, nilai λ yang lebih tinggi berarti lebih banyak regularisasi. Saat λ meningkat, bias model meningkat sementara varians menurun. Dengan demikian, ketika λ sama dengan nol, model overfit pada data pelatihan, tetapi ketika λ terlalu tinggi, model underfit pada semua data.14
Kesalahan kuadrat mean (MSE) dapat membantu menentukan nilai λ yang sesuai. MSE erat terkait dengan RSS dan merupakan alat untuk mengukur perbedaan, secara rata-rata, antara nilai yang diprediksi dan nilai sebenarnya. Makin rendah MSE model, makin akurat prediksinya. Sementara itu, MSE meningkat saat λ meningkat. Namun demikian, dapat dikatakan bahwa selalu ada nilai λ yang lebih besar dari nol sehingga MSE yang diperoleh melalui regresi ridge lebih kecil daripada yang diperoleh melalui OLS.15 Salah satu metode untuk menyimpulkan nilai λ yang sesuai adalah dengan mencari nilai tertinggi untuk λ yang tidak meningkatkan MSE, seperti yang diilustrasikan pada Gambar 2. Teknik validasi silang tambahan dapat membantu pengguna memilih nilai λ yang optimal untuk menyetel model mereka.16