Apa itu Regression Ridge?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Apa itu regresi ridge?

Regresi ridge merupakan teknik regularisasi statistik. Teknik ini mengoreksi overfitting pada data pelatihan dalam model machine learning.

Regresi ridge—juga dikenal sebagai regularisasi L2—adalah salah satu dari beberapa jenis regularisasi untuk model regresi linier. Regularisasi adalah metode statistik untuk mengurangi kesalahan yang disebabkan oleh overfitting pada data pelatihan. Regresi ridge secara khusus mengoreksi multikolinearitas dalam analisis regression. Hal ini berguna ketika mengembangkan model machine learning yang memiliki sejumlah besar parameter, terutama jika parameter tersebut juga memiliki bobot yang tinggi. Sementara artikel ini berfokus pada regularisasi model regresi linier, perhatikan bahwa regresi ridge juga dapat diterapkan dalam regresi logistik.

Masalahnya: multikolinearitas

Persamaan regression linier multi-variabel standar adalah:

Rumus regression linier multivariat standar

Di sini, Y adalah nilai yang diprediksi (variabel dependen), X adalah prediktor (variabel independen), B adalah koefisien regression yang melekat pada variabel independen tersebut, dan X₀ adalah nilai variabel dependen ketika variabel independen sama dengan nol (juga disebut y-intercept). Perhatikan bagaimana koefisien menandai hubungan antara variabel dependen dan variabel independen tertentu.

Multikolinearitas menandakan bahwa dua atau lebih prediktor memiliki hubungan mendekati linier. Montgomery dkk. memberikan satu contoh yang tepat: Bayangkan kita menganalisis kumpulan data pengiriman rantai pasokan di mana pengiriman jarak jauh secara teratur berisi sejumlah besar barang, sementara pengiriman jarak pendek selalu berisi persediaan yang lebih kecil. Dalam hal ini, jarak pengiriman dan kuantitas barang berkorelasi linier, seperti yang ditunjukkan pada Gambar 1. Ini menciptakan masalah ketika menggunakan ini sebagai variabel independen dalam model prediktif tunggal.

Diagram pencar menunjukkan korelasi linier antara variabel independen, jarak urutan, dan ukuran

Ini hanya salah satu contoh multikolinearitas, dan cara mengatasinya relatif sederhana: kumpulkan data yang lebih beragam (misalnya data untuk pengiriman jarak pendek dengan persediaan yang besar). Mengumpulkan lebih banyak data tidak selalu menjadi solusi yang tepat, seperti ketika multikolinearitas merupakan hal yang melekat pada data yang diteliti. Pilihan lain untuk memperbaiki multikolinearitas termasuk meningkatkan ukuran sampel, mengurangi jumlah variabel independen, atau cukup menggunakan model yang berbeda. Namun, perbaikan tersebut tidak selalu berhasil menghilangkan multikolinearitas, dan regresi ridge berfungsi sebagai metode lain untuk meregresikan model untuk mengatasi multikolinearitas.¹

Cara kerja regresi ridge: algoritma regularisasi

Ketika mengembangkan model prediktif, kita sering kali perlu menghitung koefisien, karena koefisien tidak secara eksplisit dinyatakan dalam data pelatihan. Untuk memperkirakan koefisien, kita dapat menggunakan estimator koefisien matriks kuadrat terkecil biasa (OLS) standar:

Estimator koefisien matriks kuadrat terkecil biasa

Mengetahui operasi rumus ini membutuhkan keakraban dengan notasi matriks. Bisa dikatakan, rumus ini bertujuan untuk menemukan garis yang paling sesuai untuk kumpulan data yang diberikan dengan menghitung koefisien untuk setiap variabel independen yang secara kolektif menghasilkan jumlah kuadrat residu terkecil (juga disebut jumlah kuadrat kesalahan).²

Jumlah kuadrat residual (RSS) mengukur seberapa cocok model regresi linier dengan data pelatihan. Hal ini diwakili oleh formulasi:

Rumus ini mengukur akurasi prediksi model untuk nilai kebenaran dasar dalam data pelatihan. Jika RSS = 0, model memprediksi variabel dependen dengan sempurna. Namun, skor nol tidak selalu diinginkan, karena dapat menunjukkan overfitting pada data pelatihan, terutama jika kumpulan data pelatihan kecil. Multikolinearitas mungkin menjadi salah satu penyebabnya.

Perkiraan koefisien yang tinggi seringkali dapat menjadi gejala overfitting.³ Jika dua atau lebih variabel berbagi korelasi linier yang tinggi, OLS dapat mengembalikan koefisien nilai tinggi secara keliru. Ketika satu atau beberapa koefisien terlalu tinggi, output model menjadi sensitif terhadap perubahan kecil pada data input. Dengan kata lain, model tersebut telah melakukan overfitting pada set pelatihan tertentu dan gagal menggeneralisasi secara akurat pada set pengujian yang baru. Model seperti ini dianggap tidak stabil.⁴

Regresi ridge memodifikasi OLS dengan menghitung koefisien yang memperhitungkan prediktor yang berpotensi berkorelasi. Secara khusus, regresi ridge mengoreksi koefisien bernilai tinggi dengan memperkenalkan suku regularisasi (sering disebut suku penalti) ke dalam fungsi RSS. Suku penalti ini adalah jumlah kuadrat koefisien model.⁵Hal ini diwakili dalam formulasi:

Suku penalti L2 dimasukkan sebagai akhir dari fungsi RSS, yang menghasilkan formulasi baru, estimator regresi ridge. Di dalamnya, efeknya pada model dikendalikan oleh hyperparameter lambda (λ):

Rumus regression ridge, atau rumus RSS dengan suku penalti L2

Ingatlah bahwa koefisien menandai efek prediktor tertentu (yaitu, variabel independen) terhadap nilai prediksi (yaitu, variabel dependen). Setelah ditambahkan ke dalam rumus RSS, suku penalti L2 menetralkan koefisien yang sangat tinggi dengan mengurangi semua nilai koefisien. Dalam statistik, ini disebut penyusutan koefisien. Dengan demikian, estimator ridge di atas menghitung koefisien regresi baru yang mengurangi RSS model tertentu. Ini meminimalkan setiap efek prediktor dan mengurangi overfitting pada data pelatihan.⁶

Perhatikan bahwa regresi ridge tidak menyusutkan setiap koefisien dengan nilai yang sama. Sebaliknya, koefisien menyusut sebanding dengan ukuran awalnya. Ketika λ meningkat, koefisien bernilai tinggi menyusut pada tingkat yang lebih besar daripada koefisien bernilai rendah.⁷ Dengan demikian, koefisien bernilai tinggi mendapat penalti lebih besar daripada koefisien bernilai rendah.

Regresi ridge versus regresi laso

Perhatikan bahwa penalti L2 menyusutkan koefisien ke arah nol tetapi tidak pernah menjadi nol mutlak; meskipun bobot fitur model dapat menjadi sangat kecil, bobot tersebut tidak pernah sama dengan nol dalam regresi ridge. Mengurangi koefisien menjadi nol secara efektif menghilangkan prediktor berpasangan dari model. Ini disebut pemilihan fitur, yang merupakan cara lain untuk mengoreksi multikolinearitas.⁸Karena regresi ridge tidak mengurangi koefisien regresi menjadi nol, maka regresi ini tidak melakukan seleksi fitur.⁹ Ini sering disebut sebagai kelemahan regresi ridge. Selain itu, kelemahan lain yang sering disebut adalah ketidakmampuan regresi ridge untuk memisahkan efek prediktor dalam menghadapi multikolinearitas yang parah.¹⁰

Regresi lasso—juga disebut regularisasi L1—adalah salah satu dari beberapa metode regularisasi lainnya dalam regresi linier. Regulerisasi L1 bekerja dengan mengurangi koefisien menjadi nol, yang pada dasarnya menghilangkan variabel-variabel independen dari model. Baik regresi lasso maupun regresi ridge dengan demikian mengurangi kompleksitas model, meskipun dengan cara yang berbeda. Regresi lasso mengurangi jumlah variabel independen yang mempengaruhi output. Regresi ridge mengurangi bobot yang dimiliki setiap variabel independen pada output.

Teknik regularisasi regresi lainnya

Jaring elastis adalah bentuk tambahan dari regularisasi. Sementara regresi ridge mendapatkan parameter regularisasinya dari jumlah kuadrat kesalahan dan lasso mendapatkan parameternya sendiri dari jumlah nilai absolut kesalahan, Elastic net menggabungkan kedua parameter regularisasi ke dalam fungsi biaya RSS.¹¹

Principal component regression (PCR) juga dapat bertindak sebagai prosedur regularisasi. Meskipun dapat mengatasi multikolinieritas, PCR tidak melakukannya dengan memberlakukan penalti pada fungsi RSS seperti pada regresi ridge dan lasso. Sebaliknya, PCR menghasilkan kombinasi linier dari prediktor yang berkorelasi untuk membuat model kuadrat terkecil yang baru.¹²

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Regresi ridge dalam machine learning

Kompleksitas model

Dalam machine learning, regresi membantu mengurangi overfitting yang dihasilkan dari kompleksitas model. Kompleksitas model dapat disebabkan oleh:

Model yang memiliki terlalu banyak fitur. Fitur adalah prediktor model dan juga dapat disebut "parameter" dalam machine learning. Tutorial online sering kali menyarankan untuk menjaga jumlah fitur di bawah jumlah instans dalam set data pelatihan. Namun hal tersebut tidak selalu dapat dilaksanakan.
Fitur-fitur yang memiliki bobot terlalu berat. Bobot fitur mengacu pada efek prediktor tertentu pada output model. Bobot fitur tinggi setara dengan koefisien nilai tinggi.

Model yang lebih sederhana secara intrinsik tidak berkinerja lebih baik daripada model yang kompleks. Namun demikian, tingkat kompleksitas model yang tinggi dapat menghambat kemampuan model untuk menggeneralisasi data baru di luar set pelatihan.

Karena tidak melakukan seleksi fitur, regresi ridge tidak dapat mengurangi kompleksitas model dengan menghilangkan fitur. Tetapi jika satu atau lebih fitur terlalu mempengaruhi hasil model, regresi dapat mengecilkan bobot fitur tinggi (yaitu, koefisien) di seluruh model per istilah penalti L2. Hal ini mengurangi kompleksitas model dan membantu membuat prediksi model tidak terlalu bergantung pada satu atau beberapa fitur.

Pertukaran bias-varian

Dalam istilah machine learning, regresi ridge berarti menambahkan bias ke dalam model dengan tujuan mengurangi varians model tersebut. Pertukaran bias-varians adalah masalah yang terkenal dalam machine learning. Untuk memahami pertukaran bias-varian, terlebih dahulu perlu diketahui apa arti “bias” dan “varian” masing-masing dalam riset machine learning.

Singkatnya: bias mengukur perbedaan rata-rata antara nilai prediksi dan nilai sebenarnya; varians mengukur perbedaan antara prediksi di berbagai realisasi model yang diberikan. Saat bias meningkat, model memprediksi kurang akurat pada kumpulan data pelatihan. Saat varians meningkat, model memprediksi kurang akurat pada kumpulan data lain. Bias dan varians masing-masing mengukur akurasi model pada pelatihan dan set uji. Jelas, pengembang berharap untuk mengurangi bias dan varians model. Namun, pengurangan keduanya secara bersamaan tidak selalu memungkinkan, dan dengan demikian diperlukan teknik regularisasi seperti regresi ridge.

Seperti disebutkan, regularisasi regresi ridge memperkenalkan bias tambahan demi penurunan varians. Dengan kata lain, model yang diregulasi melalui regresi ridge menghasilkan prediksi yang kurang akurat pada data pelatihan (bias yang lebih tinggi) tetapi menghasilkan prediksi yang lebih akurat pada data pengujian (varians yang lebih rendah). Ini adalah pertukaran bias-varian. Melalui regresi ridge, pengguna menentukan kerugian yang dapat diterima dalam akurasi pelatihan (bias yang lebih tinggi) untuk meningkatkan generalisasi model yang diberikan (varians yang lebih rendah).¹³Dengan cara ini, meningkatkan bias dapat membantu meningkatkan kinerja model secara keseluruhan.

Kekuatan penalti L2, dan dengan demikian pertukaran bias-varian model, ditentukan oleh nilai λ dalam persamaan fungsi kerugian estimator ridge. Jika λ adalah nol, maka satu dibiarkan dengan fungsi kuadrat terkecil biasa. Ini menciptakan model regresi standar tanpa regularisasi apa pun. Sebaliknya, nilai λ yang lebih tinggi berarti lebih banyak regularisasi. Saat λ meningkat, bias model meningkat sementara varians menurun. Dengan demikian, ketika λ sama dengan nol, model overfit pada data pelatihan, tetapi ketika λ terlalu tinggi, model underfit pada semua data.¹⁴

Kesalahan kuadrat mean (MSE) dapat membantu menentukan nilai λ yang sesuai. MSE erat terkait dengan RSS dan merupakan alat untuk mengukur perbedaan, secara rata-rata, antara nilai yang diprediksi dan nilai sebenarnya. Makin rendah MSE model, makin akurat prediksinya. Sementara itu, MSE meningkat saat λ meningkat. Namun demikian, dapat dikatakan bahwa selalu ada nilai λ yang lebih besar dari nol sehingga MSE yang diperoleh melalui regresi ridge lebih kecil daripada yang diperoleh melalui OLS.¹⁵ Salah satu metode untuk menyimpulkan nilai λ yang sesuai adalah dengan mencari nilai tertinggi untuk λ yang tidak meningkatkan MSE, seperti yang diilustrasikan pada Gambar 2. Teknik validasi silang tambahan dapat membantu pengguna memilih nilai λ yang optimal untuk menyetel model mereka.¹⁶

Graph modeling relation between MSE, bias, variance, and lambda penalty term

Contoh kasus penggunaan

Model regresi ridge paling baik digunakan saat berhadapan dengan kumpulan data yang memiliki dua atau lebih fitur yang berkorelasi. Selain itu, banyak bidang yang menggunakan regresi ridge untuk menangani model dengan jumlah prediktor yang lebih besar dan kumpulan data pelatihan yang kecil.¹⁷ Situasi seperti itu bisa sangat umum terjadi saat menangani berbagai data.

Biostatistik

Studi biologi komputasi dan genetika sering kali berurusan dengan model-model yang jumlah prediktornya jauh lebih banyak daripada jumlah sampel kumpulan data, terutama ketika menyelidiki ekspresi genetik. Regresi ridge menyediakan satu cara untuk mengatasi kompleksitas model tersebut dengan mengurangi bobot total dari berbagai fitur ini, sehingga memampatkan rentang prediksi model.

Real estat

Banyak sekali prediktor yang menentukan harga jual akhir sebuah rumah dan banyak di antaranya berkorelasi, seperti jumlah kamar tidur dan kamar mandi. Fitur yang sangat berkorelasi menyebabkan koefisien regresi yang tinggi dan overfitting pada data pelatihan. Regresi ridge mengoreksi bentuk kompleksitas model ini dengan mengurangi bobot fitur total pada nilai prediksi akhir model.

Ini hanya dua contoh dalam disiplin ilmu data yang lebih luas. Namun, seperti yang diilustrasikan oleh kedua contoh ini, Anda dapat menggunakan regresi secara efektif dalam situasi di mana Anda memiliki lebih banyak fitur model daripada sampel data atau ketika model Anda memiliki dua atau lebih fitur yang sangat berkorelasi.

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Buka episode

Penelitian terbaru

Penelitian terbaru mengeksplorasi varian modifikasi dari regresi ridge untuk tujuan melakukan seleksi fitur.¹⁸Bentuk regresi ridge yang dimodifikasi ini menggunakan parameter regularisasi yang berbeda pada setiap koefisien. Dengan cara ini, seseorang dapat mempenalti bobot fitur secara individual, dan dengan demikian berpotensi mengimplementasikan seleksi fitur melalui regresi ridge.¹⁹

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu regresi ridge?

Penyusun

Apa itu regresi ridge?

Masalahnya: multikolinearitas

Cara kerja regresi ridge: algoritma regularisasi

Regresi ridge versus regresi laso

Teknik regularisasi regresi lainnya

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Regresi ridge dalam machine learning

Kompleksitas model

Pertukaran bias-varian

Contoh kasus penggunaan

Manfaatkan AI untuk layanan pelanggan

Penelitian terbaru

Sumber daya