Apa itu regresi lasso?

Regresi lasso adalah teknik regularisasi yang menerapkan penalti untuk mencegah overfitting dan meningkatkan akurasi model statistik.

Regresi lasso—juga dikenal sebagai regularisasi L1—adalah bentuk regularisasi untuk model regresi linier. Regularisasi adalah metode statistik untuk mengurangi kesalahan yang disebabkan oleh overfitting pada data pelatihan. Pendekatan ini dapat tercermin dengan rumus berikut:

w-hat = argmin_w MSE(W ) + ||w||₁

Konsep di balik teknik Lasso dapat ditelusuri pada makalah penelitian geofisika tahun 1986 (tautan berada di luar ibm.com) oleh Santosa dan Symes¹, yang menggunakan penalti L1 untuk koefisien. Namun, pada tahun 1996, ahli statistik Robert Tibshirani, secara independen mengembangkan dan memopulerkan istilah ini²(tautan berada di luar ibm.com), “laso“, berdasarkan karya nonnegative garrote dari Breiman³(tautan berada di luar ibm.com).

Lasso merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Ini sering digunakan dalam machine learning untuk menangani data berdimensi tinggi karena memfasilitasi pemilihan fitur otomatis dengan penerapannya. Hal ini dilakukan dengan menambahkan istilah penalti ke jumlah kuadrat sisa (RSS), yang kemudian dikalikan dengan parameter regularisasi (lambda atau λ). Parameter regularisasi ini mengendalikan jumlah regularisasi yang diterapkan. Nilai lambda yang lebih besar meningkatkan penalti, mengecilkan lebih banyak koefisien ke arah nol; hal ini selanjutnya mengurangi pentingnya (atau menghilangkan sama sekali) beberapa fitur dari model, sehingga mengakibatkan pemilihan fitur otomatis. Sebaliknya, nilai lambda yang lebih kecil mengurangi efek penalti, mempertahankan lebih banyak fitur dalam model.

Penalti ini mendorong sparsitas dalam model, yang dapat membantu menghindari masalah multikolinieritas dan masalah overfitting dalam kumpulan data. Multikolinieritas terjadi ketika dua atau lebih variabel independen berkorelasi tinggi satu sama lain, yang dapat menjadi masalah untuk pemodelan kausal. Model overfit akan menggeneralisasi dengan buruk ke data baru, mengurangi nilainya sama sekali. Dengan mengurangi koefisien regresi menjadi nol, regresi lasso dapat secara efektif menghilangkan variabel independen dari model, menghindari masalah potensial dalam proses pemodelan. Sparsitas model juga dapat meningkatkan interpretabilitas model dibandingkan dengan teknik regularisasi lainnya seperti regresi ridge (juga dikenal sebagai regularisasi L2).

Sebagai catatan, artikel ini berfokus pada regularisasi model regresi linier, tetapi perlu dicatat bahwa regresi lasso juga dapat diterapkan dalam regresi logistik .

Pertukaran bias-varian

Pertukaran bias-varian adalah properti model prediktif yang terkenal. Dalam konteks ini, bias mengukur perbedaan rata-rata antara nilai prediksi dan nilai sebenarnya; varians mengukur perbedaan antara prediksi di berbagai realisasi model yang diberikan. Saat bias meningkat, model memprediksi kurang akurat pada kumpulan data pelatihan. Saat varians meningkat, model memprediksi kurang akurat pada kumpulan data lain. Bias dan varians masing-masing mengukur akurasi model pada pelatihan dan set uji. Mengurangi bias dan varians secara bersamaan tidak selalu dapat dilakukan, oleh karena itu diperlukan teknik regularisasi, seperti regresi lasso.

Dalam regresi lasso, hyperparameter lambda (λ), juga dikenal sebagai penalti L1, menyeimbangkan tradeoff antara bias dan varians dalam koefisien yang dihasilkan. Ketika λ meningkat, bias meningkat, dan varians menurun, yang mengarah ke model yang lebih sederhana dengan parameter yang lebih sedikit. Sebaliknya, ketika λ menurun, varians meningkat, yang mengarah ke model yang lebih kompleks dengan lebih banyak parameter. Jika λ adalah nol, maka satu yang tersisa dengan fungsi OLS yaitu, model regresi standar tanpa regularisasi apa pun.

Hubungan pemodelan grafik antara MSE, via, varian, dan istilah penalti lambda

Bagaimana cara kerja regresi lasso?

Bagian ini merangkum cara menerapkan regresi lasso dan menyoroti contoh penggunaan umum dalam ilmu data.

Jalankan analisis data eksplorasi

Sebelum menerapkan algoritme regresi linier pada kumpulan data Anda, jelajahi data untuk memahami potensi masalah mendasar yang mungkin ada. Penting untuk dipahami jika:

ada data yang hilang
ada sejumlah besar fitur
distribusi variabel berlanjut yang berpusat pada rata-rata dengan standar deviasi yang setara
salah satu prediktor berkorelasi satu sama lain

Hal ini penting untuk dipahami karena kumpulan data dengan dimensi tinggi dan variabel yang saling berkorelasi dapat menyebabkan overfitting. Data yang tidak terpusat pada rata-rata dengan standar deviasi 1 juga perlu diubah skalanya untuk membatasi dampak skala besar pada model. Jika fitur tidak diubah skalanya, hal ini dapat berdampak buruk pada fungsi biaya, yang pada gilirannya berdampak pada koefisien beta. Sederhananya, fitur yang tidak diskalakan dapat mengakibatkan penerapan penalti yang tidak disengaja dalam regresi lasso karena perbedaan unit.

Pisahkan data dan ubah skala prediktor berlanjut

Setelah kami melakukan analisis data eksplorasi, kami akan membagi data menjadi kumpulan pelatihan dan kumpulan pengujian. Setelah memisahkan data, penskalaan ulang diterapkan ke data sesuai kebutuhan. Penskalaan Z-score adalah pendekatan penskalaan fitur yang umum, yang menskalakan ulang fitur untuk berbagi deviasi standar 1 dan rata-rata 0.

Sesuaikan model lasso dan pilih nilai untuk λ

Sesuaikan model regresi lasso pada data pelatihan dan pilih nilai λ dengan tujuan meminimalkan kesalahan kuadrat rata-rata (MSE). Kesalahan kuadrat rata-rata (MSE) dapat membantu menentukan nilai λ yang sesuai. MSE adalah sarana untuk mengukur perbedaan, rata-rata, antara nilai prediksi dan nilai sebenarnya dari variabel dependen. Regresi lasso meminimalkan kesalahan kuadrat rata-rata (MSE) sambil menyeimbangkan faktor-faktor yang berlawanan dari bias dan varians untuk membangun model prediktif yang paling akurat. Hal ini dicapai dengan menambahkan istilah penalti ke jumlah kuadrat residual (RSS) yang sama dengan jumlah nilai absolut koefisien dikalikan dengan parameter λ.

Optimalkan untuk λ dengan validasi silang

Nilai optimal λ dapat ditentukan dengan teknik validasi silang, seperti validasi silang k-fold; pendekatan ini menemukan nilai λ yang meminimalkan kesalahan kuadrat rata-rata atau metrik kinerja lainnya.

Seperti disebutkan sebelumnya, nilai λ yang lebih tinggi menerapkan lebih banyak pengaturan. Saat λ meningkat, bias model meningkat sementara varians menurun. Ini karena saat λ menjadi lebih besar, lebih banyak koefisien 𝛽 menyusut menjadi nol.

Evaluasi kinerja model Anda

Umumnya, kita dapat mencetak beberapa nilai untuk memahami kinerja model, khususnya R² dan MSE. R² memberi tahu kita proporsi varians dalam variabel dependen (atau variabel respons) yang dijelaskan oleh variabel independen. Dengan membandingkan nilai MSE untuk nilai λ yang berbeda, Anda akan melihat apakah model telah dioptimalkan secara efektif untuk minimum global.

Kapan menggunakan regresi laso

Regresi lasso sangat ideal untuk masalah prediksi; kemampuannya untuk melakukan pemilihan variabel secara otomatis dapat menyederhanakan model dan meningkatkan akurasi prediksi. Meskipun demikian, regresi ridge dapat mengungguli regresi lasso karena jumlah bias yang diperkenalkan oleh regresi regression dengan mengurangi koefisien ke arah nol. Metode ini juga memiliki keterbatasan dengan fitur-fitur yang berkorelasi dalam data karena metode ini secara acak memilih fitur yang akan dimasukkan ke dalam model.

Aplikasi umum

Regresi Lasso mungkin ideal dalam skenario ini.

Menangani kumpulan data dimensi tinggi

Sebuah kumpulan data dianggap berdimensi tinggi jika jumlah variabel prediktor jauh lebih besar daripada jumlah observasi. Regresi lasso dapat membantu mengurangi dimensionalitas dalam kumpulan data dengan mengecilkan parameter bobot menjadi nol, menghilangkan fitur yang kurang penting dari model.

Pelajari lebih lanjut tentang pengurangan dimensionalitas

Mengotomatisasi pemilihan fitur

Bias yang diperkenalkan oleh penalti L1 akan mengecilkan koefisien secara artifisial ke nol. Beberapa variabel akan menyusut hingga tepat nol, sehingga model hanya memiliki sebagian kecil variabel terpenting untuk membuat prediksi.

Keterbatasan regression lasso

Regresi lasso dapat menangani beberapa multikolinearitas tanpa berdampak negatif pada interpretabilitas model, tetapi tidak dapat mengatasi multikolinearitas yang parah⁴. Jika kovariat sangat berkorelasi, regresi laso akan secara bebas menjatuhkan salah satu fitur dari model. Regularisasi jaring elastis adalah alternatif yang baik dalam situasi ini.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Menerapkan regresi lasso di Python atau R

Baik Python dan R banyak digunakan dalam ilmu data. Python fleksibel dan dapat menangani spektrum tugas yang luas. Di sisi lain, R secara khusus dirancang untuk komputasi statistik dan visualisasi data, termasuk opsi grafik yang kaya untuk plot dan grafik.

Regresi lasso dapat diimplementasikan dalam Python menggunakan pustaka seperti sklearn (tautan berada di luar ibm.com) yang menyediakan kelas Lasso untuk tujuan ini. R adalah pilihan yang tepat karena paket glmnet dapat digunakan untuk validasi silang yang efisien untuk λ Selection dan memberikan fleksibilitas untuk mengatur α ke nilai yang berbeda. R juga unggul dengan kemampuan visualisasinya, yang memainkan peran penting dalam memahami dan menginterpretasikan model regresi Lasso.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu regresi lasso?