Regresi lasso—juga dikenal sebagai regularisasi L1—adalah bentuk regularisasi untuk model regresi linier. Regularisasi adalah metode statistik untuk mengurangi kesalahan yang disebabkan oleh overfitting pada data pelatihan. Pendekatan ini dapat tercermin dengan rumus berikut:
w-hat = argminw MSE(W ) + ||w||1
Â
Konsep di balik teknik Lasso dapat ditelusuri pada makalah penelitian geofisika tahun 1986 (tautan berada di luar ibm.com) oleh Santosa dan Symes1, yang menggunakan penalti L1 untuk koefisien. Namun, pada tahun 1996, ahli statistik Robert Tibshirani, secara independen mengembangkan dan memopulerkan istilah ini2 (tautan berada di luar ibm.com), “laso“, berdasarkan karya nonnegative garrote dari Breiman3 (tautan berada di luar ibm.com).
Lasso merupakan singkatan dari Least Absolute Shrinkage and Selection Operator. Ini sering digunakan dalam machine learning untuk menangani data berdimensi tinggi karena memfasilitasi pemilihan fitur otomatis dengan penerapannya. Hal ini dilakukan dengan menambahkan istilah penalti ke jumlah kuadrat sisa (RSS), yang kemudian dikalikan dengan parameter regularisasi (lambda atau λ). Parameter regularisasi ini mengendalikan jumlah regularisasi yang diterapkan. Nilai lambda yang lebih besar meningkatkan penalti, mengecilkan lebih banyak koefisien ke arah nol; hal ini selanjutnya mengurangi pentingnya (atau menghilangkan sama sekali) beberapa fitur dari model, sehingga mengakibatkan pemilihan fitur otomatis. Sebaliknya, nilai lambda yang lebih kecil mengurangi efek penalti, mempertahankan lebih banyak fitur dalam model.
Penalti ini mendorong sparsitas dalam model, yang dapat membantu menghindari masalah multikolinieritas dan masalah overfitting dalam kumpulan data. Multikolinieritas terjadi ketika dua atau lebih variabel independen berkorelasi tinggi satu sama lain, yang dapat menjadi masalah untuk pemodelan kausal. Model overfit akan menggeneralisasi dengan buruk ke data baru, mengurangi nilainya sama sekali. Dengan mengurangi koefisien regresi menjadi nol, regresi lasso dapat secara efektif menghilangkan variabel independen dari model, menghindari masalah potensial dalam proses pemodelan. Sparsitas model juga dapat meningkatkan interpretabilitas model dibandingkan dengan teknik regularisasi lainnya seperti regresi ridge (juga dikenal sebagai regularisasi L2).
Sebagai catatan, artikel ini berfokus pada regularisasi model regresi linier, tetapi perlu dicatat bahwa regresi lasso juga dapat diterapkan dalam regresi logistik .