Apa itu regularisasi?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Apa itu regularisasi?

Regularisasi adalah seperangkat metode untuk mengurangi overfitting dalam model machine learning. Biasanya, regularisasi memperdagangkan penurunan marjinal dalam akurasi pelatihan untuk peningkatan generalisasi.

Regularisasi mencakup berbagai teknik untuk mengoreksi overfitting dalam model machine learning. Dengan demikian, regularisasi adalah metode untuk meningkatkan kemampuan generalisasi model—yaitu kemampuan model untuk menghasilkan prediksi yang akurat pada kumpulan data baru.1 Regularisasi memberikan peningkatan generalisasi ini untuk peningkatan kesalahan pelatihan. Dengan kata lain, metode regularisasi biasanya menghasilkan prediksi yang kurang akurat pada data pelatihan, tetapi prediksi yang lebih akurat pada data pengujian.

Regularisasi berbeda dari optimasi. Pada dasarnya, regularisasi meningkatkan generalisasi model sementara optimasi meningkatkan akurasi pelatihan model. Keduanya adalah konsep penting dalam machine learning dan ilmu data.

Ada banyak bentuk regularisasi. Segala sesuatu yang berupa panduan lengkap memerlukan penanganan yang jauh lebih panjang, seperti sebuah buku Namun demikian, artikel ini memberikan gambaran umum tentang teori yang diperlukan untuk memahami tujuan regularisasi dalam machine learning serta survei tentang beberapa teknik regularisasi yang populer.

Pertukaran bias-varian

Konsesi peningkatan kesalahan pelatihan untuk penurunan kesalahan pengujian ini dikenal sebagai pertukaran bias-varians. Pertukaran bias-varians adalah masalah yang terkenal dalam machine learning. Pertama-tama perlu untuk mendefinisikan “bias” dan “varians.” Singkatnya:

  • Bias mengukur perbedaan rata-rata antara nilai prediksi dan nilai sebenarnya. Saat bias meningkat, model memprediksi kurang akurat pada kumpulan data pelatihan. Bias tinggi mengacu pada tingkat kesalahan yang tinggi dalam pelatihan.

  • - Varians mengukur perbedaan antara prediksi di berbagai realisasi dari model yang diberikan. Saat varians meningkat, model memprediksi secara kurang akurat pada data tidak terlihat. Varians tinggi mengacu pada tingkat kesalahan yang tinggi selama pengujian dan validasi.

Bias dan varians sebaliknya mewakili akurasi model pada pelatihan dan set uji masing-masing.2 Jelas, pengembang bertujuan untuk mengurangi bias model dan varians. Pengurangan simultan pada keduanya tidak selalu memungkinkan, mengakibatkan perlunya regularisasi. Regularisasi mengurangi varians model dengan mengorbankan peningkatan bias.

Model regresi cocok

Dengan meningkatkan bias dan menurunkan varians, regularisasi menyelesaikan masalah overfitting model. Overfitting terjadi ketika kesalahan pada data pelatihan menurun sementara kesalahan pada data pengujian berhenti menurun atau mulai meningkat.3 Dengan kata lain, overfitting menggambarkan model dengan bias rendah dan varians tinggi. Namun, jika regularisasi memunculkan terlalu banyak bias, maka model akan kurang cocok.

Terlepas dari namanya, underfitting tidak menunjukkan kebalikan dari overfitting. Underfitting menggambarkan model yang dicirikan oleh bias tinggi dan varians tinggi. Model yang mengalami underfitting menghasilkan prediksi salah yang tidak memuaskan selama pelatihan dan pengujian. Ini sering terjadi akibat data atau parameter pelatihan yang tidak memadai.

Namun, regularisasi berpotensi menyebabkan model underfitting. Jika terlalu banyak bias dimunculkan melalui regularisasi, varians model dapat berhenti menurun dan bahkan meningkat. Regularisasi mungkin memiliki efek ini terutama pada model sederhana, yaitu model dengan sedikit parameter. Dalam menentukan jenis dan tingkat regularisasi yang akan diterapkan, kita harus mempertimbangkan kompleksitas model, kumpulan data, dan sebagainya.4

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Jenis-jenis regularisasi dengan model linier

Regresi linier dan regresi logistik keduanya merupakan model prediktif yang mendasari machine learning. Regresi linier (atau kuadrat terkecil biasa) bertujuan untuk mengukur dan memprediksi dampak dari satu atau lebih prediktor terhadap hasil yang diberikan dengan menemukan garis yang paling sesuai melalui titik-titik data yang disediakan (yaitu data pelatihan). Regresi logistik bertujuan untuk menentukan probabilitas kelas melalui output biner yang diberikan berbagai prediktor. Dengan kata lain, regresi linier membuat prediksi kuantitatif kontinu, sedangkan regresi logistik menghasilkan prediksi kategorikal yang terbatas.5

Tentu saja, karena jumlah prediktor meningkat dalam salah satu model regresi, hubungan input-output tidak selalu mudah dan membutuhkan manipulasi rumus regresi. Masukkan regularisasi. Ada tiga bentuk utama regularisasi untuk model regresi. Perhatikan bahwa daftar ini hanya survei singkat. Penerapan teknik regularisasi ini baik dalam regresi linier maupun logistik bervariasi secara kecil.

  • Regresi Lasso (atau regularisasi L1) adalah teknik regularisasi yang menghukum koefisien yang berkorelasi dan bernilai tinggi. Teknik ini memasukkan parameter regularisasi (disebut juga parameter penalti) ke dalam fungsi kesalahan jumlah kesalahan kuadrat (SSE) model. Parameter penalti ini adalah nilai absolut dari jumlah koefisien. Pada gilirannya dikendalikan oleh hiperparameter lambda (λ), ini mengurangi bobot fitur tertentu menjadi nol. Regresi Lasso dengan demikian menghilangkan sama sekali fitur multikolinier dari model.

  • Regresi ridge (atau regularisasi L2) adalah teknik regularisasi yang juga menghukum koefisien bernilai tinggi dengan memasukkan parameter penalti dalam fungsi kesalahan SSE. Namun, ini berbeda dengan regresi lasso. Pertama, parameter penalti dalam regresi ridge adalah jumlah kuadrat dari koefisien, bukan nilai absolut dari koefisien. Kedua, regresi ridge tidak memberlakukan pemilihan fitur. Sementara parameter penalti regresi lasso dapat menghapus fitur dari model dengan mengurangi nilai koefisien menjadi nol, regresi ridge hanya mengurangi bobot fitur ke arah nol tetapi tidak pernah menjadi nol.

  • Regularisasi jaring elastis pada dasarnya menggabungkan regresi ridge dan lasso, tetapi memasukkan parameter penalti L1 dan L2 ke dalam fungsi kesalahan SSE. L2 dan L1 memperoleh nilai parameter penalti masing-masing dengan menguadratkan atau mengambil nilai absolut dari jumlah bobot fitur. Jaring elastis memasukkan kedua nilai penalti ini ke dalam persamaan fungsi biaya (SSE). Dengan cara ini, jaring elastis mengatasi multikolinieritas sekaligus memungkinkan pemilihan fitur.6

Dalam statistik, metode ini juga disebut "penyusutan koefisien," karena metode ini menyusutkan nilai koefisien prediktor dalam model prediktif. Dalam ketiga teknik tersebut, kekuatan suku penalti dikontrol oleh lambda, yang dapat dihitung menggunakan berbagai teknik validasi silang.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Jenis regularisasi dalam machine learning

Kumpulan data

Augmentasi data adalah teknik regularisasi yang memodifikasi data pelatihan model. Teknik ini memperluas ukuran set pelatihan dengan membuat sampel data buatan yang berasal dari data pelatihan yang telah ada sebelumnya. Menambahkan lebih banyak sampel ke set pelatihan, terutama contoh yang jarang ditemukan dalam data dunia nyata, akan memaparkan model pada kuantitas dan keberagaman data yang lebih besar, yang menjadi sumber pembelajarannya. Penelitian machine learning baru-baru ini mengeksplorasi augmentasi data untuk pengklasifikasi, khususnya sebagai sarana untuk menyelesaikan kumpulan data yang tidak seimbang.7 Namun, augmentasi data berbeda dari data sintetis. Data sintetis melibatkan penciptaan data buatan yang baru sementara augmentasi data menghasilkan duplikat yang dimodifikasi dari data yang sudah ada sebelumnya untuk mendiversifikasi dan memperluas kumpulan data.

Visualisasi teknik modifikasi untuk mendiversifikasi rangkaian gambar

Pelatihan model

Penghentian dini mungkin merupakan teknik regularisasi yang paling mudah diterapkan. Singkatnya, ini membatasi jumlah iterasi selama pelatihan model. Di sini, sebuah model terus menerus melewati data pelatihan, berhenti ketika tidak ada peningkatan (dan bahkan mungkin mengalami penurunan) dalam akurasi pelatihan dan validasi. Tujuannya adalah untuk melatih sebuah model hingga mencapai kesalahan pelatihan serendah mungkin sebelum terjadi plateau atau peningkatan kesalahan validasi.8

Banyak paket Python machine learning menyediakan opsi perintah pelatihan untuk penghentian dini. Bahkan, pada beberapa, penghentian dini merupakan pengaturan latihan default.

Visualisasi grafis penghentian dini dalam kaitannya dengan pelatihan dan akurasi validasi

Neural Networks

Neural Networks adalah model machine learning yang kompleks yang menggerakkan banyak aplikasi dan layanan kecerdasan buatan. Neural networks terdiri dari lapisan input, satu atau lebih lapisan tersembunyi, dan lapisan output, yang masing-masing lapisan terdiri dari beberapa node.

Dropout meregulasi neural networks dengan secara acak mengeluarkan node-node, bersama dengan koneksi input dan output mereka, dari neural networks selama pelatihan (Gbr. 3). Dropout melatih beberapa variasi arsitektur berukuran tetap, dengan setiap variasi memiliki node acak yang berbeda yang tidak termasuk dalam arsitektur. Sebuah neural net tunggal tanpa dropout digunakan untuk pengujian, menggunakan metode rata-rata perkiraan yang berasal dari arsitektur pelatihan yang dimodifikasi secara acak. Dengan cara ini, dropout mendekati pelatihan sejumlah besar neural networks dengan banyak arsitektur yang beragam.9

Diagram perbandingan Neural Networks dan jaringan dropout

Peluruhan bobot merupakan bentuk regularisasi lain yang digunakan untuk Neural Networks dalam. Ini mengurangi jumlah bobot jaringan kuadrat melalui parameter regularisasi, mirip dengan regularisasi L2 dalam model linier.10 Namun, ketika digunakan dalam neural networks, pengurangan ini memiliki efek yang mirip dengan regularisasi L1: bobot neuron tertentu berkurang hingga nol.11 Hal ini secara efektif menghilangkan node dari neural networks, mengurangi kompleksitas neural networks melalui kelangkaan.12

Peluruhan bobot mungkin tampak di permukaan mirip dengan dropout di neural networks, tetapi kedua teknik tersebut berbeda. Salah satu perbedaan utamanya adalah, pada dropout, nilai penalti tumbuh secara eksponensial dalam kedalaman jaringan berdasarkan kasus, sedangkan nilai penalti peluruhan bobot tumbuh secara linear. Beberapa percaya ini memungkinkan dropout untuk memberikan penalti kompleksitas jaringan yang lebih berarti daripada peluruhan bobot.13

Banyak artikel dan tutorial online salah mencampuradukkan regularisasi L2 dan peluruhan bobot. Bahkan penelitian akademis tidak konsisten—beberapa membedakan antara L2 dan peluruhan bobot,14 beberapa menyamakannya,15 sementara yang lain tidak konsisten dalam menggambarkan hubungan di antara keduanya.16 Mengatasi ketidakkonsistenan dalam terminologi tersebut merupakan hal yang dibutuhkan tetapi terabaikan untuk penelitian akademis di masa depan.

Catatan kaki

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al. 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023 

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max dan Johnson, Kjell, Springer, 2016. Juga Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021

[7]Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012

[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn, Max dan Johnson, Kjell, Springer, 2016.

[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, Jan. 2023

[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Prosiding, Hanson dan Pratt, 1988 

[13] “Surprising properties of dropout in deep networks,” Helmbold, David, dan Long, Philip, JMLR, 2018

[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David, dan Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

 
Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung