Apa Itu Boosting?

Apa itu boosting?

Boosting adalah metode pembelajaran ansambel yang menggabungkan sekumpulan pembelajar yang lemah ke dalam pembelajar yang kuat untuk meminimalkan kesalahan pelatihan. Boosting pada algoritma dapat meningkatkan daya prediksi inisiatif penambangan data Anda.

Dalam boosting, sampel data secara acak dipilih, dipasangi model, dan kemudian dilatih secara berurutan—yaitu, setiap model mencoba mengkompensasi kelemahan dari model sebelumnya. Dengan setiap iterasi, aturan yang lemah dari setiap pengklasifikasi individu digabungkan untuk membentuk satu aturan prediksi yang kuat.

Pembelajaran ansambel

Pembelajaran ansambel memberikan dukungan pada gagasan "kebijaksanaan orang banyak", yang menunjukkan bahwa pengambilan keputusan dari sekelompok orang yang lebih banyak biasanya lebih baik daripada pengambilan keputusan oleh seorang pakar. Demikian pula, pembelajaran ansambel mengacu pada sekelompok (atau ansambel) pembelajar dasar, atau model, yang bekerja secara kolektif untuk mencapai prediksi akhir yang lebih baik. Sebuah model tunggal, juga dikenal sebagai pembelajar dasar atau lemah, mungkin tidak berkinerja baik secara individual karena varians atau bias yang tinggi. Namun, saat banyak pembelajar yang lemah bergabung, mereka dapat membentuk pembelajar yang kuat, karena kombinasi mereka mengurangi bias atau varians, menghasilkan kinerja model yang lebih baik.

Metode ansambel sering digambarkan menggunakan decision trees, karena algoritma ini dapat rentan terhadap overfitting (varians tinggi dan bias rendah) jika tidak dipangkas, dan dapat juga menyebabkan underfitting (varians rendah dan bias tinggi) jika kecil sekali, seperti decision stump, yang merupakan decision tree dengan satu tingkat. Ingat, ketika sebuah algoritma mengalami overfitting atau underfitting terhadap kumpulan data pelatihannya, algoritma tersebut tidak dapat dengan baik digeneralisasikan pada kumpulan data baru. Untuk mengatasi perilaku ini, metode ansambel digunakan guna memungkinkan generalisasi model ke kumpulan data baru. Meski dapat menunjukkan varians atau bias yang tinggi, perlu dicatat bahwa decision trees bukanlah teknik pemodelan yang hanya menggunakan pembelajaran ansambel untuk menemukan posisi yang tepat dalam pertukaran bias-varians.

Bagging versus boosting

Bagging dan boosting adalah dua jenis utama metode pembelajaran ansambel. Seperti yang disorot dalam penelitian ini (tautan berada di luar ibm.com), perbedaan utama antara metode pembelajaran ini adalah cara mereka dilatih. Dalam bagging, pembelajar yang lemah dilatih secara paralel, sedangkan dalam boosting, mereka belajar secara berurutan. Artinya, serangkaian model dibangun dan dengan setiap iterasi model baru, bobot dari data yang salah diklasifikasikan dalam model sebelumnya ditingkatkan. Distribusi ulang bobot ini membantu algoritma mengidentifikasi parameter yang perlu difokuskan untuk meningkatkan kinerjanya. AdaBoost, yang merupakan singkatan dari “adaptative boosting algorithm,” merupakan salah satu algoritma boosting yang paling populer karena merupakan salah satu yang pertama dalam jenisnya. Jenis algoritma peningkatan lainnya meliputi XGBoost, GradientBoost, dan BrownBoost.

Perbedaan lain antara bagging dan boosting adalah cara mereka digunakan. Sebagai contoh, metode bagging biasanya digunakan pada pembelajar yang lemah yang menunjukkan varians tinggi dan bias rendah, sedangkan metode boosting digunakan ketika varians rendah dan bias tinggi ditemukan. Meskipun bagging dapat digunakan untuk menghindari overfitting, metode boosting bisa lebih rentan terhadap hal ini (tautan berada di luar ibm.com) meskipun itu benar-benar tergantung pada kumpulan datanya. Namun, penyetelan parameter dapat membantu menghindari masalah tersebut.

Oleh karena itu, bagging dan boosting juga memiliki penerapan yang berbeda di dunia nyata. Bagging telah dimanfaatkan untuk proses persetujuan pinjaman dan genomik statistik sementara boosting telah lebih banyak digunakan dalam aplikasi pengenalan gambar dan mesin pencari.

Cara memilih model dasar AI yang tepat

Gunakan kerangka kerja pemilihan model ini untuk memilih model yang paling tepat sambil menyeimbangkan kebutuhan kinerja Anda dengan biaya, risiko, dan kebutuhan penerapan.

Konten terkait

Daftar untuk mendapatkan buku elektronik di penyimpanan data AI

Jenis-jenis boosting

Metode boosting difokuskan pada penggabungan pembelajar yang lemah secara berulang untuk membangun pembelajar yang kuat yang dapat memprediksi hasil yang lebih akurat. Sebagai pengingat, pembelajar yang lemah mengklasifikasikan data sedikit lebih baik daripada menebak secara acak. Pendekatan ini dapat memberikan hasil yang kuat untuk masalah prediksi, dan bahkan dapat mengungguli neural networks dan mendukung mesin vektor untuk tugas-tugas seperti pengambilan gambar (tautan berada di luar ibm.com).

Algoritma boosting dapat berbeda dalam cara mereka membuat dan menggabungkan peserta didik yang lemah selama proses berurutan. Tiga jenis metode boosting yang populer meliputi:

Boosting adaptif atau AdaBoost: Yoav Freund dan Robert Schapire berjasa dalam menciptakan algoritma AdaBoost. Metode ini beroperasi secara iteratif, mengidentifikasi titik data yang salah diklasifikasikan dan menyesuaikan bobotnya untuk meminimalkan kesalahan pelatihan. Model terus dioptimalkan secara berurutan sampai menghasilkan prediktor terkuat.
Boosting gradien: Berdasarkan karya Leo Breiman, Jerome H. Friedman mengembangkan boosting gradien, yang bekerja dengan menambahkan prediktor secara berurutan ke dalam sebuah ansambel dan masing-masing mengoreksi kesalahan pendahulunya. Namun, alih-alih mengubah bobot titik data seperti AdaBoost, boosting gradien melatih kesalahan residual dari prediktor sebelumnya. Namanya, boosting gradien, digunakan karena boosting ini menggabungkan algoritma penurunan gradien dan metode boosting.
Boosting gradien ekstrem atau XGBoost: XGBoost adalah implementasi boosting gradien yang dirancang untuk kecepatan dan skala komputasi. XGBoost memanfaatkan beberapa inti pada CPU, memungkinkan pembelajaran terjadi secara paralel selama pelatihan.

Manfaat dan tantangan boosting

Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh metode boosting ketika digunakan untuk masalah klasifikasi atau regresi.

Manfaat utama dari boosting meliputi:

Kemudahan Implementasi: Boosting dapat digunakan dengan beberapa opsi penyetelan hiper-parameter untuk meningkatkan pemasangan. Tidak diperlukan prapemrosesan data, dan algoritma boosting seperti memiliki rutinitas bawaan untuk menangani data yang hilang. Dalam Python, pustaka scikit-learn metode ansambel (juga dikenal sebagai sklearn.ensemble) membuatnya mudah untuk menerapkan metode boosting populer, termasuk AdaBoost, XGBoost, dll.
Pengurangan bias: Algoritme boosting menggabungkan beberapa pembelajar yang lemah dalam metode berurutan, yang secara iteratif meningkatkan pengamatan. Pendekatan ini dapat membantu mengurangi bias tinggi, biasanya terlihat pada decision trees dangkal dan model regresi logistik.
Efisiensi Komputasi: Karena algoritma boosting hanya memilih fitur yang meningkatkan daya prediktifnya selama pelatihan, ini dapat membantu mengurangi dimensi serta meningkatkan efisiensi komputasi.

Tantangan utama dari boosting meliputi:

Overfitting: Ada beberapa perdebatan dalam penelitian (tautan berada di luar ibm.com) seputar apakah boosting dapat membantu mengurangi overfitting atau memperburuknya. Kami memasukkannya ke dalam tantangan karena jika hal itu terjadi, prediksi tidak dapat digeneralisasi ke kumpulan data baru.
Komputasi yang intensif: Pelatihan berurutan dalam boosting sulit ditingkatkan. Karena setiap estimator dibangun berdasarkan pendahulunya, model boosting dapat memerlukan komputasi yang mahal, meskipun XGBoost berupaya mengatasi masalah skalabilitas yang terlihat pada jenis metode boosting lainnya. Algoritma boosting dapat dilatih lebih lambat jika dibandingkan dengan bagging karena sejumlah besar parameter juga dapat memengaruhi perilaku model.

Aplikasi boosting

Algoritma boosting sangat cocok untuk proyek kecerdasan buatan di berbagai industri, termasuk:

Kesehatan: Boosting digunakan untuk menurunkan kesalahan dalam prediksi data medis, seperti memprediksi faktor risiko kardiovaskular dan tingkat kelangsungan hidup pasien kanker. Misalnya, penelitian (tautan berada di luar ibm.com) menunjukkan bahwa metode ansambel secara signifikan meningkatkan akurasi dalam mengidentifikasi pasien yang dapat memperoleh manfaat dari pengobatan pencegahan penyakit kardiovaskular, sambil menghindari pengobatan yang tidak perlu terhadap orang lain. Demikian juga, studi lain (tautan berada di luar ibm.com) menemukan bahwa menerapkan peningkatan ke beberapa platform genomik dapat meningkatkan prediksi waktu kelangsungan hidup kanker.

TI: Pohon regresi dengan boosting gradien digunakan di mesin pencari untuk peringkat halaman, sedangkan algoritma boosting Viola-Jones digunakan untuk pengambilan gambar. Seperti yang dicatat oleh Cornell (tautan berada di luar ibm.com), pengklasifikasi dengan boosting memungkinkan komputasi dihentikan lebih cepat ketika arah prediksi yang dituju sudah jelas. Ini berarti bahwa mesin pencari dapat menghentikan evaluasi halaman peringkat yang lebih rendah, sedangkan pemindai gambar hanya akan mempertimbangkan gambar yang benar-benar berisi objek yang diinginkan.
Keuangan: Boosting digunakan dengan model pembelajaran mendalam untuk mengotomatiskan tugas-tugas penting, termasuk deteksi penipuan, analisis harga, dan banyak lagi. Misalnya, meningkatkan metode dalam deteksi penipuan kartu kredit dan analisis harga produk keuangan (tautan berada di luar ibm.com) meningkatkan akurasi dalam menganalisis kumpulan data besar untuk meminimalkan kerugian finansial.

Solusi terkait

IBM SPSS Modeler

Dorong ROI dan percepat time to value dengan alat ilmu data seret dan lepas yang intuitif.

Jelajahi IBM SPSS Modeler

Solusi IBM Cloud

Hybrid. Terbuka. Resilient. Platform dan mitra Anda untuk transformasi digital.

Jelajahi Solusi Cloud

Solusi IBM Cloud Pak

Perangkat lunak hybrid cloud yang didukung AI.

Jelajahi Solusi Cloud Pak

Resources

IBM Research: quantum boosting

Makalah ini menunjukkan cara quantum meningkatkan kompleksitas waktu AdaBoost klasik.

SnapBoost: Mesin Boosting Heterogen

IBM Research mempelajari Mesin Boosting Newton Heterogen (HNBM) yang di dalamnya kelas hipotesis dasar dapat bervariasi di seluruh iterasi boosting.

Ambil langkah selanjutnya

IBM SPSS Modeler adalah solusi ilmu data visual dan machine learning (ML) yang memperlihatkan pola dan model yang tersembunyi dalam data melalui pendekatan pembuatan hipotesis dari bawah ke atas. Organisasi di seluruh dunia menggunakannya untuk persiapan dan penemuan data, analisis prediktif, pengelolaan dan penerapan model, serta ML untuk memonetisasi aset data.

Jelajahi SPSS Modeler

Coba gratis selama 30 hari