Apa itu Bagging?

Apa itu bagging?

Bagging, juga dikenal sebagai agregasi bootstrap, adalah metode pembelajaran ansambel yang biasa digunakan untuk mengurangi varians dalam kumpulan data dengan banyak derau.

Dalam bagging, sampel acak data dalam set pelatihan dipilih dengan penggantian—artinya, setiap titik data dapat dipilih lebih dari satu kali. Setelah menghasilkan beberapa sampel data, model lemah ini kemudian dilatih secara independen. Bergantung pada jenis tugas—regresi atau klasifikasi, misalnya—rata-rata atau sebagian besar dari prediksi tersebut menghasilkan perkiraan yang lebih akurat.

Sebagai catatan, algoritma hutan acak dianggap sebagai perluasan metode bagging, yang menggunakan bagging dan keacakan fitur untuk membuat forest decision trees yang tidak berkorelasi.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Pembelajaran ansambel

Pembelajaran ansambel memberikan dukungan pada gagasan "kebijaksanaan orang banyak", yang menunjukkan bahwa pengambilan keputusan dari sekelompok orang yang lebih banyak biasanya lebih baik daripada pengambilan keputusan oleh seorang pakar. Demikian pula, pembelajaran ansambel mengacu pada sekelompok (atau ansambel) pelajar dasar, atau model, yang bekerja secara kolektif untuk mencapai prediksi akhir yang lebih baik.

Sebuah model tunggal, juga dikenal sebagai pembelajar dasar atau lemah, mungkin tidak berkinerja baik secara individual karena varians atau bias yang tinggi. Namun, saat banyak pelajar yang lemah bergabung, mereka dapat membentuk pelajar yang kuat, karena kombinasi mereka mengurangi bias atau varians, menghasilkan kinerja model yang lebih baik.

Metode ensemble sering menggunakan decision trees untuk ilustrasi. Algoritma ini mungkin rentan terhadap overfitting, menunjukkan varians tinggi dan bias rendah, ketika belum dipangkas. Sebaliknya, hal ini juga dapat menyebabkan underfitting, dengan varians yang rendah dan bias yang tinggi, jika variansnya sangat kecil, seperti decision stump, yang merupakan decision trees dengan satu tingkat.

Ingat, ketika sebuah algoritma mengalami overfitting atau underfitting pada set pelatihannya, algoritma tersebut tidak dapat melakukan generalisasi yang baik pada set data baru, sehingga metode ansambel digunakan untuk mengatasi perilaku ini sehingga generalisasi model ke set data baru dapat dilakukan. Meskipun decision tree dapat menunjukkan varians atau bias yang tinggi, perlu dicatat bahwa decision tree bukanlah satu-satunya teknik pemodelan yang memanfaatkan pembelajaran ansambel untuk menemukan "posisi yang tepat" dalam pertukaran bias-varians.

Akademi AI

Manfaatkan AI untuk layanan pelanggan

Lihat bagaimana AI generatif dapat menyenangkan pelanggan dengan pengalaman yang lebih mulus dan meningkatkan produktivitas organisasi di tiga area utama ini: layanan mandiri, agen manusia, dan operasi pusat kontak.

Buka episode

Bagging vs. boosting

Bagging dan boosting adalah dua jenis utama metode pembelajaran ansambel. Seperti yang disoroti dalam penelitian ini , perbedaan utama antara metode pembelajaran ini adalah cara mereka dilatih.

Dalam bagging, pembelajar yang lemah dilatih secara paralel, sedangkan dalam boosting, mereka belajar secara berurutan. Artinya, serangkaian model dibangun dan dengan setiap iterasi model baru, bobot dari data yang salah diklasifikasikan dalam model sebelumnya ditingkatkan.

Distribusi ulang bobot ini membantu algoritma mengidentifikasi parameter yang perlu difokuskan untuk meningkatkan kinerjanya. AdaBoost, yang merupakan singkatan dari “adaptative boosting algorithm,” merupakan salah satu algoritma boosting yang paling populer karena merupakan salah satu yang pertama dalam jenisnya. Jenis algoritma peningkatan lainnya termasuk XGBoost, GradientBoost, dan BrownBoost.

Perbedaan lain dari bagging dan boosting adalah skenario tempat mereka digunakan. Sebagai contoh, metode bagging biasanya digunakan pada pelajar yang lemah yang menunjukkan varians tinggi dan bias rendah, sedangkan metode boosting digunakan ketika ada varians rendah dan bias tinggi.

Cara kerja bagging

Pada tahun 1996, Leo Breimanmemperkenalkan algoritma bagging, yang memiliki tiga langkah dasar:

Bootstrapping: Bagging menggunakan teknik sampel bootstrapping untuk membuat sampel yang beragam. Metode pengambilan sampel ulang ini menghasilkan subset yang berbeda dari kumpulan data pelatihan. Hal itu dilakukan dengan memilih titik data secara acak dan dengan penggantian. Artinya, setiap kali Anda memilih titik data dari set data pelatihan, Anda dapat memilih contoh yang sama beberapa kali. Akibatnya, suatu nilai atau instans diulang dua kali (atau lebih) dalam suatu sampel.
Pelatihan paralel: Sampel bootstrapping ini kemudian dilatih secara independen dan paralel satu sama lain menggunakan pelajar lemah atau dasar.
Agregasi: Terakhir, tergantung tugasnya (yaitu, regression atau klasifikasi), rata-rata atau sebagian besar prediksi diambil untuk menghitung estimasi yang lebih akurat. Dalam kasus regression, rata-rata diambil dari semua output yang diprediksi oleh masing-masing pengklasifikasi; ini dikenal sebagai soft voting. Untuk masalah klasifikasi, kelas dengan mayoritas suara tertinggi akan diterima; ini dikenal sebagai hard voting atau voting mayoritas.

Manfaat dan tantangan bagging

Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh metode bagging ketika digunakan untuk masalah klasifikasi atau regression. Manfaat utama dari bagging meliputi:

Kemudahan implementasi: Perpustakaan Python seperti scikit-learn (juga dikenal sebagai sklearn) memudahkan penggabungan prediksi dari pelaar dasar atau estimator untuk meningkatkan kinerja model. Dokumentasimereka menjabarkan modul yang tersedia yang dapat Anda gunakan dalam pengoptimalan model Anda.
Pengurangan varians: Bagging dapat mengurangi varians dalam algoritma pembelajaran. Hal ini sangat membantu dengan data berdimensi tinggi, saat missing values dapat menyebabkan varians yang lebih tinggi, sehingga lebih rentan terhadap overfitting dan mencegah generalisasi yang akurat untuk set data baru.

Tantangan utama dari bagging meliputi:

Hilangnya interpretabilitas: Sulit untuk menarik insight bisnis yang sangat tepat melalui bagging karena penghitungan rata-rata yang berlangsung di seluruh prediksi. Meskipun outputnya lebih tepat daripada titik data individu, kumpulan data yang lebih akurat atau lengkap juga dapat menghasilkan lebih banyak presisi dalam satu klasifikasi atau model regression.
Komputasi yang mahal: Bagging melambat dan semakin intensif seiring dengan bertambahnya jumlah iterasi. Dengan demikian, ini tidak cocok untuk aplikasi real-time. Sistem terklaster atau sejumlah besar inti pemrosesan sangat ideal untuk membuat ansambel bagging dengan cepat pada set pengujian yang besar.
Kurang fleksibel: Sebagai suatu teknik, bagging sangat efektif dengan algoritma yang kurang stabil. Model yang lebih stabil atau memiliki jumlah bias yang tinggi tidak memberikan banyak manfaat karena variasi yang lebih sedikit dalam set data model. Seperti yang tercantum dalam Hands-On Guide to Machine Learning“bagging pada model regresi linier secara efektif hanya akan mengembalikan prediksi asli untuk b yang cukup besar.”

Penggunaan bagging

Teknik bagging digunakan di banyak industri, memberikan insight untuk nilai dunia nyata dan perspektif yang menarik, seperti dalam GRAMMY Debates dengan Watson. Beberapa contoh penggunaan meliputi:

Perawatan kesehatan: Bagging telah digunakan untuk membentuk prediksi data medis. Sebagai contoh, penelitianmenunjukkan bahwa metode ensemble telah digunakan untuk berbagai masalah bioinformatika, seperti pemilihan gen dan/atau protein untuk mengidentifikasi sifat tertentu yang diminati. Secara lebih spesifik,penelitianini mempelajari penggunaannya untuk memprediksi timbulnya diabetes berdasarkan berbagai prediktor risiko.
TI: Bagging juga dapat meningkatkan presisi dan akurasi dalam sistem TI, seperti sistem deteksi intrusi jaringan. Sementara itu, penelitian inimelihat bagaimana bagging dapat meningkatkan akurasi deteksi intrusi jaringan—dan mengurangi tingkat positif palsu.
Lingkungan: Metode ansambel, seperti bagging, telah diterapkan dalam bidang penginderaan jauh. Lebih khusus lagi, penelitian ini menunjukkan bagaimana ia digunakan untuk memetakan jenis lahan basah dalam lingkungan pesisir.
Keuangan: Bagging juga telah digunakan dengan model pembelajaran mendalam di industri keuangan, mengotomatiskan tugas-tugas penting, termasuk deteksi penipuan, evaluasi risiko kredit, dan masalah penetapan harga opsi. Penelitian ini menunjukkan bagaimana bagging di antara teknik machine learning telah digunakan untuk menilai risiko gagal bayar pinjaman. Studi menyoroti bagaimana bagging membantu meminimalkan risiko dengan mencegah penipuan kartu kredit di perbankan dan lembaga keuangan.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu bagging?

Apa itu bagging?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Pembelajaran ansambel

Manfaatkan AI untuk layanan pelanggan

Bagging vs. boosting

Cara kerja bagging

Manfaat dan tantangan bagging

Penggunaan bagging

Sumber daya