Beranda

Topics

Bagging

Apa itu bagging?
Terapkan bagging dengan IBM Daftar untuk pembaruan cloud
Ilustrasi dengan kolase piktogram monitor komputer, server, awan, titik-titik
Apa itu bagging?

Bagging, juga dikenal sebagai agregasi bootstrap, adalah metode pembelajaran ansambel yang biasa digunakan untuk mengurangi varians dalam kumpulan data dengan banyak derau.

Dalam bagging, sampel acak data dalam set pelatihan dipilih dengan penggantian—artinya, setiap titik data dapat dipilih lebih dari satu kali. Setelah menghasilkan beberapa sampel data, model lemah ini kemudian dilatih secara independen. Bergantung pada jenis tugasnya—egression atau klasifikasi, misalnya—rata-rata atau mayoritas dari prediksi tersebut menghasilkan estimasi yang lebih akurat. 

Sebagai catatan, algoritma forest acak dianggap sebagai perluasan metode bagging, yang menggunakan bagging dan keacakan fitur untuk membuat forest decision trees yang tidak berkorelasi.

Pembelajaran ansambel

Pembelajaran secara berkelompok memberikan kepercayaan pada gagasan "kebijaksanaan orang banyak", yang menunjukkan bahwa pengambilan keputusan dari sekelompok orang yang lebih besar biasanya lebih baik daripada pengambilan keputusan oleh seorang pakar. Demikian pula, pembelajaran ansambel mengacu pada sekelompok (atau ansambel) pelajar dasar, atau model, yang bekerja secara kolektif untuk mencapai prediksi akhir yang lebih baik.

Sebuah model tunggal, juga dikenal sebagai pelajar dasar atau lemah, mungkin tidak berkinerja baik secara individual karena varians atau bias yang tinggi. Namun, saat banyak pelajar yang lemah bergabung, mereka dapat membentuk pelajar yang kuat, karena kombinasi mereka mengurangi bias atau varians, menghasilkan kinerja model yang lebih baik.

Metode ensemble sering menggunakan decision trees untuk ilustrasi. Algoritma ini mungkin rentan terhadap overfitting, menunjukkan varians tinggi dan bias rendah, ketika belum dipangkas. Sebaliknya, hal ini juga dapat menyebabkan underfitting, dengan varians yang rendah dan bias yang tinggi, jika variansnya sangat kecil, seperti decision stump, yang merupakan decision tree dengan satu tingkat.

Ingat, ketika sebuah algoritma mengalami overfitting atau underfitting pada set pelatihannya, algoritma tersebut tidak dapat melakukan generalisasi yang baik pada set data baru, sehingga metode ansambel digunakan untuk mengatasi perilaku ini sehingga generalisasi model ke set data baru dapat dilakukan. Meskipun decision tree dapat menunjukkan varians atau bias yang tinggi, perlu dicatat bahwa decision tree bukanlah satu-satunya teknik pemodelan yang memanfaatkan pembelajaran ansambel untuk menemukan "posisi yang tepat" dalam pertukaran bias-varians.

Bagging versus boosting

Bagging dan boosting adalah dua jenis utama metode pembelajaran ansambel. Seperti yang disorot dalam penelitian ini (tautan berada di luar ibm.com), perbedaan utama antara metode pembelajaran ini adalah bagaimana mereka dilatih.

Dalam bagging, pelajar yang lemah dilatih secara paralel, sedangkan dalam boosting, mereka belajar secara berurutan. Artinya, serangkaian model dibangun dan dengan setiap iterasi model baru, bobot dari data yang salah diklasifikasikan dalam model sebelumnya ditingkatkan.

Distribusi ulang bobot ini membantu algoritma mengidentifikasi parameter yang perlu difokuskan untuk meningkatkan kinerjanya. AdaBoost, yang merupakan singkatan dari “adaptative boosting algorithm,” merupakan salah satu algoritma boosting yang paling populer karena merupakan salah satu yang pertama dalam jenisnya. Jenis algoritma peningkatan lainnya termasuk XGBoost, GradientBoost, dan BrownBoost.

Perbedaan lain dari bagging dan boosting adalah skenario tempat mereka digunakan. Sebagai contoh, metode bagging biasanya digunakan pada pelajar yang lemah yang menunjukkan varians tinggi dan bias rendah, sedangkan metode boosting digunakan ketika ada varians rendah dan bias tinggi.

Sadarilah nilai penuh dari cloud hybrid Anda

Hubungkan dan integrasikan sistem Anda untuk mempersiapkan infrastruktur Anda untuk AI.

Konten terkait Daftar untuk mendapatkan panduan modernisasi aplikasi
Cara kerja bagging

Pada tahun 1996, Leo Breiman (tautan berada di luar ibm.com) memperkenalkan algoritma bagging, yang memiliki tiga langkah dasar:

  1. Bootstrapping:  Bagging memanfaatkan teknik pengambilan sampel bootstrapping untuk menciptakan sampel yang beragam. Metode pengambilan sampel ulang ini menghasilkan subset yang berbeda dari kumpulan data pelatihan. Hal itu dilakukan dengan memilih titik data secara acak dan dengan penggantian. Artinya, setiap kali Anda memilih titik data dari set data pelatihan, Anda dapat memilih contoh yang sama beberapa kali. Akibatnya, suatu nilai atau instans diulang dua kali (atau lebih) dalam suatu sampel.
  2. Pelatihan paralel: Sampel bootstrap ini kemudian dilatih secara independen dan paralel satu sama lain menggunakan pelajar lemah atau dasar.
  3. Agregasi: Terakhir, tergantung tugasnya (yaitu, regression atau klasifikasi), rata-rata atau sebagian besar prediksi diambil untuk menghitung estimasi yang lebih akurat. Dalam kasus regression, rata-rata diambil dari semua output yang diprediksi oleh masing-masing pengklasifikasi; ini dikenal sebagai soft voting. Untuk masalah klasifikasi, kelas dengan mayoritas suara tertinggi akan diterima; ini dikenal sebagai hard voting atau voting mayoritas.
Manfaat dan tantangan bagging

Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh metode bagging ketika digunakan untuk masalah klasifikasi atau regression. Manfaat utama dari bagging meliputi:

  • Kemudahan implementasi: Perpustakaan Python seperti scikit-learn (juga dikenal sebagai sklearn) memudahkan penggabungan prediksi dari pelaar dasar atau estimator untuk meningkatkan kinerja model. Dokumentasi mereka (tautan berada di luar ibm.com) menjabarkan modul yang tersedia yang dapat Anda gunakan dalam pengoptimalan model Anda.
  • Pengurangan varians: Bagging dapat mengurangi varians dalam algoritma pembelajaran. Hal ini sangat membantu dengan data berdimensi tinggi, saat missing values dapat menyebabkan varians yang lebih tinggi, sehingga lebih rentan terhadap overfitting dan mencegah generalisasi yang akurat untuk set data baru.

Tantangan utama dari bagging meliputi:

  • Hilangnya interpretabilitas: Sulit untuk menarik insight bisnis yang sangat tepat melalui bagging karena penghitungan rata-rata yang berlangsung di seluruh prediksi. Meskipun hasilnya lebih tepat daripada titik data individu, kumpulan data yang lebih akurat atau lengkap juga dapat menghasilkan lebih banyak presisi dalam satu klasifikasi atau model regression.
  • Komputasi yang mahal: Bagging melambat dan semakin intensif seiring dengan bertambahnya jumlah iterasi. Dengan demikian, ini tidak cocok untuk aplikasi real-time. Sistem terklaster atau sejumlah besar inti pemrosesan sangat ideal untuk membuat ansambel bagging dengan cepat pada set pengujian yang besar.
  • Kurang fleksibel: Sebagai suatu teknik, bagging sangat efektif dengan algoritma yang kurang stabil. Model yang lebih stabil atau memiliki jumlah bias yang tinggi tidak memberikan banyak manfaat karena variasi yang lebih sedikit dalam set data model. Seperti yang disebutkan dalam Hands-On Guide to Machine Learning (tautan berada di luar ibm.com), "mengantongi model regression linier secara efektif hanya akan mengembalikan prediksi asli untuk b yang cukup besar."
Penggunaan bagging

Teknik bagging digunakan di banyak industri, memberikan insight untuk nilai dunia nyata dan perspektif yang menarik, seperti dalam GRAMMY Debates dengan Watson. Beberapa contoh penggunaan meliputi:

  • Perawatan kesehatan: Bagging telah digunakan untuk membentuk prediksi data medis. Misalnya, penelitian (tautan berada di luar ibm.com) menunjukkan bahwa metode ansambel telah digunakan untuk berbagai masalah bioinformatika, seperti pemilihan gen dan/atau protein untuk mengidentifikasi sifat tertentu yang menarik. Lebih khusus lagi, penelitian ini (tautan berada di luar ibm.com) menggali penggunaannya untuk memprediksi timbulnya diabetes berdasarkan berbagai prediktor risiko.
  • TI: Bagging juga dapat meningkatkan presisi dan akurasi dalam sistem TI, seperti sistem deteksi intrusi jaringan. Sementara itu, penelitian ini (tautan berada di luar ibm.com) melihat bagaimana bagging dapat meningkatkan akurasi deteksi intrusi jaringan—dan mengurangi tingkat positif palsu.
  • Lingkungan: Metode ansambel, seperti bagging, telah diterapkan dalam bidang penginderaan jauh. Lebih khusus lagi, penelitian ini (tautan berada di luar ibm.com) menunjukkan bagaimana penelitian ini digunakan untuk memetakan jenis lahan basah dalam lanskap pesisir.
  • Keuangan: Bagging juga telah digunakan dengan model pembelajaran mendalam di industri keuangan, mengotomatiskan tugas-tugas penting, termasuk deteksi penipuan, evaluasi risiko kredit, dan masalah penetapan harga opsi. Penelitian ini (tautan berada di luar ibm.com) menunjukkan bagaimana bagging di antara teknik machine learning lainnya telah dimanfaatkan untuk menilai risiko gagal bayar pinjaman. Studi ini (tautan berada di luar ibm.com) menyoroti bagaimana bagging membantu meminimalkan risiko dengan mencegah penipuan kartu kredit di dalam lembaga perbankan dan keuangan.
Solusi terkait
IBM SPSS Modeler

Gunakan analisis prediktif untuk membantu mengungkap pola data, mendapatkan akurasi prediktif, dan meningkatkan pengambilan keputusan.

Jelajahi IBM SPSS Modeler
IBM® Watson Studio

Bangun dan skalakan AI tepercaya di cloud apa pun. Otomatiskan siklus hidup AI untuk ModelOps.

Jelajahi IBM Watson Studio
Sumber daya Bagging versus boosting

Pelajari perbedaan antara dua pendekatan pembelajaran ansambel dengan komunitas ilmu data IBM.

Apa itu boosting?

Pelajari algoritma boosting dan bagaimana hal ini dapat meningkatkan kekuatan prediksi inisiatif penambangan data Anda.

Ambil langkah selanjutnya

IBM SPSS Modeler adalah solusi ilmu data visual dan machine learning (ML) yang memperlihatkan pola dan model yang tersembunyi dalam data melalui pendekatan pembuatan hipotesis dari bawah ke atas. Organisasi di seluruh dunia menggunakannya untuk persiapan dan penemuan data, analisis prediktif, pengelolaan dan penerapan model, serta ML untuk memonetisasi aset data.

Jelajahi SPSS Modeler Coba gratis selama 30 hari