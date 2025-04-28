Gradient boosting adalah algoritma machine learning yang efisien dan banyak digunakan dalam ilmu data untuk tugas klasifikasi. Ini adalah bagian dari keluarga metode pembelajaran ensambel serta bagging yang menggabungkan prediksi beberapa model yang lebih sederhana untuk meningkatkan kinerja secara keseluruhan. Regresi gradient boosting menggunakan gradient boosting untuk menghasilkan data output dengan lebih baik berdasarkan regresi linier. Pengklasifikasi gradient boosting yang akan Anda gali dalam tutorial ini menggunakan gradient boosting untuk mengklasifikasikan data input dengan lebih baik yang termasuk dalam dua kelas yang berbeda atau lebih.

Gradient boosting adalah pembaruan dari algoritma adaboost yang menggunakan struktur keputusan tunggal, bukan pohon. Struktur keputusan tunggal ini mirip dengan pohon di metode random forest, tetapi hanya memiliki satu node dan dua daun. Algoritma gradient boosting membangun model secara berurutan, setiap langkah mencoba untuk memperbaiki kesalahan dari iterasi sebelumnya. Proses pelatihan sering dimulai dengan menciptakan pembelajar yang lemah seperti struktur keputusan yang dangkal untuk data pelatihan. Setelah pelatihan awal tersebut, gradient boosting menghitung kesalahan antara nilai aktual dan prediksi (sering disebut residual) dan kemudian melatih estimator baru untuk memprediksi kesalahan ini. Pohon baru itu ditambahkan ke ensambel untuk memperbarui prediksi guna menciptakan pembelajar yang kuat. Gradient boosting mengulangi proses ini hingga perbaikan berhenti atau hingga jumlah iterasi yang ditetapkan tercapai. Boosting itu sendiri mirip dengan gradient descent, tetapi “menurunkan” gradien dengan menambahkan model baru.

Boosting memiliki beberapa keunggulan: memiliki kinerja yang baik pada data tabular dan dapat menangani data numerik dan kategoris. Teknik ini bekerja dengan baik bahkan dengan parameter default dan tangguh terhadap outlier dalam kumpulan data. Namun, pelatihannya bisa berjalan lambat dan sering kali sangat sensitif terhadap hiperparameter yang ditetapkan untuk proses melatih. Menjaga jumlah pohon yang dibuat lebih kecil dapat mempercepat proses pelatihan saat bekerja dengan kumpulan data besar. Langkah ini biasanya dilakukan melalui parameter kedalaman maks. Gradient boosting juga dapat rentan terhadap overfitting jika tidak disetel dengan benar. Untuk mencegah overfitting, Anda dapat mengonfigurasi tingkat pembelajaran untuk proses pelatihan. Proses ini kira-kira sama untuk pengklasifikasi atau regresor gradient boosting dan digunakan dalam xgboost yang populer, yang dibangun di gradient boosting dengan menambahkan regularisasi.

Dalam tutorial ini, Anda akan mempelajari cara menggunakan dua bahasa pemrograman yang berbeda dan pustaka gradient boosting untuk mengklasifikasikan penguin menggunakan kumpulan data Palmer Penguins yang populer.

