Random forest adalah algoritma machine learning yang umum digunakan, dengan merek dagang milik Leo Breiman dan Adele Cutler, yang menggabungkan hasil dari beberapa decision trees untuk mencapai satu hasil. Algoritma ini banyak diadopsi karena mudah digunakan dan fleksibel, dan mampu menangani masalah klasifikasi dan regression.
Karena model random forest terdiri dari beberapa decision trees, akan sangat membantu jika kita mulai dengan menjelaskan algoritma decision trees secara singkat. Decision trees dimulai dengan pertanyaan dasar, seperti, “Apa saya bisa berselancar?” Dari sana, Anda dapat mengajukan serangkaian pertanyaan untuk menentukan jawaban, seperti, “Apakah ini gelombang dengan periode panjang?” atau “Apakah angin bertiup ke lepas pantai?”. Pertanyaan-pertanyaan ini membentuk node keputusan di pohon, yang bertindak sebagai sarana untuk memisahkan data. Setiap pertanyaan membantu seseorang untuk sampai pada keputusan akhir, yang akan dilambangkan dengan node daun. Pengamatan yang sesuai dengan kriteria akan mengikuti cabang “Ya” dan yang tidak sesuai akan mengikuti jalur alternatif. Decision trees berusaha menemukan pemisahan terbaik untuk sub-kumpulan data, dan decision trees biasanya dilatih melalui algoritma Classification and Regression Tree (CART). Metrik, seperti ketidakmurnian Gini, perolehan informasi, atau mean square error (MSE), dapat digunakan untuk mengevaluasi kualitas pemisahan.
Decision trees ini adalah contoh masalah klasifikasi, di mana label kelasnya adalah 'selancar' dan 'jangan berselancar'.
Meskipun decision trees adalah algoritma pembelajaran diawasi yang umum digunakan, masalah seperti bias dan overfitting tetap rentan terjadi. Namun, ketika beberapa decision trees membentuk sebuah ansambel dalam algoritma random forest, mereka memprediksi hasil yang lebih akurat, terutama ketika decision tree individu tidak berkorelasi dengan satu sama lain.
Metode pembelajaran ansambel terdiri dari sekumpulan pengklasifikasi, seperti decision trees, dan prediksi mereka digabungkan untuk mengidentifikasi hasil yang paling populer. Metode ansambel yang paling terkenal adalah bagging, juga dikenal sebagai agregasi bootstrap, dan boosting. Pada tahun 1996, Leo Breiman (tautan berada di luar ibm.com) memperkenalkan metode bagging; dalam metode ini, sampel acak data dalam set pelatihan dipilih dengan penggantian, yang berarti bahwa titik data individu dapat dipilih lebih dari satu kali. Setelah beberapa sampel data dihasilkan, model-model ini kemudian dilatih secara independen, dan tergantung pada jenis tugas, yaitu regresi atau klasifikasi, rata-rata atau sebagian besar prediksi tersebut menghasilkan perkiraan yang lebih akurat. Pendekatan ini sering digunakan untuk mengurangi varians dalam kumpulan data yang bising.
Algoritma random forest merupakan perluasan dari metode bagging karena menggunakan bagging dan keacakan fitur untuk menciptakan hutan decision trees yang tidak berkorelasi. Keacakan fitur, juga dikenal sebagai fitur bagging atau “metode subruang acak” (tautan berada di luar ibm.com), menghasilkan subset fitur acak, yang memastikan korelasi rendah di antara decision trees. Ini adalah perbedaan utama antara decision trees dengan random forest. Sementara decision trees mempertimbangkan semua kemungkinan pemisahan fitur, random forest hanya memilih subset dari fitur tersebut.
Jika kita kembali ke contoh "haruskah saya berselancar?", pertanyaan yang mungkin saya ajukan untuk menentukan prediksi mungkin tidak selengkap pertanyaan orang lain. Dengan memperhitungkan semua potensi variabilitas dalam data, kami dapat mengurangi risiko overfitting, bias, dan varians secara keseluruhan, sehingga menghasilkan prediksi yang lebih tepat.
Algoritma hutan acak memiliki tiga hiperparameter utama, yang perlu diatur sebelum pelatihan. Hiperparameter ini adalah ukuran simpul, jumlah pohon, dan jumlah fitur yang diambil sampelnya. Dari sana, pengklasifikasi hutan acak dapat digunakan untuk memecahkan masalah regresi atau klasifikasi.
Algoritma hutan acak terdiri dari kumpulan decision trees, dan setiap decision tree dalam himpunan terdiri dari sampel data yang diambil dari set pelatihan dengan penggantian, yang disebut Bootstrapping. Dari sampel pelatihan tersebut, sepertiganya disisihkan sebagai data uji, yang dikenal sebagai sampel out-of-bag (oob), yang akan kita bahas nanti. Contoh keacakan lainnya kemudian dimasukkan melalui pengemasan fitur, dengan menambahkan lebih banyak keberagaman pada kumpulan data dan mengurangi korelasi di antara decision trees. Bergantung pada jenis masalahnya, penentuan prediksi akan bervariasi. Untuk tugas regresi, decision tree individu akan dirata-ratakan, dan untuk tugas klasifikasi, suara mayoritas —yaitu variabel kategori yang paling sering—akan menghasilkan kelas yang diprediksi. Terakhir, sampel oob kemudian digunakan untuk validasi silang, sehingga menyelesaikan prediksi itu.
Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh algoritma random forest ketika digunakan untuk masalah klasifikasi atau regresi. Beberapa di antaranya adalah:
Algoritma random forest telah diterapkan di sejumlah industri, sehingga memungkinkannya membuat keputusan bisnis yang lebih baik. Beberapa contoh penggunaannya meliputi:
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
Jelajahi pendekatan pembelajaran yang diawasi seperti mesin vendor pendukung dan pengklasifikasi probabilistik.
Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.