Apa itu random forest?

Apa itu random forest?

Random forest adalah algoritma machine learning yang umum digunakan, dengan merek dagang milik Leo Breiman dan Adele Cutler, yang menggabungkan hasil dari beberapa decision trees untuk mencapai satu hasil. Algoritma ini banyak diadopsi karena mudah digunakan dan fleksibel, dan mampu menangani masalah klasifikasi dan regression.

Pohon keputusan

Karena model random forest terdiri dari beberapa decision trees, akan sangat membantu jika kita mulai dengan menjelaskan algoritma decision trees secara singkat. Decision trees dimulai dengan pertanyaan dasar, seperti, “Apa saya bisa berselancar?” Dari sana, Anda dapat mengajukan serangkaian pertanyaan untuk menentukan jawaban, seperti, “Apakah ini gelombang dengan periode panjang?” atau “Apakah angin bertiup ke lepas pantai?”. Pertanyaan-pertanyaan ini membentuk node keputusan di pohon, yang bertindak sebagai sarana untuk memisahkan data. Setiap pertanyaan membantu seseorang untuk sampai pada keputusan akhir, yang akan dilambangkan dengan node daun. Pengamatan yang sesuai dengan kriteria akan mengikuti cabang “Ya” dan yang tidak sesuai akan mengikuti jalur alternatif. Decision trees berusaha menemukan pemisahan terbaik untuk sub-kumpulan data, dan decision trees biasanya dilatih melalui algoritma Classification and Regression Tree (CART). Metrik, seperti ketidakmurnian Gini, perolehan informasi, atau mean square error (MSE), dapat digunakan untuk mengevaluasi kualitas pemisahan.

Decision trees ini adalah contoh masalah klasifikasi, di mana label kelasnya adalah 'selancar' dan 'jangan berselancar'.

Meskipun decision trees adalah algoritma pembelajaran diawasi yang umum digunakan, masalah seperti bias dan overfitting tetap rentan terjadi. Namun, ketika beberapa decision trees membentuk sebuah ansambel dalam algoritma random forest, mereka memprediksi hasil yang lebih akurat, terutama ketika decision tree individu tidak berkorelasi dengan satu sama lain.

Metode ansambel

Metode pembelajaran ansambel terdiri dari sekumpulan pengklasifikasi, seperti decision trees, dan prediksi mereka digabungkan untuk mengidentifikasi hasil yang paling populer. Metode ansambel yang paling terkenal adalah bagging, juga dikenal sebagai agregasi bootstrap, dan boosting. Pada tahun 1996, Leo Breiman (tautan berada di luar ibm.com) memperkenalkan metode bagging; dalam metode ini, sampel acak data dalam set pelatihan dipilih dengan penggantian, yang berarti bahwa titik data individu dapat dipilih lebih dari satu kali. Setelah beberapa sampel data dihasilkan, model-model ini kemudian dilatih secara independen, dan tergantung pada jenis tugas, yaitu regresi atau klasifikasi, rata-rata atau sebagian besar prediksi tersebut menghasilkan perkiraan yang lebih akurat. Pendekatan ini sering digunakan untuk mengurangi varians dalam kumpulan data yang bising.

Algoritma random forest

Algoritma random forest merupakan perluasan dari metode bagging karena menggunakan bagging dan keacakan fitur untuk menciptakan hutan decision trees yang tidak berkorelasi. Keacakan fitur, juga dikenal sebagai fitur bagging atau “metode subruang acak” (tautan berada di luar ibm.com), menghasilkan subset fitur acak, yang memastikan korelasi rendah di antara decision trees. Ini adalah perbedaan utama antara decision trees dengan random forest. Sementara decision trees mempertimbangkan semua kemungkinan pemisahan fitur, random forest hanya memilih subset dari fitur tersebut.

Jika kita kembali ke contoh "haruskah saya berselancar?", pertanyaan yang mungkin saya ajukan untuk menentukan prediksi mungkin tidak selengkap pertanyaan orang lain. Dengan memperhitungkan semua potensi variabilitas dalam data, kami dapat mengurangi risiko overfitting, bias, dan varians secara keseluruhan, sehingga menghasilkan prediksi yang lebih tepat.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara kerjanya

Algoritma hutan acak memiliki tiga hiperparameter utama, yang perlu diatur sebelum pelatihan. Hiperparameter ini adalah ukuran simpul, jumlah pohon, dan jumlah fitur yang diambil sampelnya. Dari sana, pengklasifikasi hutan acak dapat digunakan untuk memecahkan masalah regresi atau klasifikasi.

Algoritma hutan acak terdiri dari kumpulan decision trees, dan setiap decision tree dalam himpunan terdiri dari sampel data yang diambil dari set pelatihan dengan penggantian, yang disebut Bootstrapping. Dari sampel pelatihan tersebut, sepertiganya disisihkan sebagai data uji, yang dikenal sebagai sampel out-of-bag (oob), yang akan kita bahas nanti. Contoh keacakan lainnya kemudian dimasukkan melalui pengemasan fitur, dengan menambahkan lebih banyak keberagaman pada kumpulan data dan mengurangi korelasi di antara decision trees. Bergantung pada jenis masalahnya, penentuan prediksi akan bervariasi. Untuk tugas regresi, decision tree individu akan dirata-ratakan, dan untuk tugas klasifikasi, suara mayoritas —yaitu variabel kategori yang paling sering—akan menghasilkan kelas yang diprediksi. Terakhir, sampel oob kemudian digunakan untuk validasi silang, sehingga menyelesaikan prediksi itu.

Manfaat dan tantangan random forest

Ada beberapa keuntungan dan tantangan utama yang dihadirkan oleh algoritma random forest ketika digunakan untuk masalah klasifikasi atau regresi. Beberapa di antaranya adalah:

Manfaat utama

  • Mengurangi risiko overfitting: Decision trees menghadapi risiko overfitting karena cenderung menyesuaikan semua sampel dalam data pelatihan. Akan tetapi, bila terdapat banyak decision trees dalam random forest, pengklasifikasi tidak akan terlalu menyesuaikan model karena perataan pohon yang tidak berkorelasi akan menurunkan varians keseluruhan dan kesalahan prediksi.
  • Memberikan fleksibilitas: Karena random forest dapat menangani tugas regresi dan klasifikasi dengan tingkat akurasi yang tinggi, maka metode ini menjadi metode yang populer di kalangan ilmuwan data. Feature bagging juga membuat pengklasifikasi hutan acak menjadi alat yang efektif untuk memperkirakan missing values karena mempertahankan akurasi ketika sebagian data hilang.
  • Mudah untuk menentukan feature importance: Random forest memudahkan evaluasi tingkat kepentingan atau kontribusi variabel pada model. Ada beberapa cara untuk mengevaluasi feature importance. Gini importance dan rata-rata penurunan ketidakmurnian (MDI) biasanya digunakan untuk mengukur seberapa besar penurunan akurasi model ketika variabel tertentu dikeluarkan. Namun, permutation importance yang juga dikenal sebagai rata-rata penurunan akurasi (MDA) juga merupakan ukuran yang penting. MDA mengidentifikasi rata-rata penurunan akurasi dengan secara acak mempermutasi nilai fitur dalam sampel oob.

Tantangan Utama

  • Proses yang memakan waktu: Karena algoritma random forest dapat menangani kumpulan data yang besar, algoritma ini dapat memberikan prediksi yang lebih akurat, tetapi bisa jadi lambat dalam memproses data karena algoritma ini mengkomputasi data untuk setiap decision trees.
  • Membutuhkan lebih banyak sumber daya: Karena random forest memproses kumpulan data yang lebih besar, mereka akan membutuhkan lebih banyak sumber daya untuk menyimpan data tersebut.
  • Lebih kompleks: Prediksi Decision Tree tunggal lebih mudah ditafsirkan jika dibandingkan dengan hutan decision trees.
Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Penerapan random forest

Algoritma random forest telah diterapkan di sejumlah industri, sehingga memungkinkannya membuat keputusan bisnis yang lebih baik. Beberapa contoh penggunaannya meliputi:

  • Keuangan: Algoritma ini yang lebih disukai daripada yang lain karena mengurangi waktu yang dihabiskan untuk manajemen data dan tugas-tugas pra-pemrosesan. Algoritma ini dapat digunakan untuk mengevaluasi pelanggan dengan risiko kredit tinggi, untuk mendeteksi penipuan, dan masalah harga opsi.
  • Layanan kesehatan: Algoritma random forest memiliki aplikasi dalam biologi komputasional (tautan berada di luar ibm.com), yang memungkinkan dokter untuk mengatasi masalah seperti klasifikasi ekspresi gen, penemuan biomarker, dan anotasi urutan. Hasilnya, dokter dapat membuat perkiraan seputar respons obat terhadap pengobatan tertentu.
  • E-commerce: Dapat digunakan sebagai mesin rekomendasi untuk tujuan penjualan silang.
Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung