Apa itu pemilihan fitur?

Penyusun

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu pemilihan fitur?

Pemilihan fitur adalah proses pemilihan fitur yang paling relevan dari kumpulan data untuk digunakan saat membangun dan melatih model machine learning (ML). Dengan mengurangi ruang fitur ke subset yang dipilih, pemilihan fitur meningkatkan kinerja model AI sambil menurunkan tuntutan komputasinya.

Yang dimaksud dengan “fitur” adalah setiap properti atau karakteristik terukur dari sebuah titik data: atribut spesifik dari data yang membantu menjelaskan fenomena yang sedang diamati. Suatu kumpulan data tentang perumahan mungkin memiliki fitur, antara lain “jumlah kamar” dan “tahun pembangunan”. 

Pemilihan fitur adalah bagian dari proses rekayasa fitur, di mana para ilmuwan data menyiapkan data dan mengkurasi serangkaian fitur untuk algoritma machine learning. Pemilihan fitur adalah bagian dari rekayasa fitur yang berkaitan dengan pemilihan fitur yang akan digunakan untuk model.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Manfaat pemilihan fitur

Proses pemilihan fitur menyederhanakan model dengan mengidentifikasi fitur yang paling penting, berdampak, dan tidak berlebihan dalam kumpulan data. Mengurangi jumlah fitur akan meningkatkan efisiensi model dan kinerja. 

Manfaat pemilihan fitur meliputi: 

  • Performa model yang lebih baik: Fitur yang tidak relevan melemahkan kinerja model. Sebaliknya, memilih serangkaian fitur yang tepat untuk suatu model, membuatnya lebih akurat, lebih tepat dan memberikan daya ingat yang lebih baik. Fitur data memengaruhi cara model mengkonfigurasi bobotnya selama pelatihan, yang pada gilirannya mendorong kinerja. Ini berbeda dari penyetelan hyperparameter, yang terjadi sebelum pelatihan.  

  • Mengurangi overfitting: Overfitting terjadi ketika model tidak dapat menggeneralisasi data pelatihannya. Menghapus fitur yang berlebihan mengurangi overfitting dan membuat model lebih mampu menggeneralisasi ke data baru. 

  • Waktu pelatihan yang lebih singkat: Dengan berfokus pada subset fitur yang lebih kecil, algoritma membutuhkan waktu yang lebih singkat untuk dilatih. Pembuat model dapat menguji, memvalidasi, dan menerapkan model mereka lebih cepat dengan serangkaian fitur yang dipilih yang lebih kecil. 

  • Biaya komputasi yang lebih rendah: Kumpulan data yang lebih kecil yang terbuat dari fitur-fitur terbaik membuat model prediktif yang lebih sederhana yang menempati lebih sedikit ruang penyimpanan. Persyaratan komputasi mereka lebih rendah daripada model yang lebih kompleks. 

  • Kemampuan interpretasi yang lebih besar: AI yang dapat dijelaskan difokuskan pada pembuatan model yang dapat dipahami manusia. Ketika model tumbuh lebih kompleks, menjadi semakin sulit untuk menafsirkan hasilnya. Model yang lebih sederhana lebih mudah dipantau dan dijelaskan. 

  • Implementasi yang lebih lancar: Model yang lebih sederhana dan lebih kecil lebih mudah digunakan oleh pengembang saat membangun aplikasi AI, seperti yang digunakan dalam visualisasi data

  • Pengurangan dimensionalitas: Dengan lebih banyak variabel input yang digunakan, titik data menjadi lebih jauh dalam ruang model. Data berdimensi tinggi memiliki lebih banyak ruang kosong, yang membuatnya lebih sulit bagi algoritma machine learning untuk mengidentifikasi pola dan membuat prediksi yang baik. 

    Mengumpulkan lebih banyak data dapat mengatasi masalah dimensionalitas, tetapi memilih fitur-fitur yang paling penting akan lebih praktis dan hemat biaya. 

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Apa itu fitur?

Fitur adalah kualitas yang dapat ditentukan dari item dalam kumpulan data. Fitur juga dikenal sebagai variabel karena nilainya dapat berubah dari satu titik data ke titik data berikutnya. Fitur juga dikenal sebagai atribut karena mencirikan titik data dalam kumpulan data. Beragam fitur memiliki cara berbeda untuk mencirikan titik data. 

Fitur dapat berupa variabel independen, variabel dependen yang mendapatkan nilainya dari variabel independen, atau atribut gabungan yang disusun dari beberapa fitur lainnya.

Tujuan dari seleksi fitur adalah untuk mengidentifikasi variabel input terpenting yang dapat digunakan oleh model untuk memprediksi variabel dependen. Variabel target adalah variabel dependen dengan model yang diatur untuk memprediksi. 

Sebagai contoh, dalam database karyawan, fitur input dapat mencakup usia, lokasi, gaji, jabatan, metrik kinerja, dan durasi kerja. Pemberi kerja dapat menggunakan variabel-variabel ini untuk menghasilkan atribut gabungan target yang menunjukkan kemungkinan karyawan untuk berhenti bekerja karena mendapatkan tawaran kerja yang lebih baik. Kemudian, pemberi kerja dapat menentukan cara untuk mendorong karyawan tersebut agar tetap bertahan. 

Fitur dapat dikategorikan secara luas menjadi variabel numerik atau kategoris. 

  • Variabel numerik dapat diukur, misalnya panjang, ukuran, usia, dan durasi. 

  • Variabel kategoris adalah apa pun yang bersifat nonnumerik, misalnya nama, jabatan, dan lokasi. 

Sebelum pemilihan fitur berlangsung, proses ekstraksi fitur mengubah data mentah menjadi fitur numerik yang dapat digunakan model machine learning. Ekstraksi fitur menyederhanakan data dan mengurangi persyaratan komputasi yang diperlukan untuk memprosesnya.

Metode pemilihan fitur terawasi

Pemilihan fitur pembelajaran terawasi menggunakan variabel target untuk menentukan fitur yang paling penting. Karena fitur data sudah diidentifikasi, tugasnya adalah mengidentifikasi variabel input mana yang paling langsung memengaruhi variabel target. Korelasi merupakan kriteria utama saat menilai fitur-fitur yang paling penting. 

Metode pemilihan fitur terawasi meliputi: 

  • Metode filter

  • Metode wrapper 

  • Metode embedded

Metode hybrid yang menggabungkan dua atau lebih metode pemilihan fitur terawasi juga dapat digunakan.

Metode filter

Metode filter adalah sekelompok teknik pemilihan fitur yang hanya berkaitan dengan data itu sendiri dan tidak secara langsung mempertimbangkan optimasi kinerja model. Variabel input dinilai secara independen terhadap variabel target untuk menentukan variabel mana yang memiliki korelasi tertinggi. Metode yang menguji fitur satu per satu dikenal sebagai metode seleksi fitur univariat. 

Sering digunakan sebagai alat prapemrosesan data, metode filter adalah algoritma pemilihan fitur yang cepat, efisien, serta mampu mengurangi redundansi dan menghapus fitur yang tidak relevan dari kumpulan data. Berbagai uji statistik digunakan untuk menilai setiap variabel input untuk mengetahui korelasinya. Namun, metode lain lebih baik dalam memprediksi kinerja model. 

Tersedia di perpustakaan machine learning populer seperti Scikit-Learn (Sklearn), beberapa metode filter umum antara lain: 

  • Perolehan informasi (Information gain): Mengukur seberapa penting keberadaan atau ketiadaan suatu fitur dalam menentukan variabel target berdasarkan tingkat pengurangan entropi. 

  • Informasi timbal balik (Mutual information): Menilai dependensi antara variabel dengan mengukur informasi yang diperoleh tentang suatu variabel melalui variabel lainnya. 

  • Uji Chi-square (Chi-square test): Menilai hubungan antara dua variabel kategoris dengan membandingkan nilai yang diamati dengan nilai yang diharapkan. 

  • Skor Fisher: Menggunakan turunan untuk menghitung kepentingan relatif setiap fitur untuk mengklasifikasikan data. Skor yang lebih tinggi menunjukkan pengaruh yang lebih besar. 

  • Koefisien korelasi Pearson: Mengukur hubungan antara dua variabel kontinu dengan skor antara -1 hingga 1. 

  • Ambang batas varians: Menghapus semua fitur yang berada di bawah tingkat varians minimum karena fitur dengan lebih banyak varians cenderung mengandung informasi yang lebih berguna. Metode terkait adalah mean absolute difference (MAD). 

  • Rasio nilai hilang: Menghitung persentase instance dalam kumpulan data yang fitur tertentu hilang atau memiliki nilai nol. Jika terlalu banyak contoh yang kehilangan fitur, kemungkinan itu tidak berguna. 

  • Rasio dispersi: Rasio varians terhadap nilai rata-rata untuk suatu fitur. Dispersi yang lebih tinggi menunjukkan lebih banyak informasi. 

  • ANOVA (analisis varians): Menentukan apakah nilai fitur yang berbeda memengaruhi nilai variabel target.

Metode wrapper

Metode wrapper melatih algoritma machine learning dengan berbagai subset fitur, menambahkan atau menghapus fitur, dan menguji hasil pada setiap iterasi. Tujuan dari semua metode wrapper adalah menemukan rangkaian fitur yang memberikan kinerja model optimal. 

Metode wrapper yang menguji semua kemungkinan kombinasi fitur dikenal sebagai algoritma serakah. Pencarian atas rangkaian fitur terbaik secara keseluruhan membutuhkan daya komputasi besar dan memakan waktu, sehingga paling tepat untuk kumpulan data dengan ruang fitur yang lebih kecil. 

Ilmuwan data dapat mengatur algoritma agar berhenti ketika kinerja model menurun atau ketika jumlah fitur yang ditargetkan tercapai. 

Metode wrapper meliputi: 

  • Seleksi maju: Dimulai dengan set fitur kosong dan secara bertahap menambahkan fitur baru sampai set optimal ditemukan. Pemilihan model terjadi ketika kinerja algoritma gagal meningkat setelah iterasi tertentu. 

  • Pemilihan mundur (Backward selection): Melatih model dengan semua fitur asli dan secara berulang menghapus fitur yang paling tidak penting dari kumpulan fitur. 

  • Pemilihan fitur lengkap: Menguji setiap kombinasi fitur yang mungkin untuk menemukan yang terbaik secara keseluruhan dengan mengoptimalkan metrik kinerja tertentu. Model regresi logistik yang menggunakan pemilihan fitur lengkap menguji setiap kemungkinan kombinasi dari setiap jumlah fitur yang mungkin. 

  • Eliminasi fitur rekursif (Recursive feature elimination, RFE): Jenis pemilihan mundur yang dimulai dengan ruang fitur awal dan mengeliminasi atau menambahkan fitur setelah setiap iterasi berdasarkan kepentingan relatifnya. 

  • Eliminasi fitur rekursif dengan validasi silang: Variasi eliminasi rekursif yang menggunakan validasi silang, yang menguji model pada data yang tidak terlihat, untuk memilih kumpulan fitur dengan performa terbaik. Validasi silang adalah teknik evaluasi model bahasa besar (LLM) umum.

Metode embedded

Metode embedded menyisipkan atau menyematkan pemilihan fitur ke proses pelatihan model. Saat menjalani pelatihan, model menggunakan berbagai mekanisme untuk mendeteksi fitur yang berkinerja buruk, lalu membuangnya dari iterasi berikutnya. 

Banyak metode tertanam berputar di sekitar regularisasi, yang menghukum fitur berdasarkan ambang koefisien yang telah ditetapkan. Model memperdagangkan tingkat akurasi untuk presisi yang lebih besar. Hasilnya, performa model sedikit kurang bagus selama pelatihan, tetapi menjadi lebih umum dengan mengurangi overfitting. 

Metode embedded meliputi: 

  • Regresi LASSO (regresi L1): Menambahkan penalti ke fungsi kerugian untuk koefisien berkorelasi bernilai tinggi, memindahkannya ke nilai 0. Koefisien dengan nilai 0 akan dihapus. Semakin besar penalti, semakin banyak fitur yang dihapus dari ruang fitur. Penggunaan LASSO yang efektif adalah tentang menyeimbangkan penalti untuk menghilangkan fitur yang tidak relevan, namun tetap mempertahankan semua fitur yang penting. 

  • Pentingnya hutan acak: Membangun ratusan decision trees, masing-masing dengan pilihan acak titik data dan fitur. Setiap pohon dinilai berdasarkan seberapa baik ia membagi titik-titik data. Semakin baik hasilnya, semakin penting fitur atau fitur-fitur pada pohon tersebut dianggap. Pengklasifikasi mengukur “ketidakmurnian” pengelompokan berdasarkan Gini impurity atau perolehan informasi, sementara model regresi menggunakan varians. 

  • Peningkatan gradien: Menambahkan prediktor secara berurutan ke ansambel dengan setiap iterasi mengoreksi kesalahan dari iterasi sebelumnya. Dengan cara ini, ia dapat mengidentifikasi fitur mana yang paling mengarah langsung ke hasil yang optimal.

Metode pemilihan fitur tanpa pengawasan

Dengan pembelajaran tanpa pengawasan, model mempelajari fitur, pola, dan hubungan data secara mandiri. Tidak mungkin untuk menyesuaikan variabel input dengan variabel target yang diketahui. Metode pemilihan fitur tanpa pengawasan menggunakan teknik lain untuk menyederhanakan dan merampingkan ruang fitur. 

Salah satu metode pemilihan fitur tanpa pengawasan adalah analisis komponen utama (PCA). PCA mengurangi dimensi kumpulan data yang besar dengan mentransformasi variabel yang berpotensi berkorelasi menjadi sekumpulan variabel yang lebih kecil. Komponen utama ini menyimpan sebagian besar informasi yang terkandung dalam kumpulan data asli. PCA melawan kutukan dimensi dan juga mengurangi overfitting. 

Lainnya termasuk analisis komponen independen (ICA) yang memisahkan data multivariat menjadi komponen-komponen individu yang statistik independen, dan autoencoder

Banyak digunakan dengan arsitektur transformator, autoencoder adalah sejenis jaringan neural yang belajar mengompresi dan kemudian merekonstruksi data. Dengan melakukan hal tersebut, autoencoder menemukan variabel laten-yang tidak dapat diamati secara langsung, tetapi sangat memengaruhi distribusi data.

Memilih metode pemilihan fitur

Jenis pemilihan fitur yang digunakan bergantung pada sifat variabel input dan output. Ini juga menentukan sifat tantangan yang dihadapi machine learning, yaitu masalah klasifikasi atau tugas regresi. 

  • Input numerik, output numerik: Ketika input dan output keduanya numerik, ini menunjukkan masalah prediktif regresi. Output model linier untuk prediksi numerik kontinu — mengeluarkan variabel target yang merupakan angka dalam rentang nilai yang mungkin. Dalam kasus ini, koefisien korelasi, seperti koefisien korelasi Pearson, adalah metode pemilihan fitur yang ideal. 

  • Input numerik, output kategoris: Model regresi logistik mengklasifikasikan input ke dalam output kategoris diskrit. Dalam soal klasifikasi ini, metode pemilihan fitur berbasis korelasi yang mendukung variabel target kategoris dapat digunakan. Ini termasuk ANOVA untuk model regresi linier dan koefisien korelasi peringkat Kendall untuk tugas nonlinier. 

  • Input kategoris, output numerik: Jenis tantangan yang langka ini juga dapat diselesaikan dengan metode korelasi yang mendukung variabel kategoris. 

  • Input kategoris, output kategoris: Masalah klasifikasi dengan input kategoris dan variabel target sangat sesuai dengan metode chi-square atau teknik perolehan informasi. 

Faktor lain yang perlu dipertimbangkan mencakup ukuran kumpulan data dan ruang fitur, kompleksitas fitur, dan jenis model. Metode filter dapat dengan cepat mengeliminasi sebagian besar fitur yang tidak relevan, tetapi kesulitan menangani interaksi fitur yang kompleks. Dalam kasus ini, metode wrapper dan embedded mungkin lebih cocok digunakan.

Apa yang menjadikan fitur penting?

Mengetahui fitur mana yang harus difokuskan adalah komponen penting dari pemilihan fitur. Beberapa fitur sangat diinginkan untuk pemodelan, sementara yang lain dapat memberikan hasil kurang baik. Selain cara fitur memengaruhi variabel target, tingkat kepentingan fitur ditentukan oleh: 

  • Kemudahan pemodelan: Jika sebuah fitur mudah dimodelkan, proses machine learning secara keseluruhan akan lebih sederhana dan lebih cepat, dan peluang timbulnya kesalahan juga lebih rendah. 

  • Mudah diregularisasi: Fitur yang dapat diregularisasi dengan baik akan lebih efisien pengerjaannya. 

  • Mengurai kausalitas: Menguraikan faktor penyebab dari fitur yang dapat diamati berarti mengidentifikasi faktor-faktor mendasar yang memengaruhinya.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung