Fitur adalah kualitas yang dapat ditentukan dari item dalam kumpulan data. Fitur juga dikenal sebagai variabel karena nilainya dapat berubah dari satu titik data ke titik data berikutnya. Fitur juga dikenal sebagai atribut karena mencirikan titik data dalam kumpulan data. Beragam fitur memiliki cara berbeda untuk mencirikan titik data.
Fitur dapat berupa variabel independen, variabel dependen yang mendapatkan nilainya dari variabel independen, atau atribut gabungan yang disusun dari beberapa fitur lainnya.
Tujuan dari seleksi fitur adalah untuk mengidentifikasi variabel input terpenting yang dapat digunakan oleh model untuk memprediksi variabel dependen. Variabel target adalah variabel dependen dengan model yang diatur untuk memprediksi.
Sebagai contoh, dalam database karyawan, fitur input dapat mencakup usia, lokasi, gaji, jabatan, metrik kinerja, dan durasi kerja. Pemberi kerja dapat menggunakan variabel-variabel ini untuk menghasilkan atribut gabungan target yang menunjukkan kemungkinan karyawan untuk berhenti bekerja karena mendapatkan tawaran kerja yang lebih baik. Kemudian, pemberi kerja dapat menentukan cara untuk mendorong karyawan tersebut agar tetap bertahan.
Fitur dapat dikategorikan secara luas menjadi variabel numerik atau kategoris.
Variabel numerik dapat diukur, misalnya panjang, ukuran, usia, dan durasi.
Sebelum pemilihan fitur berlangsung, proses ekstraksi fitur mengubah data mentah menjadi fitur numerik yang dapat digunakan model machine learning. Ekstraksi fitur menyederhanakan data dan mengurangi persyaratan komputasi yang diperlukan untuk memprosesnya.