Fitur atau variabel data adalah atribut dalam kumpulan data yang digunakan oleh model machine learning untuk membuat keputusan dan prediksi. Sebagai contoh, untuk model visi komputer yang dirancang untuk mengidentifikasi spesies tanaman, fitur data dapat meliputi bentuk dan warna daun.
Rekayasa fitur adalah proses di mana ilmuwan data mengidentifikasi, mengekstrak, dan menciptakan fitur baru dari data mentah, lalu memprosesnya agar siap digunakan secara optimal dalam model machine learning.Rekayasa dan pemilihan fitur yang tepat dapat menjadi faktor penentu antara model dengan kinerja yang biasa-biasa saja dan model yang memiliki kualitas tinggi.
Rekayasa fitur otomatis mempermudah eksplorasi ruang fitur, menangani data yang hilang, dan memilih fitur relevan yang siap digunakan. Membangun satu fitur secara manual bisa memakan waktu berjam-jam. Sementara itu, mencapai akurasi minimum—apalagi standar akurasi yang layak untuk produksi—sering kali membutuhkan ratusan fitur yang dikembangkan. Rekayasa fitur otomatis mengurangi fase ini dari hari menjadi menit.
Selain meningkatkan efisiensi, otomatisasi dalam pemilihan fitur juga memperkuat penjelasan AI—yang sangat krusial untuk industri yang tunduk pada regulasi ketat, seperti perawatan kesehatan dan keuangan. Kejelasan fitur yang lebih besar membuat model lebih menarik dan dapat ditindaklanjuti dengan menemukan KPI organisasi baru.