Machine learning bekerja melalui logika matematika. Oleh karena itu, karakteristik (atau "fitur") yang relevan dari setiap titik data harus dinyatakan secara numerik, sehingga data itu sendiri dapat dimasukkan ke dalam algoritma matematika yang akan "belajar" memetakan input yang diberikan ke output yang diinginkan.
Titik data dalam machine learning biasanya direpresentasikan dalam bentuk vektor, di mana setiap elemen (atau dimensi) dari penanaman vektor titik data sesuai dengan nilai numerik untuk fitur tertentu. Untuk modalitas data yang secara inheren berupa angka, seperti data keuangan atau koordinat geospasial, hal ini relatif mudah. Tetapi banyak modalitas data, seperti teks, gambar, data grafik media sosial, atau perilaku pengguna aplikasi, bukan numerik secara inheren, dan oleh karena itu memerlukan rekayasa fitur yang tidak seketika intuitif untuk dinyatakan dengan cara yang siap untuk ML.
Proses (sering kali manual) untuk memilih aspek data mana yang akan digunakan dalam algoritma machine learning disebut pemilihan fitur. Teknik ekstraksi fitur menyempurnakan data hingga hanya memiliki dimensi yang paling relevan dan bermakna. Keduanya adalah subset dari rekayasa fitur, disiplin yang lebih luas dari pengolahan data mentah untuk digunakan dalam machine learning. Salah satu perbedaan penting dari pembelajaran mendalam adalah bahwa ia biasanya beroperasi pada data mentah dan mengotomatiskan banyak proses rekayasa fitur—atau setidaknya ekstraksi fitur—. Ini membuat pembelajaran mendalam lebih dapat diskalakan, meskipun kurang dapat ditafsirkan dibandingkan machine learning.
Parameter dan pengoptimalan model machine learning
Sebagai contoh praktis, pertimbangkan algoritma regresi linier sederhana untuk memprediksi harga jual rumah berdasarkan kombinasi tertimbang dari tiga variabel: luas persegi, usia rumah, dan jumlah kamar tidur. Setiap rumah ditunjukkan sebagai penanaman vektor dengan 3 dimensi: [square footage, bedrooms, age]
. Sebuah rumah berusia 30 tahun dengan 4 kamar tidur dan luas 1.900 kaki persegi dapat ditunjukkan sebagai [1900, 4, 30]
(meskipun untuk tujuan matematika semua angka itu mungkin pertama-tama diskalakan atau dinormalisasi ke rentang yang lebih seragam).
Algoritma adalah fungsi matematika sederhana:
Harga = (A * luas persegi) + (B * jumlah kamar) - (C * Umur) + Harga Dasar
Di sini, , dan adalah parameter model: menyesuaikannya akan menyesuaikan seberapa berat bobot model dari setiap variabel. Tujuan machine learning adalah untuk menemukan nilai optimal untuk parameter model tersebut: dengan kata lain, nilai parameter yang menghasilkan fungsi keseluruhan yang mengeluarkan hasil yang paling akurat. Meskipun sebagian besar contoh machine learning dunia nyata melibatkan algoritma yang lebih kompleks dengan jumlah variabel input yang lebih besar, prinsipnya tetap sama: mengoptimalkan parameter algoritma yang dapat disesuaikan untuk menghasilkan akurasi yang lebih besar.