Teknik pembelajaran diawasi menggunakan kumpulan data pelatihan berlabel untuk memahami hubungan antara input dan output data. Ilmuwan data secara manual membuat kumpulan data pelatihan kebenaran dasar yang berisi data input beserta label yang sesuai. Pembelajaran diawasi melatih model untuk menerapkan output yang benar pada input baru dalam contoh penggunaan dunia nyata.
Selama pelatihan, algoritma model memproses kumpulan data yang besar untuk mengeksplorasi potensi korelasi antara input dan output. Kemudian, kinerja model dievaluasi dengan data pengujian untuk mengetahui apakah berhasil dilatih. Validasi silang adalah proses pengujian model menggunakan bagian yang berbeda dari kumpulan data.
Kelompok algoritma gradient descent, termasuk stochastic gradient descent (SGD), adalah algoritma pengoptimalan yang paling sering digunakan, atau algoritma pembelajaran, ketika melatih neural networks dan model machine learning lainnya. Algoritma optimasi model menilai akurasi melalui fungsi kesalahan: persamaan yang mengukur perbedaan antara prediksi model dan nilai aktual.
Fungsi kesalahan mengukur seberapa jauh prediksi dari nilai aktual. Gradiennya menunjukkan arah di mana parameter model harus disesuaikan untuk mengurangi kesalahan. Selama pelatihan, algoritma optimasi memperbarui parameter model—aturan operasi atau “pengaturan”—untuk mengoptimalkan model.
Karena kumpulan data besar biasanya mengandung banyak fitur, ilmuwan data dapat menyederhanakan kompleksitas ini melalui reduksi dimensi. Teknik ilmu data ini mengurangi jumlah fitur menjadi yang paling penting untuk memprediksi label data, yang menjaga akurasi sekaligus meningkatkan efisiensi.