Klasifikasi pada awalnya merupakan jenis machine learning diawasi yang berarti menggunakan data berlabel untuk melatih model. Dalam pembelajaran diawasi, setiap titik data dalam data pelatihan berisi variabel input (dikenal juga sebagai variabel atau fitur independen) dan variabel output atau label.
Dalam pelatihan klasifikasi, tugas model adalah memahami hubungan antara fitur dan label kelas, kemudian menerapkan kriteria tersebut pada kumpulan data mendatang. Model klasifikasi menggunakan fitur setiap titik data bersama dengan label kelasnya untuk menguraikan fitur apa yang menentukan setiap kelas. Dalam istilah matematis, model ini menganggap setiap titik data sebagai sebuah tuple x. Tuple adalah urutan numerik yang diurutkan yang ditunjukkan sebagai x = (x1, x2, x3... xn).
Setiap nilai dalam tuple adalah fitur dari titik data. Dengan memetakan data pelatihan menggunakan persamaan ini, model mempelajari fitur mana yang terkait dengan setiap label kelas.
Tujuan pelatihan adalah untuk meminimalkan kesalahan selama pemodelan prediktif. Algoritma gradient descent melatih model dengan meminimalkan kesenjangan antara hasil prediksi dan hasil aktual. Model nantinya dapat disempurnakan dengan lebih banyak pelatihan untuk melakukan tugas yang lebih spesifik.
Pendekatan pembelajaran tanpa pengawasan pada masalah klasifikasi telah menjadi fokus utama penelitian terbaru. Metode pembelajaran tanpa pengawasan memungkinkan model untuk menemukan sendiri pola dalam data yang tidak berlabel. Kurangnya label adalah apa yang membedakan pembelajaran tanpa pengawasan dan pembelajaran diawasi.
Sementara itu, pembelajaran agak diawasi menggabungkan data berlabel dan tidak berlabel untuk melatih model untuk tujuan klasifikasi dan regresi. Dalam situasi di mana mendapatkan kumpulan data besar berisi data berlabel tidak memungkinkan, pembelajaran agak diawasi adalah alternatif yang layak.