Pembelajaran diawasi adalah teknik machine learning yang menggunakan kumpulan data berlabel untuk melatih model AI guna mengidentifikasi pola yang mendasari di seluruh titik data. Data berlabel mencakup fitur dan label, output yang sesuai yang digunakan model untuk memahami hubungan antara keduanya.
Banyak bisnis mempekerjakan tim besar yang terdiri dari anotator data manusia yang terkadang dibantu oleh mesin. Anotator ini sering membutuhkan keahlian domain untuk memastikan bahwa data diberi label dengan benar. Misalnya, ketika memberi label data hukum, anotator mungkin memerlukan latar belakang hukum. Proses menggunakan anotator manusia untuk membantu memastikan pelabelan yang tepat terkadang disebut sebagai “keterlibatan manusia.”
Contoh klasik dari pembelajaran diawasi adalah deteksi spam. Untuk mengajarkan model cara mengidentifikasi spam, seseorang dapat mengeksposnya ke kumpulan data yang terdiri dari ribuan email, masing-masing diberi label oleh manusia sebagai “spam” atau “bukan spam.” Model akan meninjau pola dalam email, memperhatikan berbagai pola. Misalnya, email yang memiliki kata "gratis" di baris subjek kemungkinan adalah spam. Model ini akan menghitung kemungkinan statistik bahwa kata "gratis" di baris subjek sesuai dengan label "spam". Kemudian, ketika diberikan email baru tanpa label, model ini dapat menerapkan perhitungan tersebut berikut banyak perhitungan lainnya untuk menentukan apakah email baru tersebut adalah spam atau bukan.
Jenis machine learning ini disebut "diawasi" karena melibatkan pengawasan manusia untuk memberi label pada semua data tersebut.