L'apprendimento supervisionato è una tecnica di machine learning che utilizza set di dati etichettati per addestrare i modelli AI a identificare i modelli sottostanti nei punti dati. I dati etichettati includono caratteristiche ed etichette, output corrispondenti che il modello utilizza per comprendere la relazione tra i due.
Molte aziende assumono grandi team di annotatori di dati umani, che a volte sono assistiti da macchine. Questi annotatori richiedono spesso competenze di dominio per garantire che i dati siano etichettati correttamente. Ad esempio, per etichettare i dati legali, gli annotatori potrebbero aver bisogno di un background giuridico. Il processo che prevede l'utilizzo di annotatori umani per garantire la corretta etichettatura viene talvolta definito "intervento umano nel ciclo".
Un classico esempio di apprendimento supervisionato è il rilevamento dello spam. Per insegnare a un modello a identificare lo spam, può essere esposto a un set di dati composto da migliaia di e-mail, ognuna etichettata dagli umani come "spam" o "non spam". Il modello esaminerà i pattern nelle e-mail, notandone vari. Ad esempio, le e-mail con la parola "gratis" nella riga dell'oggetto hanno maggiori probabilità di essere spam. Il modello calcolerà la probabilità statistica che la parola "gratis" nell'oggetto corrisponda all'etichetta "spam". Quindi, quando viene fornita una nuova e-mail senza etichetta, il modello può applicare quel calcolo, insieme a molti altri, per determinare se la nuova e-mail è spam o meno.
Questo tipo di apprendimento automatico è detto "supervisionato" perché prevede la supervisione umana per etichettare tutti quei dati.