La classificazione è tradizionalmente un tipo di machine learning supervisionato, il che significa che utilizza dati etichettati per addestrare i modelli. Nell'apprendimento supervisionato, ogni punto dati nei dati di addestramento contiene variabili di input (note anche come variabili o caratteristiche indipendenti) e una variabile di output, o etichetta.
Nell'addestramento per classificazione, il compito del modello è quello di comprendere le relazioni tra caratteristiche ed etichette di classe, quindi applicare tali criteri ai set di dati futuri. Il modello usa le funzioni di ogni punto dati, insieme alla relativa etichetta di classe, per decodificare le funzioni che definiscono ogni classe. In termini matematici, il modello considera ogni punto dati come una tupla x. Una tupla è una sequenza numerica ordinata che è rappresentata come x = (x1,x2,x3... xn).
Ogni valore nella tupla è una determinata funzione del punto dati. Eseguendo il mapping dei dati di addestramento con questa equazione, un modello apprende quali caratteristiche sono associate a ogni etichetta di classe.
Lo scopo dell'addestramento è quello di ridurre al minimo gli errori durante la modellazione predittiva. Gli algoritmi di discesa del gradiente addestrano i modelli riducendo al minimo il divario tra i risultati previsti e quelli effettivi. Successivamente, i modelli possono essere perfezionati con ulteriore addestramento per svolgere compiti più specifici.
Gli approcci di apprendimento non supervisionato per i problemi di classificazione sono stati di grande interesse per la ricerca recente. I metodi di apprendimento non supervisionato consentono ai modelli di scoprire autonomamente schemi in dati non etichettati. La mancanza di etichette è ciò che differenzia l'apprendimento non supervisionato e l'apprendimento supervisionato.
Nel frattempo, l' apprendimento semi-supervisionato combina dati etichettati e non etichettati per addestrare i modelli ai fini della classificazione e della regressione. In situazioni in cui non è possibile ottenere grandi set di dati etichettati, l'apprendimento semi-supervisionato è una valida alternativa.