Una caratteristica è una qualità definibile degli elementi in un set di dati. Le caratteristiche sono anche note come variabili perché i loro valori possono cambiare da un punto dati all'altro, e attributi perché caratterizzano i punti dati nel set di dati. Le diverse caratteristiche caratterizzano i punti dati in vari modi.
Le caratteristiche possono essere variabili indipendenti, variabili dipendenti che derivano il loro valore dalle variabili indipendenti, o attributi creati combinando più caratteristiche.
L'obiettivo della selezione delle caratteristiche è identificare le variabili di input più importanti che il modello può utilizzare per prevedere le variabili dipendenti. La variabile target è la variabile dipendente che il modello deve prevedere.
Ad esempio, in un database di dipendenti, le caratteristiche di input possono includere età, posizione, stipendio, titolo, prestazioni e metriche di performance e durata del rapporto di lavoro. Un datore di lavoro può utilizzare queste variabili per generare un attributo combinato target che rappresenta la probabilità che un dipendente lasci l'azienda in cambio di un'offerta migliore. Successivamente, il datore di lavoro può determinare come incoraggiare tali dipendenti a rimanere.
Le caratteristiche possono essere ampiamente classificate in variabili numeriche o categoriche.
Prima che avvenga la selezione, il processo di estrazione delle caratteristiche trasforma i dati non elaborati in caratteristiche numeriche che i modelli di machine learning possono utilizzare. L'estrazione delle caratteristiche semplifica i dati e riduce i requisiti di calcolo necessari per elaborarli.