La selezione delle caratteristiche è il processo più rilevante di un set di dati, da utilizzare durante la creazione e l'addestramento di un modello di machine learning (ML). Riducendo lo spazio delle caratteristiche a un sottoinsieme selezionato, la selezione migliora le prestazioni del modello AI riducendo al contempo le esigenze computazionali.
Una caratteristica è una singola proprietà misurabile di un punto dati: un attributo specifico dei dati che aiuta a descrivere il fenomeno osservato. Un set di dati sulle abitazioni potrebbe avere caratteristiche come "numero di camere da letto" e "anno di costruzione".
La selezione delle caratteristiche fa parte del processo di progettazione, in cui i data scientist preparano i dati e curano un set di funzionalità per gli algoritmi di machine learning. Questa selezione è la parte di ingegneria che si occupa della scelta delle caratteristiche da utilizzare per il modello.
Il processo di selezione semplifica un modello identificando le caratteristiche più importanti, di impatto e non ridondanti nel set di dati. La riduzione del numero di caratteristiche migliora l'efficienza del modello e aumenta le prestazioni.
I benefici della selezione delle caratteristiche includono:
Migliori prestazioni del modello: caratteristiche irrilevanti indeboliscono le prestazioni del modello. Al contrario, la scelta del giusto set di caratteristiche per un modello lo rende più accurato, più preciso e gli conferisce un miglior recall. Le caratteristiche dei dati influenzano il modo in cui i modelli configurano i relativi pesi durante l'addestramento, che a sua volta determina le prestazioni. Questa operazione differisce dalla regolazione degli iperparametri, che avviene prima dell'addestramento.
Sovraccarico ridotto: l'overfitting si verifica quando un modello non può generalizzare oltre i dati di addestramento. La rimozione delle caratteristiche ridondanti riduce l'overfitting e rende un modello più capace di generalizzare a nuovi dati.
Tempi di addestramento più brevi: concentrandosi su un sottoinsieme più piccolo di caratteristiche, gli algoritmi richiedono meno tempo per l'addestramento. I creatori di modelli possono testare, convalidare e distribuire i modelli più velocemente con un set più piccolo di funzionalità selezionate.
Costi di calcolo inferiori: un set di dati più piccolo composto dalle migliori caratteristiche consente di creare modelli predittivi più semplici che occupano meno spazio di storage. I requisiti computazionali sono inferiori rispetto a quelli dei modelli più complessi.
Maggiore interpretabilità: l'AI spiegabile si concentra sulla creazione di modelli comprensibili per gli esseri umani. Man mano che i modelli diventano più complessi, diventa sempre più difficile interpretarne i risultati. I modelli più semplici sono più facili da monitorare e spiegare.
Implementazione più agevole: i modelli più semplici e più piccoli sono più facili da usare per gli sviluppatori quando creano app di AI, come quelle utilizzate nella visualizzazione dei dati.
Riduzione della dimensionalità: con un maggior numero di variabili di input in gioco, i punti dati diventano più distanti all'interno dello spazio del modello. I dati ad alta dimensionalità hanno più spazio vuoto, rendendo più difficile per l'algoritmo di machine learning identificare schemi e fare buone previsioni.
Raccogliere più dati può attenuare il problema della dimensionalità, ma selezionare le caratteristiche più importanti è più fattibile e conveniente.
Una caratteristica è una qualità definibile degli elementi in un set di dati. Le caratteristiche sono anche note come variabili perché i loro valori possono cambiare da un punto dati all'altro, e attributi perché caratterizzano i punti dati nel set di dati. Le diverse caratteristiche caratterizzano i punti dati in vari modi.
Le caratteristiche possono essere variabili indipendenti, variabili dipendenti che derivano il loro valore dalle variabili indipendenti, o attributi creati combinando più caratteristiche.
L'obiettivo della selezione delle caratteristiche è identificare le variabili di input più importanti che il modello può utilizzare per prevedere le variabili dipendenti. La variabile target è la variabile dipendente che il modello deve prevedere.
Ad esempio, in un database di dipendenti, le caratteristiche di input possono includere età, posizione, stipendio, titolo, prestazioni e metriche di performance e durata del rapporto di lavoro. Un datore di lavoro può utilizzare queste variabili per generare un attributo combinato target che rappresenta la probabilità che un dipendente lasci l'azienda in cambio di un'offerta migliore. Successivamente, il datore di lavoro può determinare come incoraggiare tali dipendenti a rimanere.
Le caratteristiche possono essere ampiamente classificate in variabili numeriche o categoriche.
Le variabili numeriche sono quantificabili, come la lunghezza, la taglia, l'età e la durata.
Le variabili categoriche sono tutto ciò che non è numerico, come nome, titolo di lavoro e località.
Prima che avvenga la selezione, il processo di estrazione delle caratteristiche trasforma i dati non elaborati in caratteristiche numeriche che i modelli di machine learning possono utilizzare. L'estrazione delle caratteristiche semplifica i dati e riduce i requisiti di calcolo necessari per elaborarli.
La selezione delle caratteristiche di apprendimento supervisionato utilizza la variabile target per determinare le funzionalità più importanti. Poiché le caratteristiche dei dati sono già identificate, il compito consiste nell'individuare quali variabili di input influenzano maggiormente la variabile target. La correlazione è il criterio principale nella valutazione delle caratteristiche più importanti.
I metodi supervisionati di selezione delle caratteristiche includono:
Metodi di filtraggio
Metodi wrapper
Metodi incorporati
Sono possibili anche metodi ibridi che combinano due o più metodi di selezione delle caratteristiche supervisionati.
I metodi di filtraggio sono un gruppo di tecniche di selezione delle caratteristiche che riguardano esclusivamente i dati stessi e non considerano direttamente l'ottimizzazione delle prestazioni del modello. Le variabili di input vengono valutate in modo indipendente rispetto alla variabile target per determinare quale ha la correlazione più alta. I metodi che testano le caratteristiche una per una sono noti come metodi di selezione univariata delle caratteristiche.
Spesso utilizzati come strumenti di pre-elaborazione dei dati, i metodi di filtro sono algoritmi di selezione delle caratteristiche rapidi ed efficienti che eccellono nel ridurre la ridondanza e rimuovere le feature irrilevanti dal set di dati. Vengono utilizzati vari test statistici per valutare la correlazione di ciascuna variabile di input. Tuttavia, altri metodi sono più efficaci nel prevedere le prestazioni del modello.
Alcuni metodi di filtraggio comuni, disponibili nelle librerie di machine learning più diffuse come Scikit-Learn (Sklearn), sono:
Guadagno informativo: misura l'importanza della presenza o dell'assenza di una caratteristica nel determinare la variabile target in base al grado di riduzione dell'entropia.
Informazione mutua: valuta la dipendenza tra le variabili misurando le informazioni ottenute su una attraverso l'altra.
Chi-square test: valuta la relazione tra due variabili categoriali confrontando i valori osservati con quelli attesi.
Fisher score: utilizza le derivate per calcolare l'importanza relativa di ciascuna caratteristica per classificare i dati. Un punteggio più elevato indica una maggiore influenza.
Coefficiente di correlazione di Pearson: quantifica la relazione tra due variabili continue con un punteggio che va da -1 a 1.
Soglia di varianza: rimuove tutte le caratteristiche che rientrano in un grado minimo di varianza, perché le caratteristiche con maggiore varianza hanno una maggiore probabilità di contenere informazioni utili. Un metodo correlato è la differenza assoluta media (MAD). Un metodo correlato è la differenza media assoluta (MAD).
Rapporto di valori mancanti: calcola le percentuali di istanze in un set di dati per le quali una determinata caratteristica è mancante o ha un valore nullo. Se troppe istanze mancano di una caratteristica, è improbabile che questa sia utile.
Rapporto di dispersione: il rapporto tra la varianza e il valore medio di una caratteristica. Una dispersione più elevata indica un maggior numero di informazioni.
ANOVA (analisi della varianza): determina se i diversi valori delle caratteristiche influiscono sul valore della variabile di destinazione.
I metodi wrapper addestrano l'algoritmo di machine learning con vari sottoinsiemi di caratteristiche, aggiungendo o rimuovendo caratteristiche e testando i risultati a ogni iterazione. L'obiettivo di tutti i metodi wrapper è trovare il set di caratteristiche che consente prestazioni ottimali del modello.
I metodi wrapper che testano tutte le possibili combinazioni di caratteristiche sono noti come algoritmi greedy. La loro ricerca del set di caratteristiche migliore in generale richiede molte risorse di calcolo e molto tempo, quindi è la soluzione migliore per i set di dati con spazi di caratteristiche più piccoli.
I data scientist possono configurare l'algoritmo in modo che si interrompa quando le prestazioni del modello diminuiscono o quando è in gioco un numero target di caratteristiche.
I metodi wrapper includono:
Selezione in avanti: inizia con un set di caratteristiche vuoto e aggiunge gradualmente nuove caratteristiche fino a trovare il set ottimale. La selezione del modello avviene quando le prestazioni dell'algoritmo non migliorano dopo un'iterazione specifica.
Selezione all'indietro: addestra un modello con tutte le caratteristiche originali e rimuove in modo iterativo la caratteristica meno importante dal set di caratteristiche.
Selezione esaustiva delle caratteristiche: testa ogni possibile combinazione di caratteristiche per trovare quella migliore in assoluto ottimizzando una metrica di performance specificata. Un modello di regressione logistica che utilizza una selezione esaustiva delle caratteristiche verifica ogni possibile combinazione di ogni possibile numero di caratteristiche.
Eliminazione delle caratteristiche ricorsive (RFE): un tipo di selezione a ritroso che inizia con uno spazio di caratteristiche iniziale ed elimina o aggiunge caratteristiche dopo ogni iterazione in base alla loro importanza relativa.
Eliminazione delle caratteristiche ricorsive con convalida incrociata: una variante dell'eliminazione ricorsiva che utilizza la convalida incrociata, che testa un modello su dati mai visti prima, per selezionare il set di caratteristiche con le prestazioni migliori. La convalida incrociata è una tecnica di valutazione comune dei modelli linguistici di grandi dimensioni (LLM).
I metodi incorporati integrano o incorporano la selezione delle caratteristiche nel processo di addestramento del modello. Durante l'addestramento, il modello utilizza vari meccanismi per rilevare le caratteristiche con prestazioni insufficienti e scartarle dalle iterazioni future.
Molti metodi incorporati ruotano intorno alla regolarizzazione, che penalizza le caratteristiche in base a una soglia di coefficiente preimpostata. I modelli scambiano un grado di accuratezza per una maggiore precisione. Il risultato è che i modelli presentano prestazioni leggermente inferiori durante l'addestramento, ma diventano più generalizzabili riducendo l'overfitting.
I metodi incorporati includono:
Regressione LASSO (regressione L1): aggiunge una penalità alla funzione di perdita per coefficienti correlati di alto valore, spostandoli verso un valore di 0. I coefficienti con un valore pari a 0 vengono rimossi. Maggiore è la penalizzazione, più caratteristiche vengono rimosse dallo spazio relativo. Un uso efficace della regressione LASSO consiste nel bilanciare la penalità per rimuovere un numero sufficiente di caratteristiche irrilevanti mantenendo tutte quelle importanti.
Importanza in una random forest: costruisce centinaia di Decision Trees, ognuno con una selezione casuale di punti dati e caratteristiche. Ogni albero viene valutato in base alla sua capacità di suddividere bene i punti dati. Più i risultati sono buoni, più la caratteristica o le caratteristiche in quell'albero sono considerate importanti. I classificatori misurano l'"impurità" dei raggruppamenti tramite l'impurità Gini o il guadagno informativo, mentre i modelli di regressione utilizzano la varianza.
Gradient boosting: aggiunge predittori in sequenza a un ensemble, con ogni iterazione che corregge gli errori della precedente. In questo modo è possibile identificare quali caratteristiche conducono più direttamente a risultati ottimali.
Con l'apprendimento non supervisionato, i modelli individuano da soli le caratteristiche dei dati, gli schemi e le relazioni. Non è possibile adattare le variabili di input a una variabile target nota. I metodi di selezione delle caratteristiche non supervisionati utilizzano altre tecniche per semplificare e ottimizzare lo spazio delle caratteristiche.
Un metodo di selezione delle caratteristiche senza supervisione è l'analisi dei componenti principali (PCA). La PCA riduce la dimensionalità di grandi set di dati trasformando variabili potenzialmente correlate in un insieme più piccolo di variabili. Questi componenti principali conservano la maggior parte delle informazioni contenute nel set di dati originale. La PCA contrasta la maledizione della dimensionalità e riduce anche l'overfitting.
Altri includono l'analisi delle componenti indipendenti (ICA), che separa i dati multivariati in componenti individuali statisticamente indipendenti, e gli autoencoder.
Ampiamente utilizzato con le architetture trasformative, un autoencoder è un tipo di rete neurale che impara a comprimere e quindi ricostruire i dati. In tal modo, gli autoencoder rilevano le variabili latenti, ovvero quelle che non sono direttamente osservabili, ma che influenzano fortemente la distribuzione dei dati.
Il tipo di selezione delle caratteristiche utilizzata dipende dalla natura delle variabili di input e output. Queste determinano anche la natura della sfida di machine learning, che si tratti di un problema di classificazione o di un'attività di regressione.
Input numerico, output numerico: quando gli input e gli output sono entrambi numerici, questo indica un problema predittivo della regressione. I modelli lineari producono previsioni numeriche continue, producendo una variabile target che è un numero all'interno di un intervallo di valori possibili. In questi casi, i coefficienti di correlazione, come il coefficiente di correlazione di Pearson, sono un metodo ideale per la selezione delle caratteristiche.
Input numerico, output categoriale: i modelli di regressione logistica classificano gli input in output categoriali discreti. In questo problema di classificazione, è possibile utilizzare metodi di selezione delle caratteristiche basati sulla correlazione che supportano variabili target categoriali. Questi includono l'ANOVA per i modelli di regressione lineare e il coefficiente di correlazione di Kendall per compiti non lineari.
Input categoriale, output numerico: questo raro problema può essere risolto anche con metodi di correlazione che supportano variabili categoriali.
Input categorico, output categorico: i problemi di classificazione con variabili di input e target categoriali si prestano al metodo chi-squared o alle tecniche di guadagno informativo.
Altri fattori da considerare sono la dimensione del set di dati e dello spazio delle caratteristiche, la complessità delle caratteristiche e il tipo di modello. I metodi di filtraggio possono eliminare rapidamente un'ampia porzione di caratteristiche irrilevanti, ma hanno difficoltà con le interazioni complesse tra le caratteristiche. In questi casi, i metodi wrapper e incorporati potrebbero essere più adatti.
Sapere su quali caratteristiche concentrarsi è la componente essenziale della selezione delle caratteristiche. Alcune caratteristiche sono altamente desiderabili per la modellazione, mentre altre possono portare a risultati mediocri. Oltre al modo in cui influenzano le variabili target, l'importanza delle caratteristiche è determinata da:
Facilità di modellazione: se una caratteristica è facile da modellare, l'intero processo di machine learning è più semplice e veloce, con minori possibilità di errore.
Facile da regolarizzare: le caratteristiche che si adattano bene alla regolarizzazione saranno più efficienti da utilizzare.
Separazione della causalità: separare i fattori causali da una caratteristica osservabile significa identificare i fattori sottostanti che la influenzano.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.