La riduzione della dimensionalità è una tecnica di data science utilizzata nella fase di pre-elaborazione dell'apprendimento automatico.6 Durante questo processo, i dati irrilevanti e ridondanti vengono rimossi, mantenendo le informazioni rilevanti del set di dati originale.
Le caratteristiche possono essere considerate come gli attributi di un oggetto dati. Ad esempio, in un set di dati di animali, si aspetterebbe alcune caratteristiche numeriche (età, altezza, peso) e caratteristiche di categoria (colore, specie, razza). L'estrazione delle caratteristiche fa parte dell'architettura della rete neurale del modello, come una rete neurale convoluzionale (CNN).
Innanzitutto, il modello acquisisce i dati di input, quindi l'estrattore di caratteristiche trasforma i dati in una rappresentazione numerica che può essere utilizzata per calcolare i metodi di riduzione della dimensionalità per l'estrazione delle caratteristiche. Queste rappresentazioni vengono memorizzate in vettori di caratteristiche affinché il modello esegua algoritmi per la riduzione dei dati.
Dopo l'estrazione, a volte è necessario standardizzare i dati utilizzando la normalizzazione delle caratteristiche, soprattutto quando si utilizzano determinati algoritmi sensibili all'entità e alla scala delle variabili (algoritmi di discesa basati sul gradiente, cluster k-means).
È possibile seguire diversi metodi per ottenere determinati risultati a seconda delle attività. Tutti i metodi cercano di semplificare i dati preservando le informazioni più preziose.
La maggior parte dei modelli AI esegue l'estrazione automatica delle caratteristiche, ma è comunque utile comprendere i diversi modi di gestirle. Di seguito sono riportati alcuni metodi comuni di estrazione delle caratteristiche utilizzati per la dimensione:
Analisi dei componenti principali (PCA): questa tecnica riduce il numero di caratteristiche in set di dati di grandi dimensioni a componenti principali o nuove caratteristiche che devono essere utilizzate dal classificatore del modello per le sue attività specifiche.
La PCA è popolare per la sua capacità di creare dati originali non correlati, il che significa che le nuove dimensioni create dalla PCA sono indipendenti l'una dall'altra.7 Questo rende la PCA una soluzione efficiente per l'overfitting dovuto alla mancanza di ridondanza dei dati perché ogni caratteristica è unica.
Analisi discriminante lineare (LDA): questa tecnica è comunemente usata nel machine learning supervisionato per separare più classi e caratteristiche per risolvere problemi di classificazione.
È una tecnica comunemente usata per ottimizzare i modelli di apprendimento automatico. I nuovi punti dati vengono classificati utilizzando la statistica bayesiana per modellare la distribuzione dei dati per ogni classe.
Incorporamento del vicino stocastico distribuito a T (t-SNE): questa tecnica di machine learning viene comunemente applicata ad attività come la visualizzazione delle caratteristiche nel deep learning.8 È particolarmente utile quando l'attività consiste nel renderizzare visualizzazioni di dati ad alta dimensione in 2D o 3D.
Viene comunemente utilizzato per analizzare modelli e relazioni nella data science. A causa della sua natura non lineare, il t-SNE è costoso dal punto di vista computazionale ed è comunemente utilizzato solo per le attività di visualizzazione.
Term Frequency-inverse document frequency (TF-IDF): Questo metodo statistico valuta l'importanza delle parole in base alla frequenza con cui appaiono. La frequenza del termine in un documento specifico viene ponderata rispetto alla frequenza con cui appare in tutti i documenti di una raccolta o di un corpus.9
Questa tecnica è comunemente usata nella PNL per la classificazione, il cluster e il recupero delle informazioni. La Bag of words (BoW) è una tecnica simile ma invece di considerare la rilevanza del termine, tratta effettivamente tutte le parole allo stesso modo.