Le tecniche di riduzione della dimensionalità come PCA, LDA e t-SNE migliorano i modelli di machine learning. Preservano le caratteristiche essenziali di set di dati complessi riducendo le variabili predittive numeriche per una maggiore generalizzabilità.
La riduzione della dimensionalità è un metodo per rappresentare un determinato set di dati usando un numero inferiore di caratteristiche (ovvero dimensioni) pur continuando a catturare le proprietà significative dei dati originali.1 Questo equivale a eliminare caratteristiche irrilevanti o ridondanti, o semplicemente dati rumorosi, per creare un modello con un numero inferiore di variabili. La riduzione della dimensionalità copre una serie di metodi di selezione delle caratteristiche e la compressione dei dati usati durante la pre-elaborazione. Sebbene i metodi di riduzione della dimensionalità differiscano nel funzionamento, tutti trasformano gli spazi ad alta dimensionalità in spazi a bassa dimensionalità attraverso l'estrazione o la combinazione variabile.
Nel machine learning, le dimensioni (o caratteristiche) sono le variabili predittive che determinano l'output di un modello. Possono anche essere chiamate variabili di input. I dati ad alta dimensionalità indicano qualsiasi set di dati con un elevato numero di variabili predittive. Tali set di dati possono comparire frequentemente nella biostatistica, così come negli studi osservazionali delle scienze sociali, in cui il numero di punti dati (cioè di osservazioni) supera il numero di variabili predittive.
I set di dati ad alta dimensionalità pongono una serie di problemi pratici per gli algoritmi di machine learning, come l'aumento del tempo di calcolo, lo spazio di storage per i big data e così via. Ma la preoccupazione più grande è forse la diminuzione dell'accuratezza nei modelli predittivi. I modelli statistici e di machine learning addestrati su set di dati ad alta dimensionalità spesso generalizzano in modo scadente.
Il problema della dimensionalità si riferisce alla relazione inversa tra l'aumento delle dimensioni del modello e la diminuzione della generalizzabilità. Con l'aumentare del numero di variabili di input del modello, ne aumenta lo spazio. Se il numero di punti dati rimane invariato, tuttavia, i dati diventano sparsi. Questo significa che la maggior parte dello spazio delle caratteristiche del modello è vuoto, cioè senza punti dati osservabili. Con l'aumentare della scarsità dei dati, i punti dati diventano così diversi che i modelli predittivi diventano meno efficaci nell'individuare i modelli esplicativi.2
Per spiegare adeguatamente i pattern nei dati sparsi, potrebbe verificarsi l'overfitting dei dati di addestramento da parte dei modelli. In questo modo, l'aumento della dimensionalità può portare a una scarsa generalizzabilità. L'alta dimensionalità può inibire ulteriormente l'interpretabilità del modello inducendo la multicollinearità. Con l'aumentare della quantità di variabili del modello, aumenta anche la possibilità che alcune variabili siano ridondanti o correlate.
La raccolta di più dati può ridurre la scarsità dei dati e quindi compensare il problema della dimensionalità. All'aumentare del numero di dimensioni in un modello, tuttavia, il numero di punti dati necessari per impedire il problema della dimensionalità aumenta in modo esponenziale.3 La raccolta di dati sufficienti non è, ovviamente, sempre fattibile. Da qui, la necessità di ridurre la dimensionalità per migliorare l'analisi dei dati.
Le tecniche di riduzione della dimensionalità generalmente riducono i modelli a uno spazio dimensionale inferiore estraendo o combinando le caratteristiche del modello. Al di là di questa somiglianza di base, tuttavia, gli algoritmi di riduzione della dimensionalità variano.
L'analisi dei componenti principali (PCA) è forse il metodo di riduzione della dimensionalità più diffuso. È una forma di estrazione delle caratteristiche, che combina e trasforma le caratteristiche originali del set di dati per produrre nuove caratteristiche, denominate componenti principali. Fondamentalmente, la PCA seleziona un sottoinsieme di variabili da un modello e insieme costituiscono la maggior parte o tutta la varianza presente nel set originale di variabili. La PCA proietta quindi i dati su un nuovo spazio definito da questo sottoinsieme di variabili.4
Ad esempio, immagina di avere un set di dati sui serpenti con cinque variabili: lunghezza del corpo (X1), diametro del corpo nel punto più largo (X2), lunghezza dei denti (X3), peso (X4) ed età (X5). Certo, alcune di queste cinque caratteristiche possono essere correlate, come la lunghezza del corpo, il diametro e il peso. Questa ridondanza nelle caratteristiche può portare a dati sparsi e all'overfitting, diminuendo la varianza (o generalizzabilità) di un modello generato da tali dati. La PCA calcola una nuova variabile (PC1) da questi dati che fonde due o più variabili e ne massimizza la varianza. Combinando variabili potenzialmente ridondanti, la PCA crea inoltre un modello con meno variabili rispetto al modello iniziale. Pertanto, dal momento che il nostro set di dati è partito da cinque variabili (vale a dire, pentadimensionale), il modello ridotto può avere da una a quattro variabili (vale a dire, da una a quattro dimensioni). I dati vengono quindi mappati su questo nuovo modello.5
Questa nuova variabile non è una delle cinque variabili originali ma una caratteristica combinata calcolata attraverso una trasformazione lineare della matrice di covarianza dei dati originali. Nello specifico, il nostro componente principale combinato è l'autovettore corrispondente all'autovalore più grande della matrice di covarianza. Possiamo inoltre creare componenti principali aggiuntivi combinando altre variabili. Il secondo componente principale è l'autovettore del secondo autovalore più grande, e così via.6
L'analisi discriminante lineare (LDA) è simile alla PCA in quanto proietta i dati su un nuovo spazio dimensionale inferiore, le cui dimensioni sono derivate dal modello iniziale. La LDA differisce dalla PCA per la preoccupazione di mantenere le etichette di classificazione nel set di dati. Mentre la PCA produce nuove variabili componenti destinate a massimizzare la varianza dei dati, la LDA produce variabili componenti che massimizzano anche la differenza di classe nei dati.7
I passaggi per l'implementazione della LDA sono simili a quelli per la PCA. L'eccezione principale è che la prima usa la matrice di dispersione, mentre la seconda usa la matrice di covarianza. Altrimenti, proprio come nella PCA, la LDA calcola combinazioni lineari delle caratteristiche originali dei dati che corrispondono ai più grandi autovalori della matrice di dispersione. Uno degli obiettivi della LDA è massimizzare la differenza interclasse riducendo al minimo la differenza intraclasse.8
LDA e PCA sono tipi di algoritmi di riduzione della dimensionalità lineare. L'incorporamento del vicino stocastico distribuito a T (t-SNE), tuttavia, è una forma di riduzione della dimensionalità non lineare (o apprendimento multiplo). Con l'obiettivo di preservare principalmente la varianza del modello, LDA e PCA si concentrano sul mantenimento della distanza tra punti dati dissimili nelle loro rappresentazioni dimensionali inferiori. Al contrario, t-SNE mira a preservare la struttura dei dati locali riducendo le dimensioni del modello. t-SNE differisce inoltre da LDA e PCA in quanto questi ultimi due possono produrre modelli con più di tre dimensioni, purché il modello generato abbia dimensioni inferiori rispetto ai dati originali. t-SNE, tuttavia, visualizza tutti i set di dati in tre o due dimensioni.
Come metodo di trasformazione non lineare, t-SNE rinuncia alle matrici di dati. Invece, t-SNE usa un kernel gaussiano per calcolare la somiglianza a coppie dei punti dati. I punti vicini l'uno all'altro nel set di dati originale hanno una maggiore probabilità di essere vicini rispetto a quelli più lontani. t-SNE mappa quindi tutti i punti dati su uno spazio tridimensionale o bidimensionale, tentando di preservare le coppie di dati.9
Esistono numerosi metodi aggiuntivi di riduzione della dimensionalità, come la PCA del kernel, l'analisi fattoriale, le foreste casuali e la scomposizione dei valori singolari (SVD). PCA, LDA e t-SNE sono tra i più utilizzati e discussi. Si noti che diversi pacchetti e librerie, come scikit-learn, sono precaricati con funzioni per l'implementazione di queste tecniche.
La riduzione della dimensionalità è stata spesso impiegata ai fini della visualizzazione dei dati.
La riduzione della dimensionalità si verifica spesso nella ricerca biologica in cui la quantità di variabili genetiche supera il numero di osservazioni. Pertanto, una manciata di studi confronta diverse tecniche di riduzione della dimensionalità, individuando t-SNE e kernel PCA tra i più efficaci per diversi set di dati genomici.10 Altri studi propongono criteri più specifici per la selezione di metodi di riduzione della dimensionalità nella ricerca biologica computazionale.11 Uno studio recente propone una versione modificata della PCA per le analisi genetiche relative all'ascendenza con raccomandazioni per ottenere proiezioni imparziali.12
L'analisi semantica latente (LSA) è una forma di SVD applicata all'elaborazione del linguaggio naturale dei documenti di testo. La LSA opera essenzialmente in base al principio che la somiglianza tra le parole si manifesta nella misura in cui coesistono in sottospazi o piccoli campioni della lingua.13 La LSA viene usata per confrontare il linguaggio del supporto emotivo fornito dagli operatori sanitari per sostenere discorsi efficaci sulla fine del ciclo di vita.14 Altre ricerche usano la LSA come metrica di valutazione per confermare gli insight e l'efficacia fornite da altre tecniche di machine learning.15
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.
Esplora gli approcci di apprendimento supervisionato, come le macchine a vettori di supporto e i classificatori probabilistici.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 Lih-Yuan Deng, Max Garzon e Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.
2 Ian Goodfellow Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002.
5 Chris Albon, Machine Learning with Python Cookbook, O'Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O'Reilley, 2017.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, "Principal Component Analysis", Encyclopedia of Database Systems, Springer, 2018.
7 Chris Albon, Machine Learning with Python Cookbook, O'Reilly, 2018.
8 Chris Ding, "Dimension Reduction Techniques for Clustering", Encyclopedia of Database Systems, Springer, 2018.
9 Laurens van der Maaten e Geoffrey Hinton, "Visualizing Data Using t-SNE", Journal of Machine Learning Research, vol. 9, n. 86, 2008, pagg. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang e Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data", 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pagg. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu e Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data", Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma e Xiang Zhou, "Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis", Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen e Susan Holmes, "Ten quick tips for effective dimensionality reduction", PLoS Computational Biology, vol. 15, n. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey e Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis", Bioinformatics, vol. 36, n. 11, 2020, pagg. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya e Fred Damerau, Handbook of Natural Language Processing, 2a edizione, CRC Press, 2010.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington e Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis", Cancer Nursing, vol. 43, n. 6, 2020, pagg. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang e Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling", 2022 IEEE International Conference on Big Data, 2022, pagg. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.