Techniken zur Reduzierung der Dimensionalität wie PCA, LDA und t-SNE verbessern Modelle für maschinelles Lernen. Sie bewahren wesentliche Funktionen komplexer Datensätze, indem sie die Anzahl der Prädiktorvariablen reduzieren und so die Generalisierbarkeit erhöhen.
Die Reduzierung der Dimensionalität ist eine Methode, um einen bestimmten Datensatz mit einer geringeren Anzahl von Merkmalen (d. h. Dimensionen) darzustellen und gleichzeitig die aussagekräftigen Eigenschaften der Originaldaten zu erfassen.1 Dies läuft darauf hinaus, irrelevante oder redundante Funktionen oder einfach nur verrauschte Daten zu entfernen, um ein Modell mit einer geringeren Anzahl von Variablen zu erstellen. Die Reduzierung der Dimensionalität umfasst eine Reihe von Methoden zur Auswahl von Merkmalen und zur Datenkomprimierung, die während der Vorverarbeitung verwendet werden. Die Methoden zur Reduzierung der Dimensionalität unterscheiden sich zwar in ihrer Funktionsweise, aber sie alle wandeln hochdimensionale Räume durch variable Extraktion oder Kombination in niedrigdimensionale Räume um.
Beim maschinellen Lernen sind Dimensionen (oder Funktionen) die Prädiktorvariablen, die die Ausgabe eines Modells bestimmen. Sie können auch als Eingabevariablen bezeichnet werden. Unter hochdimensionalen Daten versteht man einen Datensatz mit einer großen Anzahl von Prädiktorvariablen. Solche Datensätze kommen häufig in der Biostatistik sowie in sozialwissenschaftlichen Beobachtungsstudien vor, bei denen die Anzahl der Datenpunkte (d. h. Beobachtungen) die Anzahl der Prädiktorvariablen übersteigt.
Hochdimensionale Datensätze werfen eine Reihe praktischer Fragen für Algorithmen des maschinellen Lernens auf, wie z. B. längere Rechenzeiten, Speicherplatz für große Datenmengen usw. Die größte Sorge ist vielleicht die geringere Genauigkeit der Vorhersagemodelle. Modelle für statistisches und maschinelles Lernen, die auf hochdimensionalen Datensätzen trainiert werden, sind oft schlecht zu verallgemeinern.
Der Fluch der Dimensionalität bezieht sich auf die umgekehrte Beziehung zwischen zunehmenden Modelldimensionen und abnehmender Generalisierbarkeit. Mit zunehmender Anzahl der Eingabevariablen des Modells nimmt der Umfang des Modells zu. Wenn die Anzahl der Datenpunkte jedoch gleich bleibt, werden die Daten lückenhaft. Das bedeutet, dass der Großteil des Funktionsraums des Modells leer bleibt und keine beobachtbaren Datenpunkte enthält. Mit zunehmender Unvollständigkeit der Daten variieren die Datenpunkte so stark, dass Vorhersagemodelle bei der Identifizierung von Erklärungsmustern weniger effektiv werden.2
Um Muster in spärlichen Daten angemessen zu erklären, können Modelle zu viele Trainingsdaten enthalten. Auf diese Weise kann eine Zunahme der Dimensionalität zu einer schlechten Generalisierbarkeit führen. Eine hohe Dimensionalität kann die Interpretierbarkeit von Modellen weiter beeinträchtigen, indem sie Multikollinearität hervorruft. Wenn die Anzahl der Modellvariablen zunimmt, steigt auch die Möglichkeit, dass einige Variablen redundant oder korreliert sind
.Durch das Erfassen von mehr Daten kann die spärliche Datenlage verbessert und so der Fluch der Dimensionalität ausgeglichen werden. Mit zunehmender Anzahl von Dimensionen in einem Modell nimmt jedoch die Anzahl der Datenpunkte, die erforderlich sind, um den Fluch der Dimensionalität zu verhindern, exponentiell zu.3 Die Erfassung ausreichender Daten ist natürlich nicht immer möglich. Daher ist es erforderlich, die Dimensionalität zu reduzieren, um die Datenanalyse zu verbessern.
Techniken zur Dimensionalitätsreduktion reduzieren Modelle im Allgemeinen auf einen niedrigdimensionalen Raum, indem Modell-Funktionen extrahiert oder kombiniert werden. Abgesehen von dieser grundlegenden Ähnlichkeit variieren die Algorithmen zur Dimensionsreduktion jedoch.
Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) ist vielleicht die gebräuchlichste Methode zur Reduzierung der Dimensionalität. Es handelt sich dabei um eine Form der Merkmalsextraktion, d. h. es werden die ursprünglichen Merkmale des Datensatzes kombiniert und transformiert, um neue Merkmale, sogenannte Hauptkomponenten, zu erzeugen. Im Wesentlichen wählt PCA eine Teilmenge von Variablen aus einem Modell aus, die zusammen die Mehrheit oder die gesamte Varianz ausmachen, die im ursprünglichen Satz von Variablen vorhanden ist. PCA projiziert dann Daten auf einen neuen Raum, der durch diese Teilmenge von Variablen definiert wird. 4
Stellen Sie sich zum Beispiel vor, wir hätten einen Datensatz über Schlangen mit fünf Variablen: Körperlänge(X1), Körperdurchmesser an der breitesten Stelle(X2), Länge der Reißzähne(X3), Gewicht(X4) und Alter(X5). Natürlich können einige dieser fünf Merkmale miteinander korrelieren, wie Körperlänge, Durchmesser und Gewicht. Diese Redundanz bei den Merkmalen kann zu spärlichen Daten und zu einer Überanpassung führen, wodurch die Varianz (oder Verallgemeinerbarkeit) eines aus solchen Daten erstellten Modells verringert wird. Die PCA berechnet aus diesen Daten eine neue Variable(PC1), die zwei oder mehr Variablen zusammenfasst und die Datenvarianz maximiert. Durch die Kombination potenziell redundanter Variablen erstellt die PCA auch ein Modell mit weniger Variablen als das ursprüngliche Modell. Da unser Datensatz also mit fünf Variablen (d.h. fünfdimensional) begann, kann das reduzierte Modell zwischen einer und vier Variablen (d.h. ein- bis vierdimensional) haben. Die Daten werden dann auf dieses neue Modell abgebildet.5
Diese neue Variable ist keine der ursprünglichen fünf Variablen, sondern eine kombinierte Funktion, die durch eine lineare Transformation der Kovarianzmatrix der Originaldaten berechnet wird. Insbesondere ist unsere kombinierte Hauptkomponente der Eigenvektor, der dem größten Eigenwert in der Kovarianzmatrix entspricht. Wir können auch zusätzliche Hauptkomponenten erstellen, indem wir andere Variablen kombinieren. Die zweite Hauptkomponente ist der Eigenvektor des zweitgrößten Eigenwerts und so weiter.6
Die lineare Diskriminanzanalyse (LDA) ähnelt der PCA darin, dass sie Daten auf einen neuen Raum mit niedrigerer Dimension projiziert, dessen Dimensionen aus dem ursprünglichen Modell abgeleitet werden. Die LDA unterscheidet sich von PCA in ihrem Bestreben, Klassifizierungsbezeichnungen im Datensatz beizubehalten. Während PCA neue Komponentenvariablen erzeugt, die die Datenvarianz maximieren sollen, erzeugt LDA Komponentenvariablen, die auch die Klassenunterschiede in den Daten maximieren.7
Die Schritte zur Implementierung von LDA ähneln denen für PCA. Die wichtigste Ausnahme besteht darin, dass Erstere die Streumatrix und Letztere die Kovarianzmatrix verwendet. Ansonsten werden, ähnlich wie bei der PCA, Linearkombinationen der ursprünglichen Funktionen der Daten berechnet, die den größten Eigenwerten aus der Streumatrix entsprechen. Ein Ziel von LDA ist es, die Unterschiede zwischen den Klassen zu maximieren und gleichzeitig die Unterschiede innerhalb der Klassen zu minimieren.8
LDA und PCA sind Arten von linearen Algorithmen zur Dimensionalitätsreduzierung. Die T-verteilte stochastische Nachbareinbettung (t-SNE) ist jedoch eine Form der nichtlinearen Dimensionalitätsreduktion (oder des mannigfaltigen Lernens). LDA und PCA versuchen, die Modellvarianz grundsätzlich zu erhalten, und konzentrieren sich darauf, den Abstand zwischen unterschiedlichen Datenpunkten in ihren niedrigdimensionalen Darstellungen beizubehalten. Im Gegensatz dazu zielt t-SNE darauf ab, die lokale Datenstruktur zu erhalten und gleichzeitig die Modelldimensionen zu reduzieren. t-SNE unterscheidet sich von LDA und PCA außerdem dadurch, dass die beiden letzteren Modelle mit mehr als drei Dimensionen erzeugen können, solange ihr generiertes Modell weniger Dimensionen hat als die Originaldaten. t-SNE visualisiert jedoch alle Datensätze entweder drei- oder zweidimensional.
Als nichtlineare Transformationsmethode verzichtet t-SNE auf Datenmatrizen. Stattdessen verwendet t-SNE einen Gauß-Filter, um die paarweise Ähnlichkeit von Datenpunkten zu berechnen. Punkte, die im Original-Datensatz nahe beieinander liegen, haben eine größere Wahrscheinlichkeit, auch in der Karte nahe beieinander zu liegen, als weiter voneinander entfernte Punkte. t-SNE bildet dann alle Datenpunkte in einem drei- oder zweidimensionalen Raum ab und versucht dabei, die Datenpaare beizubehalten.9
Es gibt eine Reihe weiterer Methoden zur Dimensionalitätsreduzierung, wie z. B. Kernel-PCA, Faktorenanalyse, Random Forests und Singular Value Decomposition (SVD). PCA, LDA und t-SNE gehören zu den am meisten verwendeten und diskutierten. Beachten Sie, dass mehrere Pakete und Bibliotheken, wie z. B. scikit-learn, bereits mit Funktionen zur Implementierung dieser Techniken ausgestattet sind.
Die Dimensionsreduktion wurde oft zum Zweck der Datenvisualisierung eingesetzt.
Die Dimensionsreduktion kommt häufig in der biologischen Forschung vor, wo die Anzahl der genetischen Variablen die Anzahl der Beobachtungen übersteigt. Daher vergleichen einige Studien verschiedene Techniken zur Dimensionsreduktion und identifizieren t-SNE und Kernel-PCA als die effektivsten für verschiedene genomische Datensätze.10 Andere Studien schlagen spezifischere Kriterien für die Auswahl von Methoden zur Dimensionsreduktion in der computergestützten biologischen Forschung vor.11 Eine aktuelle Studie schlägt eine modifizierte Version der PCA für genetische Analysen im Zusammenhang mit der Abstammung vor und gibt Empfehlungen für das Erlangen unvoreingenommener Projektionen.12
Die latente semantische Analyse (LSA) ist eine Form der SVD, die auf Textdokumente angewendet wird. LSA basiert im Wesentlichen auf dem Prinzip, dass sich die Ähnlichkeit zwischen Wörtern in dem Ausmaß manifestiert, in dem sie in Unterräumen oder kleinen Sprachproben gemeinsam vorkommen.13 LSA wird verwendet, um die Sprache der emotionalen Unterstützung durch medizinisches Personal zu vergleichen, um für optimale rhetorische End-of-Life-Praktiken zu argumentieren.14 Andere Forschungsarbeiten verwenden LSA als Metriken zur Bestätigung der Erkenntnisse und der Wirksamkeit anderer maschineller Lerntechniken.15
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Lih-Yuan Deng, Max Garzon und Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.
2 Ian Goodfellow Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002.
5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, „Principal Component Analysis,“ Encyclopedia of Database Systems, Springer, 2018.
7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.
8 Chris Ding, „Dimension Reduction Techniques for Clustering,“ Encyclopedia of Database Systems, Springer, 2018.
9 Laurens van der Maaten und Geoffrey Hinton, „Visualizing Data Using t-SNE,“ Journal of Machine Learning Research, vol. 9, no. 86, 2008, pp. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang und Vitaveska Lanfranchi, „Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data,“ 17. International Conference on Mobility, Sensing and Networking (MSN), 2021, pp. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu und Xiaowen Chen, „A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data,“ Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma und Xiang Zhou, „Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,“ Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen und Susan Holmes, „Ten quick tips for effective dimensionality reduction,“ PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey und Seunggeun Lee, „Fast and robust ancestry prediction using principal component analysis,“ Bioinformatics, vol. 36, no. 11, 2020, pp. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya und Fred Damerau, Handbook of Natural Language Processing, 2. Auflage, CRC Press, 2010.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington und Maija Reblin, „Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis,“ Cancer Nursing, vol. 43, no. 6, 2020, pp. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang und Mahmoud El-Haj, „Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling,“ 2022 IEEE International Conference on Big Data, 2022, pp. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io