Principal Component Analysis (PCA) reduziert die Anzahl der Dimensionen in großen Datensätzen auf Hauptkomponenten, die den Großteil der ursprünglichen Informationen beibehalten. Dies geschieht durch die Umwandlung potenziell korrelierter Variablen in eine kleinere Gruppe von Variablen, die sogenannten Hauptkomponenten.
Karl Pearson wird die Entwicklung von PCA im Jahr 1901 zugeschrieben, aber es gewann erst mit der erhöhten Verfügbarkeit von Computern an Popularität, die multivariate statistische Berechnungen im Maßstab 1 ermöglichten. PCA ist sehr effektiv für die Visualisierung und Untersuchung hochdimensionaler Datensätze oder Daten mit vielen Funktionen, da es Trends, Muster oder Ausreißer leicht identifizieren kann.
PCA wird häufig zur Datenvorverarbeitung bei der Verwendung mit Algorithmen des maschinellen Lernens genutzt. Es kann die informativsten Merkmale aus großen Datensätzen extrahieren und gleichzeitig die relevantesten Informationen aus dem ursprünglichen Datensatz beibehalten. Dies reduziert die Komplexität des Modells, da das Hinzufügen jedes neuen Merkmals die Leistung des Modells beeinträchtigt, was allgemein auch als „Fluch der Dimensionalität“ bezeichnet wird.
Durch die Projizierung eines hochdimensionalen Datensatzes in einen kleineren Merkmalsraum minimiert PCA auch häufige Probleme wie Multikollinearität und Überanpassung oder eliminiert sie vollständig. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind, was für die kausale Modellierung problematisch sein kann. Überangepasste Modelle generalisieren schlecht auf neue Daten, so dass sie insgesamt an Wert verlieren. PCA ist ein häufig verwendeter Ansatz in der Regressionsanalyse, wird aber auch für eine Vielzahl von Anwendungsfällen eingesetzt, z. B. für die Mustererkennung, Signalverarbeitung, Bildverarbeitung und mehr.
Es gibt zwar noch andere Varianten von PCA, wie z. B. die Hauptkomponentenregression und die Kernel-PCA, aber der Umfang dieses Artikels konzentriert sich auf die primäre Methode in der aktuellen Literatur.
PCA ist eine Technik zur Dimensionsreduktion wie die lineare Diskriminanzanalyse (LDA). Im Gegensatz zu LDA ist PCA nicht auf beaufsichtigte Lernaufgaben beschränkt. Für unbeaufsichtigte Lernaufgaben bedeutet das, dass PCA Dimensionen reduzieren kann, ohne Kategorien oder Klassenbezeichnungen berücksichtigen zu müssen. PCA steht auch in engem Zusammenhang mit der Faktoranalyse. Beide reduzieren die Anzahl der Dimensionen oder Variablen in einem Datensatz und minimieren gleichzeitig den Informationsverlust. PCA unterteilt Variablen in eine Teilmenge linear unabhängiger Hauptkomponenten. Die Faktorenanalyse wird jedoch im Allgemeinen verwendet, um die zugrunde liegenden Datenstrukturen zu verstehen, wobei der Schwerpunkt auf latenten Variablen oder nicht gemessenen Faktoren liegt, die die Streuung einer Variablen erfassen.
PCA und K-Means-Clustering sind beides unbeaufsichtigte Techniken des maschinellen Lernens, die für die Datenanalyse verwendet werden, aber unterschiedliche Ziele und Methoden haben. PCA wird verwendet, um die Dimensionalität der Daten zu reduzieren, während K-Means-Clustering die Datenpunkte auf der Grundlage ihrer Ähnlichkeit zusammenfasst. Die von Ihnen gewählte Technik hängt vom spezifischen Datensatz und den Zielen Ihrer Analyse ab.
PCA erstellt neue Variablen, wie z. B. Hauptkomponenten, die Linearkombinationen der ursprünglichen Variablen sind. PCA nimmt einen Datensatz mit mehreren Variablen als Eingabe und erzeugt einen Datensatz in einem tieferliegenden Teilraum, d. h. einen reduzierten Datensatz mit weniger Variablen. Es wird oft in der explorativen Datenanalyse zur Erstellung von Prognosemodellen verwendet, aber auch bei der Datenvorverarbeitung zur Dimensionsreduzierung.
K-Means ist ein Clusteralgorithmus, der Datenpunkte auf Grundlage ihrer Entfernung von den Clusterzentren Clustern zuweist. Es verwendet einen Datensatz mit einer oder mehreren Variablen als Eingabe und erstellt eine Reihe von Clustern mit ähnlichen Datenpunkten. Es wird häufig verwendet, um Daten für eine Vielzahl von Anwendungsfällen zu clustern, z. B. Bildsegmentierung, Kundensegmentierung und Anomalieerkennung.
PCA fasst den Informationsinhalt großer Datensätze in einem kleineren Satz unkorrelierter Variablen zusammen, die als Hauptkomponenten bezeichnet werden. Diese Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen, die im Vergleich zu anderen Linearkombinationen die maximale Varianz aufweisen. Diese Komponenten erfassen so viele Informationen wie möglich aus dem Originaldatensatz.
Diese statistische Technik umfasst sowohl lineare Algebra- als auch Matrixoperationen und transformiert den ursprünglichen Datensatz in ein neues Koordinatensystem, das durch die Hauptkomponenten strukturiert ist. Die Eigenvektoren und Eigenwerte aus der Kovarianzmatrix, die den Hauptkomponenten zugrunde liegen, ermöglichen die Analyse dieser linearen Transformationen.
Stellen Sie sich vor, Sie haben einen Datensatz mit mehreren Merkmalen abgebildet, woraus ein mehrdimensionales Streudiagramm resultiert. Eigenvektoren geben die Richtung der Varianz im Streudiagramm an. Eigenwerte sind die Koeffizienten der Eigenvektoren. Sie geben die Bedeutung dieser Richtungsdaten an. Ein hoher Eigenwert bedeutet daher, dass der entsprechende Eigenvektor entscheidender ist. Da Hauptkomponenten die Richtungen maximaler Varianz in den Daten darstellen, sind sie auch die Eigenvektoren der Kovarianzmatrix.
In PCA werden zwei Hauptkomponenten berechnet: die erste Hauptkomponente (PC1) und die zweite Hauptkomponente (PC2).
Die erste Hauptkomponente (PC1) ist die Raumrichtung, entlang der die Datenpunkte die höchste oder größte Varianz aufweisen. Es ist die Linie, welche die Form der projizierten Punkte am besten darstellt. Je größer die in der ersten Komponente erfasste Variabilität, desto mehr Informationen sind im ursprünglichen Datensatz enthalten. Keine andere Hauptkomponente kann eine höhere Variabilität aufweisen.
Wir berechnen die zweite Hauptkomponente (PC2) auf die gleiche Weise wie PC1. PC2 macht die nächsthöhere Varianz im Datensatz aus und muss mit PC1 unkorreliert sein. Das heißt, PC2 muss orthogonal, also senkrecht, zu PC1 sein. Diese Beziehung kann ebenfalls so ausgedrückt werden, dass die Korrelation zwischen PC1 und PC2 gleich Null ist.
Ein Streudiagramm wird in der Regel verwendet, um die Beziehung zwischen PC1 und PC2 zu zeigen, wenn PCA auf einen Datensatz angewendet wird. Die Achsen PC1 und PC2 stehen dann senkrecht zueinander.
Wenn es nachfolgende Komponenten gibt, würden diese auch die gleichen Eigenschaften behalten, wobei sie nicht mit anderen Komponenten korreliert wären und alle verbleibenden Variationen erklären würden.
Der PCA-Berechnungsprozess wird in den folgenden Schritten zusammengefasst, um zu zeigen, wie die Hauptkomponenten berechnet werden und wie sie sich auf die Originaldaten beziehen.
Da die PCA auf bestimmte Merkmale ausgerichtet sein kann, ist es wichtig zu prüfen, ob eine Normalisierung der Daten erforderlich ist. Die Daten sollten einer Normalverteilung mit einem Mittelwert von null und einer Standardabweichung von eins entsprechen.
In diesem Schritt werden die Mittelwerte der Variablen berechnet und vom ursprünglichen Datensatz subtrahiert, so dass jede Variable gleichermaßen zur Analyse beiträgt. Dieser Wert wird dann durch die Standardabweichung für jede Variable dividiert, sodass alle Variablen dieselbe Skala verwenden.
Die Kovarianz (Cov) misst, wie stark zwei oder mehr Variablen miteinander korrelieren. Die Kovarianzmatrix fasst die Kovarianzen zusammen, die mit allen Paarkombinationen der Anfangsvariablen im Datensatz verknüpft sind. Die Berechnung der Kovarianzmatrix hilft dabei, die Beziehungen zwischen den Variablen zu identifizieren — das heißt, wie die Variablen in Bezug zueinander vom Mittelwert abweichen. Diese Datenmatrix ist eine symmetrische Matrix, was bedeutet, dass die Variablenkombinationen als d × d dargestellt werden können, wobei d die Anzahl der Dimensionen ist. Zum Beispiel gäbe es für einen dreidimensionalen Datensatz 3 × 3 oder 9 Variablenkombinationen in der Kovarianzmatrix.
Das Vorzeichen der Variablen in der Matrix zeigt uns, ob Kombinationen korreliert sind:
Hier berechnen wir die Eigenvektoren (Hauptkomponenten) und Eigenwerte der Kovarianzmatrix. Als Eigenvektoren stellen die Hauptkomponenten die Richtungen der maximalen Varianz in den Daten dar. Die Eigenwerte stellen den Betrag der Varianz in jeder Komponente dar. Die Rangordnung der Eigenvektoren nach Eigenwert identifiziert die Reihenfolge der Hauptkomponenten.
Hier entscheiden wir, welche Komponenten wir behalten und welche wir verwerfen. Komponenten mit niedrigen Eigenwerten sind in der Regel nicht so signifikant. Gerölldiagramme stellen in der Regel den Anteil der erklärten Gesamtvarianz und den kumulativen Anteil der Varianz dar. Diese Metriken helfen dabei, die optimale Anzahl der aufzubewahrenden Komponenten zu bestimmen. Der Punkt, an dem die Y-Achse der erklärten Eigenwerte oder der gesamten Varianz einen „Ellbogen“ erzeugt, gibt im Allgemeinen an, wie viele PCA-Komponenten wir einbeziehen möchten.
Schließlich werden die Daten in das neue Koordinatensystem transformiert, das durch die Hauptkomponenten definiert wird. Das heißt, der aus den Eigenvektoren der Kovarianzmatrix erzeugte Merkmalsvektor projiziert die Daten auf die neuen Achsen, die durch die Hauptkomponenten definiert sind. Dadurch werden neue Daten erstellt, die die meisten Informationen erfassen, jedoch weniger Dimensionen als der ursprüngliche Datensatz aufweisen.
Ein PCA-Diagramm ist ein Streudiagramm, das unter Verwendung der ersten beiden Hauptkomponenten als Achsen erstellt wird. Die erste Hauptkomponente (PC1) ist die X-Achse und die zweite Hauptkomponente (PC2) ist die Y-Achse. Das Streudiagramm zeigt die Beziehungen zwischen Beobachtungen (Datenpunkte) und den neuen Variablen (den Hauptkomponenten) an. Die Position jedes Punktes zeigt die Werte von PC1 und PC2 für diese Beobachtung.
Die Richtung und Länge der Diagrammpfeile zeigen die Ladungen der Variablen an, d.h. wie jede Variable zu den Hauptkomponenten beiträgt. Wenn eine Variable eine hohe Ladung für eine bestimmte Komponente aufweist, ist sie stark mit dieser Komponente korreliert. Dadurch kann hervorgehoben werden, welche Variablen einen signifikanten Einfluss auf Datenvariationen haben.
Die Anzahl der Hauptkomponenten, die nach der Anwendung von PCA verbleiben, kann Ihnen bei der Interpretation der Datenausgabe helfen. Die erste Hauptkomponente erklärt die größte Datenabweichung, und die späteren Komponenten verursachen eine geringere Abweichung. So kann die Anzahl der Komponenten die Menge an Informationen angeben, die im ursprünglichen Datensatz gespeichert sind. Weniger Komponenten nach der Anwendung von PCA könnten bedeuten, dass Sie nicht viel Datenvariation erfasst haben. Mehr Komponenten deuten auf eine größere Datenvariation hin. Allerdings können die Ergebnisse schwieriger zu interpretieren sein. Sie können die optimale Anzahl von Komponenten bestimmen, die beibehalten werden sollen, indem Sie entweder ein Geröll-Diagramm oder die kumulative erläuterte Varianz verwenden.
Die Anwendung von PCA kann dabei helfen, die informativsten Merkmale aus Datensätzen mit vielen Variablen vorzuverarbeiten oder zu extrahieren. Die Vorverarbeitung reduziert die Komplexität und erhält gleichzeitig die relevanten Informationen. Zu den üblichen Szenarien, die PCA verwenden, gehören:
PCA reduziert die Dimensionalität eines Bildes, während die wesentlichen Informationen erhalten bleiben. Sie hilft dabei, kompakte Darstellungen von Bildern zu erstellen, so dass sie leichter gespeichert und übertragen werden können.
PCA hilft bei der Visualisierung hochdimensionaler Daten, indem sie diese in einen niedrigdimensionalen Raum projiziert, z. B. ein 2D- oder 3D-Diagramm. Dies vereinfacht die Dateninterpretation und -exploration.
PCA kann Rauschen oder redundante Informationen aus Daten entfernen, indem sie sich auf die Hauptkomponenten konzentriert, die zugrunde liegenden Muster erfassen.
PCA wird auch im Gesundheitswesen eingesetzt. Beispielsweise hat sie dazu beigetragen, Krankheiten früher und genauer zu diagnostizieren. Der Artikel „Brust Cancer Prediction using Principal Component Analysis with Logistic Regression“ analysiert einen bekannten Brustkrebs-Datensatz2, der von Patientinnen der University of Wisconsin Hospitals in Madison erhoben wurde. Der Autor der Studie, Akbar, verwendet PCA, um die Dimensionen der sechs verschiedenen Datenattribute zu reduzieren:
Ein beaufsichtigter Klassifizierungsalgorithmus, die logistische Regression, wurde dann angewendet, um vorherzusagen, ob Brustkrebs vorhanden ist.
Es gibt viele andere Techniken zur Reduzierung der Dimension, darunter lineare Diskriminanzanalyse, Random Forest, einheitliche Mannigfaltigkeitsapproximation und -projektion (UMAP) und t-distributed stochastic neighbor (t-SNE). Berücksichtigen Sie die folgenden Faktoren, um zu entscheiden, ob PCA der richtige Ansatz für Ihre Analyse ist:
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io