Mein IBM Anmelden Abonnieren

Startseite

Themen

PCA

Was ist die Hauptkomponentenanalyse (Principal Component Analysis, PCA)?

Was ist die Hauptkomponentenanalyse (Principal Component Analysis, PCA)?

Entdecken Sie die IBM PCA-Lösung Für KI-Updates anmelden
Illustration mit Collage aus Piktogrammen von Wolken, Kreisdiagramm, Diagrammpiktogrammen

Veröffentlicht: 8. Dezember 2023

Die Hauptkomponentenanalyse (PCA) reduziert die Anzahl der Dimensionen in großen Datensätzen auf Hauptkomponenten, die den Großteil der ursprünglichen Informationen beibehalten. Dies geschieht durch die Umwandlung potenziell korrelierter Variablen in eine kleinere Gruppe von Variablen, die sogenannten Hauptkomponenten.

Karl Pearson wird die Entwicklung von PCA im Jahr 1901 zugeschrieben, aber es gewann erst mit der erhöhten Verfügbarkeit von Computern an Popularität, die multivariate statistische Berechnungen im Maßstab ermöglichten. PCA ist sehr effektiv für die Visualisierung und Untersuchung hochdimensionaler Datensätze oder Daten mit vielen Funktionen, da es Trends, Muster oder Ausreißer leicht identifizieren kann.

PCA wird häufig zur Datenvorverarbeitung bei der Verwendung mit Algorithmen des maschinellen Lernens genutzt. Es kann die informativsten Merkmale aus großen Datensätzen extrahieren und gleichzeitig die relevantesten Informationen aus dem ursprünglichen Datensatz beibehalten. Dies reduziert die Komplexität des Modells, da das Hinzufügen jedes neuen Merkmals die Leistung des Modells beeinträchtigt, was allgemein auch als „Fluch der Dimensionalität“ bezeichnet wird. Durch die Projizierung eines hochdimensionalen Datensatzes in einen kleineren Merkmalsraum minimiert PCA auch häufige Probleme wie Multikollinearität und Überanpassung oder eliminiert sie vollständig. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind, was für die kausale Modellierung problematisch sein kann. Überangepasste Modelle generalisieren schlecht auf neue Daten, so dass sie insgesamt an Wert verlieren. PCA ist ein häufig verwendeter Ansatz in der Regressionsanalyse, wird aber auch für eine Vielzahl von Anwendungsfällen eingesetzt, z. B. für die Mustererkennung, Signalverarbeitung, Bildverarbeitung und mehr.

Es gibt zwar noch andere Varianten von PCA, wie z. B. die Hauptkomponentenregression und die Kernel-PCA, aber der Umfang dieses Artikels konzentriert sich auf die primäre Methode in der aktuellen Literatur.

PCA vs. LDA vs. Faktoranalyse

PCA ist eine Technik zur Dimensionsreduktion wie die lineare Diskriminanzanalyse (LDA). Im Gegensatz zu LDA ist PCA nicht auf beaufsichtigte Lernaufgaben beschränkt. Für unbeaufsichtigte Lernaufgaben bedeutet das, dass PCA Dimensionen reduzieren kann, ohne Kategorien oder Klassenbezeichnungen berücksichtigen zu müssen. PCA steht auch in engem Zusammenhang mit der Faktoranalyse. Beide reduzieren die Anzahl der Dimensionen oder Variablen in einem Datensatz und minimieren gleichzeitig den Informationsverlust. PCA unterteilt Variablen in eine Teilmenge linear unabhängiger Hauptkomponenten. Die Faktorenanalyse wird jedoch im Allgemeinen verwendet, um die zugrunde liegenden Datenstrukturen zu verstehen, wobei der Schwerpunkt auf latenten Variablen oder nicht gemessenen Faktoren liegt, die die Streuung einer Variablen erfassen.

PCA vs. K-Means Clustering

PCA und K-Means-Clustering sind beides unbeaufsichtigte Techniken des maschinellen Lernens, die für die Datenanalyse verwendet werden, aber unterschiedliche Ziele und Methoden haben. PCA wird verwendet, um die Dimensionalität der Daten zu reduzieren, während K-Means-Clustering die Datenpunkte auf der Grundlage ihrer Ähnlichkeit zusammenfasst. Die von Ihnen gewählte Technik hängt vom spezifischen Datensatz und den Zielen Ihrer Analyse ab.

PCA erstellt neue Variablen, wie z. B. Hauptkomponenten, die Linearkombinationen der ursprünglichen Variablen sind. PCA nimmt einen Datensatz mit mehreren Variablen als Eingabe und erzeugt einen Datensatz in einem tieferliegenden Teilraum, d. h. einen reduzierten Datensatz mit weniger Variablen. Es wird oft in der explorativen Datenanalyse zur Erstellung von Prognosemodellen verwendet, aber auch bei der Datenvorverarbeitung zur Dimensionsreduzierung.

K-Means ist ein Clusteralgorithmus, der Datenpunkte auf Grundlage ihrer Entfernung von den Clusterzentren Clustern zuweist. Es verwendet einen Datensatz mit einer oder mehreren Variablen als Eingabe und erstellt eine Reihe von Clustern mit ähnlichen Datenpunkten. Es wird häufig verwendet, um Daten für eine Vielzahl von Anwendungsfällen zu clustern, z. B. Bildsegmentierung, Kundensegmentierung und Anomalieerkennung.

Testen Sie unser Schritt-für-Schritt-Tutorial zum K-Means-Clustering
IBM wurde von IDC zum führenden Anbieter ernannt

Lesen Sie, warum IBM in „IDC MarketScape: Worldwide AI Governance Platforms 2023“ als führender Anbieter ausgezeichnet wurde.

Ähnliche Inhalte Registrieren Sie sich für das Whitepaper über KI-Governance
So funktioniert die Hauptkomponentenanalyse

So funktioniert die Hauptkomponentenanalyse

PCA fasst den Informationsinhalt großer Datensätze in einem kleineren Satz unkorrelierter Variablen zusammen, die als Hauptkomponenten bezeichnet werden. Diese Hauptkomponenten sind Linearkombinationen der ursprünglichen Variablen, die im Vergleich zu anderen Linearkombinationen die maximale Varianz aufweisen. Diese Komponenten erfassen so viele Informationen wie möglich aus dem Originaldatensatz.

Diese statistische Technik umfasst sowohl lineare Algebra- als auch Matrixoperationen und transformiert den ursprünglichen Datensatz in ein neues Koordinatensystem, das durch die Hauptkomponenten strukturiert ist. Die Eigenvektoren und Eigenwerte aus der Kovarianzmatrix, die den Hauptkomponenten zugrunde liegen, ermöglichen die Analyse dieser linearen Transformationen.

Stellen Sie sich vor, Sie haben einen Datensatz mit mehreren Merkmalen abgebildet, woraus ein mehrdimensionales Streudiagramm resultiert. Eigenvektoren geben die Richtung der Varianz im Streudiagramm an. Eigenwerte sind die Koeffizienten der Eigenvektoren. Sie geben die Bedeutung dieser Richtungsdaten an. Ein hoher Eigenwert bedeutet daher, dass der entsprechende Eigenvektor entscheidender ist. Da Hauptkomponenten die Richtungen maximaler Varianz in den Daten darstellen, sind sie auch die Eigenvektoren der Kovarianzmatrix.

In PCA werden zwei Hauptkomponenten berechnet: die erste Hauptkomponente (PC1) und die zweite Hauptkomponente (PC2).

Erste Hauptkomponente

Die erste Hauptkomponente (PC1) ist die Raumrichtung, entlang der die Datenpunkte die höchste oder größte Varianz aufweisen. Es ist die Linie, welche die Form der projizierten Punkte am besten darstellt. Je größer die in der ersten Komponente erfasste Variabilität, desto mehr Informationen sind im ursprünglichen Datensatz enthalten. Keine andere Hauptkomponente kann eine höhere Variabilität aufweisen.

Zweite Hauptkomponente

Wir berechnen die zweite Hauptkomponente (PC2) auf die gleiche Weise wie PC1. PC2 macht die nächsthöhere Varianz im Datensatz aus und muss mit PC1 unkorreliert sein. Das heißt, PC2 muss orthogonal, also senkrecht, zu PC1 sein. Diese Beziehung kann auch ausgedrückt werden, indem die Korrelation zwischen PC1 und PC2 gleich Null ist. 

Ein Streudiagramm wird in der Regel verwendet, um die Beziehung zwischen PC1 und PC2 zu zeigen, wenn PCA auf einen Datensatz angewendet wird. Die Achsen PC1 und PC2 stehen dann senkrecht zueinander.

Wenn es nachfolgende Komponenten gibt, würden diese auch die gleichen Eigenschaften behalten, wobei sie nicht mit anderen Komponenten korreliert wären und alle verbleibenden Variationen erklären würden.

Probieren Sie es selbst mit watsonx aus

Erfahren Sie, wie Sie die Dimensionalität eines Datensatzes durch die Anwendung von PCA mit Python reduzieren können.

Berechnung der Hauptkomponenten

Berechnung der Hauptkomponenten

Der PCA-Berechnungsprozess wird in den folgenden Schritten zusammengefasst, um zu zeigen, wie die Hauptkomponenten berechnet werden und wie sie sich auf die Originaldaten beziehen.

Standardisieren Sie den Bereich der kontinuierlichen Ausgangsvariablen

Da die PCA auf bestimmte Merkmale ausgerichtet sein kann, ist es wichtig zu prüfen, ob eine Normalisierung der Daten erforderlich ist. Die Daten sollten eine Normalverteilung mit einem Mittelwert von null und einer Standardabweichung von eins widerspiegeln. 

In diesem Schritt werden die Mittelwerte der Variablen berechnet und vom ursprünglichen Datensatz subtrahiert, so dass jede Variable gleichermaßen zur Analyse beiträgt. Dieser Wert wird dann durch die Standardabweichung für jede Variable dividiert, sodass alle Variablen dieselbe Skala verwenden.

Berechnen Sie die Kovarianzmatrix, um Korrelationen zu identifizieren

Die Kovarianz (Cov) misst, wie stark zwei oder mehr Variablen miteinander korrelieren. Die Kovarianzmatrix fasst die Kovarianzen zusammen, die mit allen Paarkombinationen der Anfangsvariablen im Datensatz verknüpft sind. Die Berechnung der Kovarianzmatrix hilft dabei, die Beziehungen zwischen den Variablen zu identifizieren — das heißt, wie die Variablen in Bezug zueinander vom Mittelwert abweichen. Diese Datenmatrix ist eine symmetrische Matrix, was bedeutet, dass die Variablenkombinationen als d × d dargestellt werden können, wobei d die Anzahl der Dimensionen ist. Zum Beispiel gäbe es für einen dreidimensionalen Datensatz 3 × 3 oder 9 Variablenkombinationen in der Kovarianzmatrix.

Das Vorzeichen der Variablen in der Matrix zeigt uns, ob Kombinationen korreliert sind:

  • Positiv (die Variablen sind korreliert und nehmen gleichzeitig zu oder ab)
  • Negativ (die Variablen sind nicht korreliert, d. h. eine sinkt, während die andere zunimmt)
  • Null (die Variablen stehen in keiner Beziehung zueinander)

Berechnen Sie die Eigenvektoren und Eigenwerte der Kovarianzmatrix

Hier berechnen wir die Eigenvektoren (Hauptkomponenten) und Eigenwerte der Kovarianzmatrix. Als Eigenvektoren stellen die Hauptkomponenten die Richtungen der maximalen Varianz in den Daten dar. Die Eigenwerte stellen den Betrag der Varianz in jeder Komponente dar. Die Rangordnung der Eigenvektoren nach Eigenwert identifiziert die Reihenfolge der Hauptkomponenten.

Wählen Sie die Hauptkomponenten aus

Hier entscheiden wir, welche Komponenten wir behalten und welche wir verwerfen. Komponenten mit niedrigen Eigenwerten sind in der Regel nicht so signifikant. Gerölldiagramme stellen in der Regel den Anteil der erklärten Gesamtvarianz und den kumulativen Anteil der Varianz dar. Diese Metriken helfen dabei, die optimale Anzahl der aufzubewahrenden Komponenten zu bestimmen. Der Punkt, an dem die Y-Achse der erklärten Eigenwerte oder der gesamten Varianz einen „Ellbogen“ erzeugt, gibt im Allgemeinen an, wie viele PCA-Komponenten wir einbeziehen möchten.

Transformieren Sie die Daten in das neue Koordinatensystem

Schließlich werden die Daten in das neue Koordinatensystem transformiert, das durch die Hauptkomponenten definiert wird. Das heißt, der aus den Eigenvektoren der Kovarianzmatrix erzeugte Merkmalsvektor projiziert die Daten auf die neuen Achsen, die durch die Hauptkomponenten definiert sind. Dadurch werden neue Daten erstellt, die die meisten Informationen erfassen, jedoch weniger Dimensionen als der ursprüngliche Datensatz aufweisen.

Interpretation der PCA-Ergebnisse

Interpretation der PCA-Ergebnisse

Ein PCA-Diagramm ist ein Streudiagramm, das unter Verwendung der ersten beiden Hauptkomponenten als Achsen erstellt wird. Die erste Hauptkomponente (PC1) ist die X-Achse und die zweite Hauptkomponente (PC2) ist die Y-Achse. Das Streudiagramm zeigt die Beziehungen zwischen Beobachtungen (Datenpunkte) und den neuen Variablen (den Hauptkomponenten) an. Die Position jedes Punktes zeigt die Werte von PC1 und PC2 für diese Beobachtung.

Die Richtung und Länge der Diagrammpfeile zeigen die Ladungen der Variablen an, d.h. wie jede Variable zu den Hauptkomponenten beiträgt. Wenn eine Variable eine hohe Ladung für eine bestimmte Komponente aufweist, ist sie stark mit dieser Komponente korreliert. Dadurch kann hervorgehoben werden, welche Variablen einen signifikanten Einfluss auf Datenvariationen haben.

Die Anzahl der Hauptkomponenten, die nach der Anwendung von PCA verbleiben, kann Ihnen bei der Interpretation der Datenausgabe helfen. Die erste Hauptkomponente erklärt die größte Datenabweichung, und die späteren Komponenten verursachen eine geringere Abweichung. So kann die Anzahl der Komponenten die Menge an Informationen angeben, die im ursprünglichen Datensatz gespeichert sind. Weniger Komponenten nach der Anwendung von PCA könnten bedeuten, dass Sie nicht viel Datenvariation erfasst haben. Mehr Komponenten deuten auf eine größere Datenvariation hin. Allerdings können die Ergebnisse schwieriger zu interpretieren sein. Sie können die optimale Anzahl von Komponenten bestimmen, die beibehalten werden sollen, indem Sie entweder ein Geröll-Diagramm oder die kumulative erläuterte Varianz verwenden.

Anwendungen der Hauptkomponentenanalyse  

Anwendungen der Hauptkomponentenanalyse  

Die Anwendung von PCA kann dabei helfen, die informativsten Merkmale aus Datensätzen mit vielen Variablen vorzuverarbeiten oder zu extrahieren. Die Vorverarbeitung reduziert die Komplexität und erhält gleichzeitig die relevanten Informationen. Zu den üblichen Szenarien, die PCA verwenden, gehören:

Bildkomprimierung

PCA reduziert die Dimensionalität eines Bildes, während die wesentlichen Informationen erhalten bleiben. Sie hilft dabei, kompakte Darstellungen von Bildern zu erstellen, so dass sie leichter gespeichert und übertragen werden können.

Datenvisualisierung

PCA hilft bei der Visualisierung hochdimensionaler Daten, indem sie diese in einen niedrigdimensionalen Raum projiziert, z. B. ein 2D- oder 3D-Diagramm. Dies vereinfacht die Dateninterpretation und -exploration.

Rauschfilterung

PCA kann Rauschen oder redundante Informationen aus Daten entfernen, indem sie sich auf die Hauptkomponenten konzentriert, die zugrunde liegenden Muster erfassen. 

Vorhersage von Brustkrebs

PCA wird auch im Gesundheitswesen eingesetzt. Beispielsweise hat sie dazu beigetragen, Krankheiten früher und genauer zu diagnostizieren. Der Artikel „Brust Cancer Prediction using Principal Component Analysis with Logistic Regression“ analysiert einen bekannten Brustkrebs-Datensatz(Link befindet sich außerhalb von ibm.com), der von Patientinnen der University of Wisconsin Hospitals in Madison gesammelt wurde. Der Autor der Studie, Akbar, verwendet PCA, um die Dimensionen der sechs verschiedenen Datenattribute zu reduzieren:

  • mean_radius eines Knotens in der Brust
  • mean_texture des Röntgenbildes.
  • mean_perimeter des Knotens
  • mean_area des Knotens
  • mean_smoothness des Bildes
  • Diagnose (ob bei dem Patienten Krebs diagnostiziert wurde oder nicht).

Ein beaufsichtigter Klassifizierungsalgorithmus, die logistische Regression, wurde dann angewendet, um vorherzusagen, ob Brustkrebs vorhanden ist.

Wann ist die Hauptkomponentenanalyse anzuwenden

Wann ist die Hauptkomponentenanalyse anzuwenden

Es gibt viele andere Techniken zur Reduzierung der Dimension, darunter lineare DiskriminanzanalyseRandom Forest, einheitliche Mannigfaltigkeitsapproximation und -projektion (UMAP) und t-distributed stochastic neighbor (t-SNE). Berücksichtigen Sie die folgenden Faktoren, um zu entscheiden, ob PCA der richtige Ansatz für Ihre Analyse ist:

  • Linearität: PCA ist eine lineare Technik, während andere Techniken wie t-SNE und UMAP nicht linear sind. Dies bedeutet, dass PCA besser für Datensätze mit linearen Beziehungen zwischen Variablen geeignet ist. Nichtlineare Techniken eignen sich besser für Datensätze mit nichtlinearen oder komplexeren Beziehungen zwischen Variablen.
  • Berechnung: PCA verwendet Matrixoperationen zur Berechnung, um große Datensätze effizient zu verwalten. Andere Techniken wie t-SNE und UMAP sind teuer und eignen sich möglicherweise nicht für große Datensätze.
  • Informationserhaltung: PCA bewahrt das maximale Maß an Varianz in den Daten. t-SNE und UMAP konzentrieren sich auf die Beibehaltung der lokalen Struktur der Daten. Die PCA ist daher besser zur Identifizierung der wichtigsten Datenvariablen geeignet. Nichtlineare Techniken eignen sich besser für die Visualisierung der Daten in niedrigeren Dimensionen. 
  • Merkmalsextraktion: PCA ist eine Technik zur Merkmalsextraktion. Sie erzeugt neue Variablen, die lineare Kombinationen der ursprünglichen Variablen sind. Andere Techniken (z. B. UMAP und t-SNE) erstellen keine neuen Variablen. Dies bedeutet, dass PCA die wichtigsten Variablen in den Daten identifizieren kann. Nicht-lineare Techniken eignen sich besser für die Visualisierung von Daten in niedrigeren Dimensionen.
Weiterführende Produkte

Weiterführende Produkte

KI-Beratungsleistungen

Stellen Sie sich die Art und Weise, wie Sie mit KI arbeiten, neu vor: Unser vielfältiges, globales Team von mehr als 20.000 KI-Experten kann Ihnen dabei helfen, KI und Automatisierung in Ihrem Unternehmen schnell und sicher zu entwerfen und zu skalieren, indem es mit unserer eigenen IBM watsonx-Technologie und einem offenen Ökosystem von Partnern arbeitet, um jedes KI-Modell in jeder Cloud bereitzustellen, geleitet von Ethik und Vertrauen.

Entdecken Sie unsere IBM KI-Beratungsleistungen
KI-Lösungen

Operationalisierung von KI in Ihrem gesamten Unternehmen, um schnell und auf ethische Weise Vorteile zu erzielen.  Unser umfangreiches Portfolio an unternehmenstauglichen KI-Produkten und Analyselösungen wurde entwickelt, um die Hürden für die Einführung von KI zu verringern, die richtige Datenbasis zu schaffen und gleichzeitig die Ergebnisse und den verantwortungsvollen Einsatz zu optimieren.

Entdecken Sie IBM KI-Lösungen

IBM watsonx

Multiplizieren Sie mit unserer KI- und Datenplattform der nächsten Generation die Leistungsfähigkeit von KI. IBM watsonx ist ein auf Unternehmen abgestimmtes Portfolio von Tools, Anwendungen und Lösungen, die darauf ausgelegt sind, die Kosten und Hürden für die Einführung von KI zu senken und gleichzeitig die Ergebnisse und den verantwortungsvollen Einsatz von KI zu optimieren.

watsonx erkunden

Zugehörige Ressourcen

Zugehörige Ressourcen

Beteiligen Sie sich an der Diskussion

Erfahren Sie von unserer Data-Science-Community mehr über die Beziehung zwischen Komponentenmatrix und Komponentendiagramm in der PCA-Ausgabe.

Optimale PCA in verteilten und Streaming-Modellen

In diesem Artikel wird das Problem der Hauptkomponentenanalyse (Principal Component Analysis, PCA) in verteilten und Streaming-Berechnungsmodellen untersucht.

Datenvorverarbeitung im Detail

Erfahren Sie, wie Sie Ihre Modelle und Prognosen mit verschiedenen Ansätzen zur Datenvorverarbeitung verbessern können.

Reduzierung der Dimensionalität durch Hauptkomponentenanalyse (Principal Component Analysis, PCA) mit Python

Reduzieren Sie die Dimensionalität eines Datensatzes, indem Sie PCA mit Python anwenden.

Verringerung der Dimensionalität durch Hauptkomponentenanalyse mit R

Optimieren Sie die Klassifizierung eines Datensatzes durch die Anwendung von PCA mit R.

Machen Sie den nächsten Schritt

Entwickeln Sie eine KI-Strategie für Ihr Unternehmen auf einer kollaborativen KI- und Datenplattform – IBM watsonx. Trainieren, validieren, optimieren und implementieren Sie KI-Modelle, um den Nutzen von KI mit vertrauenswürdigen Daten in Ihrem gesamten Unternehmen zu skalieren und zu beschleunigen.

watsonx erkunden Buchen Sie eine Live-Demo