Die Dimensionalitätsreduzierung ist eine Technik aus dem Bereich der Data Science, die in der Vorverarbeitungsphase des maschinellen Lernens verwendet wird.6 Während dieses Prozesses werden irrelevante und redundante Daten entfernt, während die relevanten Informationen des ursprünglichen Datensatzes beibehalten werden.
Merkmale können als die Attribute eines Datenobjekts betrachtet werden. In einem Datensatz mit Tieren würden Sie beispielsweise einige numerische Merkmale (Alter, Größe, Gewicht) und kategorische Merkmale (Farbe, Art, Rasse) erwarten. Die Merkmalsextraktion ist Teil der neuronalen Netzarchitektur des Modells, z. B. eines Convolutional Neural Network (CNN).
Zunächst nimmt das Modell die Eingabe auf. Anschließend wandelt der Merkmalsextraktor die Daten in eine numerische Darstellung um, die zur Berechnung der Methoden zur Dimensionalitätsreduzierung für die Merkmalsextraktion verwendet werden kann. Diese Repräsentationen werden in Merkmalsvektoren gespeichert, damit das Modell Algorithmen zur Datenreduktion ausführen kann.
Nach der Extraktion ist es manchmal erforderlich, die Daten mithilfe der Merkmalsnormierung zu standardisieren, insbesondere bei Verwendung bestimmter Algorithmen, die empfindlich auf die Größe und den Umfang der Variablen reagieren (gradientbasierte Abstiegsalgorithmen, K-Means-Cluster).
Je nach Aufgabenstellung können unterschiedliche Methoden eingesetzt werden, um bestimmte Ergebnisse zu erzielen. Alle Methoden zielen darauf ab, die Daten zu vereinfachen und gleichzeitig die wertvollsten Informationen zu erhalten.
Die meisten modernen KI-Modelle führen eine automatische Merkmalsextraktion durch, aber es ist dennoch nützlich, die verschiedenen Möglichkeiten des Umgangs zu verstehen. Hier sind einige gängige Methoden zur Merkmalsextraktion, die für die Dimension verwendet werden:
Analyse der Hauptkomponenten (PCA): Diese Technik reduziert die Anzahl der Merkmale in großen Datensätzen auf Hauptkomponenten oder neue Merkmale, die vom Klassifikator des Modells für seine spezifischen Aufgaben verwendet werden.
PCA ist so beliebt, weil es Originaldaten erstellen kann, die nicht korreliert sind. Das bedeutet, dass die neuen Dimensionen, die durch die PCA erstellt werden, unabhängig voneinander sind.7 Dies macht die PCA zu einer effizienten Lösung für Overfitting aufgrund der fehlenden Datenredundanz, da jedes Merkmal einzigartig ist.
Lineare Diskriminanzanalyse (LDA): Diese Technik wird häufig im überwachten maschinellen Lernen eingesetzt, um mehrere Klassen und Merkmale zu trennen und so Klassifizierungsprobleme zu lösen.
Diese Technik wird häufig zur Optimierung von Modellen für maschinelles Lernen verwendet. Die neuen Datenpunkte werden mithilfe der Bayes'schen Statistik klassifiziert, um die Datenverteilung für jede Klasse zu modellieren.
Verteilte stochastische Nachbar-Einbettung (t-SNE): Diese Technik des maschinellen Lernens wird häufig auf Aufgaben wie die Visualisierung von Funktionen im Deep Learning angewendet.8 Dies ist besonders nützlich, wenn es darum geht, Visualisierungen von hochdimensionalen Daten in 2D oder 3D zu rendern.
Sie wird häufig zur Analyse von Mustern und Beziehungen in der Data Science verwendet. Aufgrund ihrer nichtlinearen Natur ist t-SNE rechenintensiv und wird üblicherweise nur für Visualisierungsaufgaben verwendet.
Term Frequency-inverse Document Frequency (TF-IDF): Diese statistische Methode bewertet die Bedeutung von Wörtern anhand ihrer Häufigkeit. Die Begriffshäufigkeit in einem bestimmten Dokument wird damit gewichtet, wie häufig dieser in allen Dokumenten innerhalb einer Sammlung oder eines Korpus vorkommt.9
Diese Technik wird im NLP häufig zur Klassifizierung, bei Clustern und Informationsabfragen verwendet. Bag of Words (BoW) ist eine ähnliche Technik, aber anstatt die Relevanz des Begriffs zu berücksichtigen, werden alle Wörter gleich behandelt.