Das gesamte Konzept baut auf dem Begriff der Daten-Dimensionalität auf. Unter Dimensionalität versteht man die Anzahl der Attribute (oder Funktionen), die einem einzelnen Datensatz zugewiesen werden. Allerdings gibt es hier einen Haken: Je höher die Dimensionalität, desto mehr Datenspeicher benötigt der jeweilige Datensatz. Außerdem kommt es mit zunehmender Dimensionalität häufiger vor, dass die Daten eher spärlich sind, was die notwendige Sonderfallanalyse erschwert.
Die Reduzierung der Dimension wirkt dem entgegen, indem sie das „Rauschen“ in den Daten begrenzt und eine bessere Visualisierung der Daten ermöglicht. Ein gutes Beispiel für die Reduzierung der Dimension ist die Wavelet-Transformationsmethode, die die Bildkomprimierung unterstützt, indem sie den relativen Abstand zwischen Objekten auf verschiedenen Auflösungsstufen beibehält.
Die Funktionsextraktion ist eine weitere mögliche Transformation für Daten. Hierbei werden die Originaldaten in numerische Funktionen umgewandelt. Dies wird in Verbindung mit maschinellem Lernen genutzt. Diese Vorgehensweise unterscheidet sich von der Hauptkomponentenanalyse (Principal Component Analysis, PCA), einer anderen Methode zur Reduzierung der Dimensionalität großer Datensätze, bei der ein großer Satz von Variablen in einen kleineren Satz umgewandelt wird, während die meisten Daten des großen Satzes erhalten bleiben.