La notion de dimensionnalité des données sous-tend l’ensemble de ce concept. La dimensionnalité fait référence au nombre d’attributs (ou caractéristiques) attribués à un seul jeu de données. Cependant, un compromis s’opère ici : plus la dimensionnalité est grande, plus le stockage de données exigé par ce jeu de données est important. En outre, plus la dimensionnalité est élevée, plus les données ont tendance à être rares, ce qui complique l’analyse des données aberrantes.
La réduction de la dimensionnalité permet de contrer cela en limitant le « bruit » dans les données et en permettant une meilleure visualisation des données. Un excellent exemple de réduction de la dimensionnalité est la méthode de la transformée en ondelettes, qui aide à la compression d’images en maintenant la distance relative qui existe entre les objets à différents niveaux de résolution.
L’extraction de caractéristiques est une autre transformation possible pour les données : elle convertit les données d’origine en caractéristiques numériques et fonctionne en conjonction avec le machine learning. Elle diffère de l’analyse en composantes principales (ACP), un autre moyen de réduire la dimensionnalité des grands jeux de données, dans lequel un ensemble important de variables est transformé en un ensemble plus petit tout en conservant la plupart des données du grand ensemble.