Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.
La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.
L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.