De nombreux jeux de données réelles contiennent un grand nombre de caractéristiques (ou variables) pour chaque point de données : parfois des centaines, des milliers, voire plusieurs millions. On parle de données à haute dimension. On pourrait penser que plus les caractéristiques sont nombreuses, plus les modèles seront précis. Mais en réalité, elles compliquent souvent l’apprentissage. Les données à haute dimension peuvent être coûteuses en termes de calcul, gourmandes en mémoire et sujettes au surapprentissage (le modèle mémorise le bruit au lieu d’apprendre les schémas significatifs).
Un autre enjeu est le problème de la dimensionnalité. À mesure que le nombre de dimensions augmente, les points de données deviennent de plus en plus clairsemés dans l'espace des caractéristiques, et la notion de « proximité » entre les points perd de son sens. Cette rareté rend difficile pour les algorithmes de détecter de manière fiable les relations. Il est donc essentiel de disposer des outils adéquats pour réduire le nombre de caractéristiques et extraire les signaux du bruit. La réduction de la dimensionnalité est le processus qui consiste à transformer des données d'un espace à haute dimension en un espace à plus faible dimension tout en préservant autant que possible la structure d'origine et les informations importantes. En réduisant le nombre de caractéristiques, les praticiens peuvent simplifier les modèles, améliorer la généralisation, accélérer les calculs et souvent créer des visualisations des données utiles.
L’algèbre linéaire est au cœur de nombreuses techniques de réduction de la dimensionnalité. Par exemple, l’analyse en composantes principales utilise des concepts tels que les valeurs propres et les vecteurs propres pour trouver de nouveaux axes (composantes principales) qui captent la variance maximale des données. Il s’agit d’un attribut significatif dans le jeu de données à haute dimension. En projetant les données sur les quelques premières composantes principales, les spécialistes retiennent les schémas les plus importants tout en écartant les variations moins utiles.
Prenons l’exemple d’un jeu de données qui décrit des milliers de clients présentant chacun 100 caractéristiques différentes (âge, revenu, dépenses dans diverses catégories de produits, etc.) Analyser les 100 caractéristiques à la fois serait lent et complexe, et beaucoup d’entre elles peuvent être redondantes (par exemple, l’intérêt pour les « équipements de sport » recoupe souvent celui pour les « équipements d’extérieur »). L’ACP permet de réduire le jeu de données à 2 ou 3 composantes qui synthétisent la plupart des variations de comportement client, ce qui facilite la visualisation et optimise l’exécution des algorithmes en aval.
En bref, la réduction de la dimensionnalité est un moyen de distiller les données complexes pour n’en garder que leurs parties les plus informatives, et l’algèbre linéaire fournit les mécanismes mathématiques qui rendent cela possible.