Qu’est-ce que la réduction de dimensionnalité ?

5 janvier 2024

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Qu’est-ce que la réduction de dimensionnalité ?

Les techniques de réduction de dimensionnalité comme l’ACP, la LDA et l’algorithme t-SNE permettent d’améliorer les modèles de machine learning. On conserve les caractéristiques essentielles des jeux de données complexes en réduisant le nombre de variables de prédicteur pour améliorer la généralisabilité.

La réduction de dimensionnalité est une méthode permettant de représenter un jeu de données spécifique avec un plus petit nombre de caractéristiques (c.-à-d. dimensions) en capturant tout de même les propriétés significatives des données d’origine.1 En d’autres termes, cela supprime les caractéristiques non pertinentes ou redondantes, ou simplement les données bruitées, pour créer un modèle comptant moins de variables. La réduction de dimensionnalité couvre un large éventail de méthodes de sélection de caractéristiques et de compression des données utilisées lors du prétraitement. Bien que les méthodes de réduction de dimensionnalité diffèrent dans leur fonctionnement, toutes transforment les espaces à haute dimension en espaces à faible dimension par extraction ou combinaison de variables.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi appliquer la réduction de dimensionnalité ?

Dans le contexte du machine learning, les dimensions (ou caractéristiques) sont les prédicteurs qui déterminent les résultats (ou sorties) d’un modèle. On les appelle également variables d’entrée. Les données à haute dimension désignent tout jeu de données comportant un grand nombre de prédicteurs. De tels jeux de données peuvent fréquemment intervenir dans la biostatistique, ainsi que dans les études observationnelles dans le domaine des sciences sociales, où le nombre de points de données (c.-à-d. observations) l’emporte sur le nombre de prédicteurs.

Les jeux de données à haute dimension posent un certain nombre de problèmes pratiques pour les algorithmes de machine learning, comme l’augmentation du temps de calcul, de l’espace de stockage pour le big data, etc. Mais la principale préoccupation concerne peut-être la diminution de la précision des modèles prédictifs. Les modèles statistiques et les modèles de machine learning entraînés sur des jeux de données à haute dimension se prêtent souvent mal aux généralisations.

Le fléau de la dimension

Le fléau de la dimension fait référence à la relation inverse entre l’augmentation des dimensions du modèle et la diminution de la généralisabilité. Plus le nombre de variables d’entrée du modèle augmente, plus l’espace du modèle augmente. Toutefois, si le nombre de points de données reste le même, les données deviennent clairsemées. En d’autres termes, la plus grande partie de l’espace des caractéristiques du modèle est vide, c’est-à-dire sans points de données observables. À mesure que la parcimonie des données augmente, les points de données deviennent tellement dissemblables que les modèles prédictifs deviennent moins efficaces dans l’identification des schémas explicatifs.2

Afin d’expliquer correctement les schémas dans les données clairsemées, les modèles peuvent se surajuster aux données d’apprentissage. De ce fait, l’augmentation de la dimensionnalité peut entraîner une mauvaise généralisabilité. Une haute dimensionnalité peut entraver davantage l’interprétabilité des modèles en induisant une multicolinéarité. Plus la quantité de variables d’un modèle augmente, plus la possibilité que certaines d’entre elles soient redondantes ou corrélées augmente.

La collecte de davantage de données peut réduire leur parcimonie et ainsi combattre le fléau de la dimension. Cependant, la hausse du nombre de dimensions dans le modèle fait augmenter de manière exponentielle le nombre de points de données nécessaires pour combattre ce fléau.3 Bien entendu, la collecte d’une quantité de données suffisante n’est pas toujours possible. D’où la nécessité de réduire la dimensionnalité pour améliorer l’analyse des données.

Méthodes de réduction de dimensionnalité

Les techniques de réduction de dimensionnalité réduisent généralement les modèles à un espace de dimension inférieure en extrayant ou en combinant les caractéristiques du modèle. Au-delà de cette similarité de base, cependant, les algorithmes de réduction de dimensionnalité varient.

Analyse en composantes principales

L’analyse en composantes principales (ACP) est peut-être la méthode de réduction de dimensionnalité la plus courante. Il s’agit d’une méthode d’extraction de caractéristiques, c’est-à-dire qu’elle combine et transforme les caractéristiques d’origine du jeu de données pour produire de nouvelles caractéristiques, appelées composantes principales. En fait, l’ACP sélectionne un sous-ensemble de variables du modèle qui, ensemble, comprennent la plus grande partie ou la totalité de la variance présente dans l’ensemble initial de variables. L’ACP projette ensuite les données sur un nouvel espace défini par ce sous-ensemble de variables.4

Par exemple, imaginons que nous ayons un jeu de données sur les serpents comptant cinq variables : longueur du corps (X1), diamètre du corps au point le plus large (X2), longueur des crochets (X3), poids (X4) et âge (X5). Bien sûr, certaines de ces cinq caractéristiques peuvent être corrélées, comme la longueur du corps, le diamètre et le poids. Cette redondance dans les caractéristiques peut conduire à des données clairsemées et à un surajustement, réduisant la variance (ou la généralisabilité) du modèle qui serait généré à partir de telles données. L’APC calcule une nouvelle variable (PC1) à partir de ces données : elle regroupe deux variables ou plus et maximise la variance des données. En combinant des variables potentiellement redondantes, l’APC crée également un modèle présentant moins de variables que le modèle initial. Donc, puisque notre jeu de données comportait au départ cinq variables (c.-à-d. cinq dimensions), le modèle réduit peut en compter d’une à quatre (c.-à-d. une à quatre dimensions). Les données sont ensuite mappées sur ce nouveau modèle.5

Cette nouvelle variable n’est pas l’une des cinq variables initiales, mais une caractéristique combinée calculée par transformation linéaire de la matrice de covariance des données d’origine. Plus précisément, notre composante principale combinée est le vecteur de valeurs propres correspondant à la plus grande valeur propre de la matrice de covariance. Nous pouvons également créer des composantes principales supplémentaires combinant d’autres variables. La deuxième composante principale est le vecteur propre de la deuxième valeur propre la plus grande, et ainsi de suite.6

Analyse discriminante linéaire

À l’instar de l’APC, l’analyse discriminante linéaire (LDA) projette les données sur un nouvel espace de moindre dimension, ses dimensions étant dérivées du modèle initial. Contrairement à l’ACP, la LDA conserve les étiquettes de classification dans le jeu de données. Alors que l’ACP produit de nouvelles variables de composantes visant à maximiser la variance des données, la LDA produit des variables principalement destinées à maximiser la différence de classe dans les données.7

Les étapes de mise en œuvre de la LDA sont similaires à celles de l’ACP. La principale distinction entre elles, c’est que la première utilise la matrice de dispersion tandis que la seconde utilise la matrice de covariance. Sinon, tout comme dans l’ACP, la LDA calcule des combinaisons linéaires des caractéristiques d’origine des données qui correspondent aux plus grandes valeurs propres de la matrice de dispersion. L’un des objectifs de la LDA est de maximiser les différences entre les classes tout en minimisant les différences au sein de ces dernières.8

T-distributed stochastic neighbor embedding (t-SNE)

La LDA et l’APC sont des types d'algorithmes de réduction de dimensionnalité linéaire. L’algorithme t-SNE (T-distributed stochastic neighbor embedding), quant à lui, permet une réduction de dimensionnalité non linéaire (ou manifold learning). En cherchant à préserver en priorité la variance du modèle, la LDA et l’APC se concentrent sur le maintien de la distance entre des points de données non similaires dans leurs représentations de moindre dimension. Au contraire, l’algorithme t-SNE cherche à préserver la structure des données locales tout en réduisant les dimensions du modèle. La méthode t-SNE diffère également de la LDA et de l’APC dans la mesure où ces dernières peuvent produire des modèles comportant plus de trois dimensions, à condition que leur modèle généré comporte moins de dimensions que les données d’origine. L’algorithme t-SNE visualise quant à lui tous les jeux de données en trois ou deux dimensions.

Intervenant dans une méthode de transformation non linéaire, l’algorithme t-SNE n’utilise pas de matrices de données. À la place, il utilise un noyau gaussien pour calculer la similarité des points de données par paires. Les points proches les uns des autres dans le jeu de données d’origine ont une probabilité plus élevée d’être proches les uns des autres que ceux qui sont plus éloignés. L’algorithme t-SNE mappe ensuite tous les points de données sur un espace à trois ou deux dimensions tout en tentant de préserver les paires de données.9

Il existe d’autres méthodes de réduction de la dimensionnalité telles que l’ACP à noyau, l’analyse factorielle, les forêts aléatoires et la décomposition en valeurs singulières (SVD). L’ACP, la LDA et l’algorithme t-SNE comptent parmi les méthodes les plus utilisées et les plus discutées. Notez que plusieurs paquets et bibliothèques, comme scikit-learn, proposent des fonctions préchargées pour mettre en œuvre ces techniques.

Quelques cas d’utilisation

La réduction de dimensionnalité est souvent employée à des fins de visualisation des données.

Biostatistique

La réduction de dimensionnalité intervient souvent dans le cadre de recherches biologiques où la quantité de variables génétiques dépasse le nombre d’observations. À ce titre, de nombreuses études comparent différentes techniques de réduction de dimensionnalité, identifiant l’algorithme t-SNE et l’APC à noyaux parmi les méthodes les plus efficaces pour différents jeux de données génomiques.10 D’autres études proposent des critères plus spécifiques pour sélectionner les méthodes de réduction de dimensionnalité dans les recherches en biologie computationnelle.11 Une étude récente propose une version modifiée de l’APC pour les analyses génétiques liées aux origines ethniques, avec des recommandations pour l’obtention de projections non biaisées.12

Traitement du langage naturel

L’analyse sémantique latente (LSA) est une forme de décomposition en valeurs singulières (SVD) appliquée au traitement automatique du langage naturel dans les documents texte. La LSA se base essentiellement sur le principe suivant : la similarité entre les mots se manifeste à hauteur de leurs cooccurrences dans des sous-espaces ou de petits échantillons de la langue.13 La LSA est utilisée pour comparer le langage du soutien émotionnel utilisé par les professionnels de la santé pour plaider en faveur de pratiques rhétoriques optimales en fin de vie.14 D’autres recherches utilisent la LSA comme indicateur d’évaluation pour confirmer les informations et l’efficacité fournies par d’autres techniques de machine learning.15

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 Lih-Yuan Deng, Max Garzon et Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.

2 Ian Goodfellow Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016.

3 Richard Bellman, Adaptive Control Processes : A Guided Tour, Princeton University Press, 1961.

4 I.T. Jollife, Principal Component Analysis, Springer, 2002.

5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilly, 2017.

6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, « Principal Component Analysis », Encyclopedia of Database Systems, Springer, 2018.

7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.

8 Chris Ding, « Dimension Reduction Techniques for Clustering », Encyclopedia of Database Systems, Springer, 2018.

9 Laurens van der Maaten and Geoffrey Hinton, « Visualizing Data Using t-SNE », Journal of Machine Learning Research, vol. 9, n° 86, 2008, pages 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .

10 Shunbao Li, Po Yang et Vitaveska Lanfranchi, « Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data », 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pages 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu et Xiaowen Chen, « A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data », Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.

11 Shiquan Sun, Jiaqiang Zhu, Ying Ma et Xiang Zhou, « Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis », Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen et Susan Holmes, « Ten quick tips for effective dimensionality reduction », PLoS Computational Biology, vol. 15, n° 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.

12 Daiwei Zhang, Rounak Dey et Seunggeun Lee, « Fast and robust ancestry prediction using principal component analysis », Bioinformatics, vol. 36, n° 11, 2020, pages 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.

13 Nitin Indurkhya et Fred Damerau, Handbook of Natural Language Processing, 2e édition, CRC Press, 2010.

14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington et Maija Reblin, « Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis », Cancer Nursing, vol. 43, n° 6, 2020, pages 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.

15 Daniel Onah, Elaine Pang et Mahmoud El-Haj, « Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling », 2022 IEEE International Conference on Big Data, 2022, pages 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.