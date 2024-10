L’analyse en composantes principales (ACP) est peut-être la méthode de réduction de dimensionnalité la plus courante. Il s’agit d’une méthode d’extraction de caractéristiques, c’est-à-dire qu’elle combine et transforme les caractéristiques d’origine du jeu de données pour produire de nouvelles caractéristiques, appelées composantes principales. En fait, l’ACP sélectionne un sous-ensemble de variables du modèle qui, ensemble, comprennent la plus grande partie ou la totalité de la variance présente dans l’ensemble initial de variables. L’ACP projette ensuite les données sur un nouvel espace défini par ce sous-ensemble de variables.4

Par exemple, imaginons que nous ayons un jeu de données sur les serpents comptant cinq variables : longueur du corps (X 1 ), diamètre du corps au point le plus large (X 2 ), longueur des crochets (X 3 ), poids (X 4 ) et âge (X 5 ). Bien sûr, certaines de ces cinq caractéristiques peuvent être corrélées, comme la longueur du corps, le diamètre et le poids. Cette redondance dans les caractéristiques peut conduire à des données clairsemées et à un surajustement, réduisant la variance (ou la généralisabilité) du modèle qui serait généré à partir de telles données. L’APC calcule une nouvelle variable (PC 1 ) à partir de ces données : elle regroupe deux variables ou plus et maximise la variance des données. En combinant des variables potentiellement redondantes, l’APC crée également un modèle présentant moins de variables que le modèle initial. Donc, puisque notre jeu de données comportait au départ cinq variables (c.-à-d. cinq dimensions), le modèle réduit peut en compter d’une à quatre (c.-à-d. une à quatre dimensions). Les données sont ensuite mappées sur ce nouveau modèle.5

Cette nouvelle variable n’est pas l’une des cinq variables initiales, mais une caractéristique combinée calculée par transformation linéaire de la matrice de covariance des données d’origine. Plus précisément, notre composant principal combiné est le vecteur de valeurs propres correspondant à la plus grande valeur propre de la matrice de covariance. Nous pouvons également créer des composantes principales supplémentaires combinant d’autres variables. La deuxième composante principale est le vecteur propre de la deuxième valeur propre la plus grande, et ainsi de suite.6