Qu’est-ce que l’analyse en composantes principales (ACP) ?

8 décembre 2023

Qu’est-ce que l’analyse en composantes principales (ACP) ?

L’analyse en composantes principales (ACP) réduit le nombre de dimensions dans les grands jeux de données à des composantes principales qui conservent la plupart des informations d’origine. Pour ce faire, elle transforme les variables potentiellement corrélées en un ensemble plus restreint de variables, appelées composantes principales.

C’est à Karl Pearson que l’on doit le développement de l’ACP en 1901, mais elle a gagné en popularité avec la disponibilité accrue des ordinateurs, qui ont permis des calculs statistiques multivariés1 à grande l’échelle. L’ACP est très efficace pour visualiser et explorer les jeux de données de haute dimensionnalité, ou les données présentant de nombreuses caractéristiques, car elle peut facilement identifier les tendances, les modèles ou les données aberrantes.

L’ACP est couramment utilisée pour le prétraitement des données destinées à être utilisées avec des algorithmes de machine learning. Elle permet d’extraire les caractéristiques les plus informatives de vastes ensembles de données tout en préservant les informations les plus pertinentes du jeu de données initial. Cela réduit la complexité du modèle, car l’ajout de chaque nouvelle fonctionnalité a un impact négatif sur les performances du modèle, ce qui est également communément appelé la « malédiction de la dimensionnalité ». 

Par ailleurs, en projetant un jeu de données de haute dimensionnalité dans un espace de caractéristiques plus petit, l’ACP minimise ou élimine complètement les problèmes courants tels que la multicolinéarité et le surajustement. Le phénomène de multicolinéarité se produit lorsque deux variables indépendantes ou plus sont fortement corrélées entre elles, ce qui peut poser problème pour la modélisation causale. Les modèles surajustés se prêteront mal aux généralisations avec l’entrée de nouvelles données, ce qui diminuera leur valeur. L’ACP est une approche couramment utilisée dans l’analyse de régression, mais elle est également exploitée dans divers cas d’utilisation, tels que la reconnaissance de formes, le traitement du signal, le traitement d’images, etc.

Bien qu’il existe d’autres variantes de l’ACP, telles que la régression en composantes principales et l’ACP à noyau, cet article se concentrera sur la principale méthode utilisée dans la littérature actuelle.

ACP vs ADL vs analyse factorielle

L’ACP est une technique de réduction des dimensions comme l’analyse discriminante linéaire (ADL). Contrairement à l’ADL, l’ACP n’est pas limitée aux tâches d’apprentissage supervisé. Pour les tâches d’apprentissage non supervisé, cela signifie que l’ACP peut réduire les dimensions sans avoir à tenir compte des étiquettes de classe ou de la catégorie. L’ACP est également étroitement liée à l’analyse factorielle. Elles permettent toutes deux de réduire le nombre de dimensions ou de variables dans un jeu de données tout en minimisant la perte d’informations. L’ACP décompose les variables en un sous-ensemble de composantes principales linéairement indépendantes. L’analyse factorielle, quant à elle, est généralement utilisée pour comprendre les structures de données sous-jacentes, en se concentrant sur les variables latentes, ou facteurs non mesurés, qui capturent la propagation d’une variable.

ACP vs clustering k-means

L’ACP et le clustering k-means sont deux techniques de machine learning non supervisées utilisées pour l’analyse des données, mais leurs objectifs et méthodes diffèrent. L’ACP est utilisée pour réduire la dimensionnalité des données, tandis que le clustering k-means regroupe les points de données sur la base de leur similarité. La technique que vous choisissez dépend du jeu de données et des objectifs de votre analyse.

L’ACP crée de nouvelles variables, telles que des composantes principales, qui sont des combinaisons linéaires des variables d’origine. L’ACP prend un jeu de données avec plusieurs variables en entrée, et elle produit un jeu de données dans un sous-espace inférieur, c’est-à-dire un jeu de données réduit avec moins de variables. Elle est souvent utilisée dans l’analyse exploratoire des données pour la création de modèles prédictifs, mais elle est également utilisée dans le prétraitement des données pour la réduire la dimensionnalité.

K-means est un algorithme de clustering qui affecte les points de données à des clusters, c.-à-d. des groupes, en fonction de leur distance par rapport aux centres des clusters. Il prend en entrée un jeu de données comportant une ou plusieurs variables et produit un ensemble de grappes contenant des points de données similaires. Il est souvent utilisé pour regrouper des données dans divers cas d’utilisation, tels que la segmentation d’images, la segmentation de clients et la détection d’anomalies.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Comment fonctionne l’analyse en composantes principales

L’ACP résume le contenu informatif de vastes ensembles de données en un ensemble plus restreint de variables non corrélées, appelées composantes principales. Ces composantes principales sont des combinaisons linéaires des variables d’origine qui présentent la variance maximale par rapport aux autres combinaisons linéaires. Ces composantes capturent autant d’informations que possible à partir de du jeu de données d’origine.

Cette technique statistique fait appel à l’algèbre linéaire et aux opérations matricielles. Elle transforme le jeu de données d’origine en un nouveau système de coordonnées structuré par les composantes principales. Les vecteurs propres et les valeurs propres de la matrice de covariance qui sous-tendent les composantes principales permettent d’analyser ces transformations linéaires.

Imaginez que vous ayez cartographié un jeu de données aux fonctionnalités multiples, cela donne un nuage de points multidimensionnel. Les vecteurs propres fournissent la direction de la variance dans le nuage de points. Les valeurs propres sont les coefficients des vecteurs propres ; ceux-ci soulignent l’importance de ces données directionnelles. Par conséquent, une valeur propre élevée signifie que le vecteur propre correspondant est plus critique. Étant donné que les composantes principales représentent les directions de variance maximale dans les données, elles sont également les vecteurs propres de la matrice de covariance.

Deux composantes principales sont calculées dans l’ACP : la première composante principale (PC1) et la deuxième composante principale (PC2).

Première composante principale

La première composante principale (PC1) est la direction dans l’espace le long de laquelle les points de données présentent la variance la plus élevée ou la plus importante. C’est la ligne qui représente le mieux la forme des points projetés. Plus la variabilité capturée dans la première composante est importante, plus les informations conservées du jeu de données d’origine sont importantes. Aucune autre composante principale ne peut avoir une variabilité plus élevée.

Deuxième composante principale

Nous calculons la deuxième composante principale (PC2) de la même manière que la PC1. La PC2 représente la variance la plus élevée dans le jeu de données et ne doit pas être corrélée avec la PC1. C’est-à-dire que la PC2 doit être orthogonale, c’est-à-dire perpendiculaire, à la PC1. Cette relation peut également être exprimée en disant que la corrélation entre la PC1 et la PC2 égale à zéro.

Un nuage de points est généralement utilisé pour montrer la relation entre la PC1 et la PC2 lorsque l’ACP est appliquée à un jeu de données. Les axes PC1 et PC2 seront perpendiculaires l’un à l’autre.

S’il existe des composantes ultérieures, elles conserveront les mêmes propriétés, c’est-à-dire qu’elles ne seront pas corrélées avec d’autres composantes et qu’elles expliqueront toute variation restante.

Calcul des composantes principales

Le processus de calcul de l’ACP est résumé dans les étapes ci-dessous, qui montrent comment les composantes principales sont calculées et comment elles sont liées aux données d’origine.

Normaliser la plage de variables initiales continues

Étant donné que l’ACP peut être biaisée et privilégier certaines caractéristiques, il est important de déterminer si une normalisation des données est nécessaire. Les données doivent refléter une distribution normale avec une moyenne de zéro et un écart-type de un.

Au cours de cette étape, les valeurs moyennes des variables sont calculées et soustraites du jeu de données d’origine afin que chaque variable contribue de manière égale à l’analyse. Cette valeur est ensuite divisée par l’écart type de chaque variable afin que toutes les variables utilisent la même échelle.

Calculer la matrice de covariance pour identifier les corrélations

La covariance (cov) mesure le degré de corrélation entre deux variables ou plus. La matrice de covariance résume les covariances associées à toutes les combinaisons de paires des variables initiales du jeu de données. Le calcul de la matrice de covariance permet d’identifier les relations entre les variables, c’est-à-dire la façon dont les variables varient par rapport à la moyenne les unes par rapport aux autres. Cette matrice de données est une matrice symétrique, ce qui signifie que les combinaisons de variables peuvent être représentées par d × d, où d est le nombre de dimensions. Par exemple, pour un jeu de données à 3 dimensions, il y aurait 3 × 3 soit 9 combinaisons de variables dans la matrice de covariance.

Le signe des variables dans la matrice nous indique si les combinaisons sont corrélées :

  • Positif (les variables sont corrélées et augmentent ou diminuent en même temps)

  • Négatif (les variables ne sont pas corrélées, ce qui signifie que l’une diminue tandis que l’autre augmente)

  • Zéro (les variables ne sont pas liées les unes aux autres)

Calculer les vecteurs propres et les valeurs propres de la matrice de covariance

Ici, nous calculons les vecteurs propres (composantes principales) et les valeurs propres de la matrice de covariance. En tant que vecteurs de valeurs propres, les composantes principales représentent les directions de la variance maximale dans les données. Les valeurs propres représentent la variance dans chaque composante. Le classement des vecteurs propres par valeur propre permet d’identifier l’ordre des composantes principales.

Sélectionner les composantes principales

Ici, nous décidons quelles sont les composantes à conserver et celles à écarter. Les composantes dont les valeurs propres sont faibles ne sont généralement pas aussi significatives. Les nuages de points, ou graphiques scree plots, représentent généralement la proportion de la variance totale expliquée et la proportion cumulative de la variance. Ces paramètres permettent de déterminer le nombre optimal de composantes à conserver. Le point au niveau duquel l’axe Y des valeurs propres ou de la variance totale expliquée crée un « creux » indique généralement le nombre de composantes ACP que nous voulons inclure.

Transformer les données dans le nouveau système de coordonnées

Enfin, les données sont transformées dans le nouveau système de coordonnées défini par les composantes principales. En d’autres termes, le vecteur caractéristique créé à partir des vecteurs propres de la matrice de covariance projette les données sur les nouveaux axes définis par les composantes principales. Cela crée de nouvelles données, capturant la plupart des informations mais avec moins de dimensions que le jeu de données d’origine.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Interprétation des résultats de l’ACP

Un graphique ACP est un nuage de points créé en utilisant les deux premières composantes principales comme axes. La première composante principale (PC1) est l’axe des x et la deuxième composante principale (PC2) est l’axe des y. Le nuage de points montre les relations entre les observations (points de données) et les nouvelles variables (les composantes principales). La position de chaque point montre les valeurs de PC1 et PC2 pour cette observation.

La direction et la longueur des flèches indiquent le chargement des variables, c’est-à-dire la manière dont chaque variable contribue aux principales composantes. Si une variable comporte une charge élevée pour une composante particulière, elle est fortement corrélée à ce composant. Cela peut mettre en évidence les variables qui ont un impact significatif sur les variations des données.

Le nombre de composantes principales qui subsistent après l’application de l’ACP peut vous aider à interpréter les données en sortie. La première composante principale explique la plus grande variance de données, et chaque composante ultérieure représente une variance moindre. Ainsi, le nombre de composantes peut indiquer la quantité d’informations conservées dans le jeu de données d’origine. Un nombre réduit de composantes après l’application de l’ACP peut signifier que vous n’avez pas capturé beaucoup de variations de données. Un plus grand nombre de composantes indique une plus grande variation de données, mais les résultats peuvent être plus difficiles à interpréter. Vous pouvez décider du nombre optimal de composantes à retenir à l’aide d’un nuage de points ou de la variance expliquée cumulée.

Applications de l’analyse en composantes principales

L’application de l’ACP peut aider à prétraiter ou à extraire les caractéristiques les plus informatives d’un jeu de données comportant de nombreuses variables. Le prétraitement réduit la complexité tout en préservant les informations pertinentes. L’ACP est couramment utilisée dans les scénarios suivants :

Compression des images

L’ACP réduit la dimensionnalité de l’image tout en conservant les informations essentielles. Elle permet de créer des représentations compactes des images, ce qui facilite leur stockage et leur transmission.

Visualisation des données

L’ACP permet de visualiser les données de grande dimension en les projetant dans un espace de dimension inférieure, tel qu’une représentation 2D ou 3D. Cela simplifie l’interprétation et l’exploration des données.

Filtrage du bruit

L’ACP peut supprimer le bruit ou les informations redondantes des données en se concentrant sur les composantes principales qui capturent les modèles sous-jacents.

Prédire le cancer du sein

L’ACP a également été appliquée dans le domaine de la santé. Par exemple, elle a permis de diagnostiquer des maladies plus tôt et avec plus de précision. L’article « Breast Cancer Prediction using Principal Component Analysis with Logistic Regression » (Prédiction du cancer du sein à l’aide de l’analyse en composantes principales et de la régression logistique) analyse un jeu de données bien connu sur le cancer du seincollecté auprès de patients des hôpitaux de l’Université du Wisconsin, à Madison. L’auteur de l’étude, M. Akbar, utilise l’ACP pour réduire les dimensions des six attributs de données différents :

  • rayon moyen d’une masse mammaire

  • texture moyenne de l’image radiographique

  • périmètre moyen de la masse

  • surface moyenne de la masse

  • lissage moyen de l’image

  • diagnostic (que le patient ait été diagnostiqué avec un cancer ou non)

Un algorithme de classification par apprentissage supervisé, la régression logistique, a ensuite été appliqué pour prédire la présence ou non d’un cancer du sein.

Quand utiliser l’analyse en composantes principales

Il existe de nombreuses autres techniques de réduction de la dimensionnalité, notamment l’analyse discriminante linéaire, la forêt d’arbres décisionnels, l’approximation et projection uniforme de variétés (UMAP) et la méthode stochastique distribuée en t (t-SNE). Tenez compte des facteurs suivants pour décider si l’ACP est la bonne approche pour votre analyse :

  • Linéarité : l’ACP est une technique linéaire, tandis que d’autres techniques telles que t-SNE et UMAP ne sont pas linéaires. Cela signifie que l’ACP est mieux adaptée aux jeux de données présentant des relations linéaires entre les variables. Les techniques non linéaires conviennent mieux aux jeux de données présentant des relations non linéaires ou plus complexes entre les variables.

  • Calcul : l’ACP utilise des opérations matricielles pour le calcul afin de gérer efficacement de grands jeux de données. D’autres techniques, telles que t-SNE et UMAP, sont coûteuses et peuvent ne pas convenir à de grands jeux de données.

  • Préservation des informations : l’ACP préserve le maximum de variance dans les données. Les techniques t-SNE et UMAP se concentrent sur la préservation de la structure locale des données. L’ACP est donc plus adaptée pour identifier les variables de données les plus importantes. Les techniques non linéaires sont mieux adaptées à la visualisation des données dans des dimensions inférieures.

  • Extraction de caractéristiques : l’ACP est une technique d’extraction de caractéristiques. Elle produit de nouvelles variables qui sont des combinaisons linéaires des variables initiales. D’autres techniques (telles que l’UMAP et la t-SNE) ne créent pas de nouvelles variables. Cela signifie que l’ACP peut identifier les variables les plus importantes dans les données. Les techniques non linéaires sont mieux adaptées à la visualisation des données dans des dimensions inférieures.
Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique