L’analyse en composantes principales (ACP) réduit le nombre de dimensions dans les grands jeux de données à des composantes principales qui conservent la plupart des informations d’origine. Pour ce faire, elle transforme les variables potentiellement corrélées en un ensemble plus restreint de variables, appelées composantes principales.
C’est à Karl Pearson que l’on doit le développement de l’ACP en 1901, mais elle a gagné en popularité avec la disponibilité accrue des ordinateurs, qui ont permis des calculs statistiques multivariés1 à grande l’échelle. L’ACP est très efficace pour visualiser et explorer les jeux de données de haute dimensionnalité, ou les données présentant de nombreuses caractéristiques, car elle peut facilement identifier les tendances, les modèles ou les données aberrantes.
L’ACP est couramment utilisée pour le prétraitement des données destinées à être utilisées avec des algorithmes de machine learning. Elle permet d’extraire les caractéristiques les plus informatives de vastes ensembles de données tout en préservant les informations les plus pertinentes du jeu de données initial. Cela réduit la complexité du modèle, car l’ajout de chaque nouvelle fonctionnalité a un impact négatif sur les performances du modèle, ce qui est également communément appelé la « malédiction de la dimensionnalité ».
Par ailleurs, en projetant un jeu de données de haute dimensionnalité dans un espace de caractéristiques plus petit, l’ACP minimise ou élimine complètement les problèmes courants tels que la multicolinéarité et le surajustement. Le phénomène de multicolinéarité se produit lorsque deux variables indépendantes ou plus sont fortement corrélées entre elles, ce qui peut poser problème pour la modélisation causale. Les modèles surajustés se prêteront mal aux généralisations avec l’entrée de nouvelles données, ce qui diminuera leur valeur. L’ACP est une approche couramment utilisée dans l’analyse de régression, mais elle est également exploitée dans divers cas d’utilisation, tels que la reconnaissance de formes, le traitement du signal, le traitement d’images, etc.
Bien qu’il existe d’autres variantes de l’ACP, telles que la régression en composantes principales et l’ACP à noyau, cet article se concentrera sur la principale méthode utilisée dans la littérature actuelle.
L’ACP est une technique de réduction des dimensions comme l’analyse discriminante linéaire (ADL). Contrairement à l’ADL, l’ACP n’est pas limitée aux tâches d’apprentissage supervisé. Pour les tâches d’apprentissage non supervisé, cela signifie que l’ACP peut réduire les dimensions sans avoir à tenir compte des étiquettes de classe ou de la catégorie. L’ACP est également étroitement liée à l’analyse factorielle. Elles permettent toutes deux de réduire le nombre de dimensions ou de variables dans un jeu de données tout en minimisant la perte d’informations. L’ACP décompose les variables en un sous-ensemble de composantes principales linéairement indépendantes. L’analyse factorielle, quant à elle, est généralement utilisée pour comprendre les structures de données sous-jacentes, en se concentrant sur les variables latentes, ou facteurs non mesurés, qui capturent la propagation d’une variable.
L’ACP et le clustering k-means sont deux techniques de machine learning non supervisées utilisées pour l’analyse des données, mais leurs objectifs et méthodes diffèrent. L’ACP est utilisée pour réduire la dimensionnalité des données, tandis que le clustering k-means regroupe les points de données sur la base de leur similarité. La technique que vous choisissez dépend du jeu de données et des objectifs de votre analyse.
L’ACP crée de nouvelles variables, telles que des composantes principales, qui sont des combinaisons linéaires des variables d’origine. L’ACP prend un jeu de données avec plusieurs variables en entrée, et elle produit un jeu de données dans un sous-espace inférieur, c’est-à-dire un jeu de données réduit avec moins de variables. Elle est souvent utilisée dans l’analyse exploratoire des données pour la création de modèles prédictifs, mais elle est également utilisée dans le prétraitement des données pour la réduire la dimensionnalité.
K-means est un algorithme de clustering qui affecte les points de données à des clusters, c.-à-d. des groupes, en fonction de leur distance par rapport aux centres des clusters. Il prend en entrée un jeu de données comportant une ou plusieurs variables et produit un ensemble de grappes contenant des points de données similaires. Il est souvent utilisé pour regrouper des données dans divers cas d’utilisation, tels que la segmentation d’images, la segmentation de clients et la détection d’anomalies.
L’ACP résume le contenu informatif de vastes ensembles de données en un ensemble plus restreint de variables non corrélées, appelées composantes principales. Ces composantes principales sont des combinaisons linéaires des variables d’origine qui présentent la variance maximale par rapport aux autres combinaisons linéaires. Ces composantes capturent autant d’informations que possible à partir de du jeu de données d’origine.
Cette technique statistique fait appel à l’algèbre linéaire et aux opérations matricielles. Elle transforme le jeu de données d’origine en un nouveau système de coordonnées structuré par les composantes principales. Les vecteurs propres et les valeurs propres de la matrice de covariance qui sous-tendent les composantes principales permettent d’analyser ces transformations linéaires.
Imaginez que vous ayez cartographié un jeu de données aux fonctionnalités multiples, cela donne un nuage de points multidimensionnel. Les vecteurs propres fournissent la direction de la variance dans le nuage de points. Les valeurs propres sont les coefficients des vecteurs propres ; ceux-ci soulignent l’importance de ces données directionnelles. Par conséquent, une valeur propre élevée signifie que le vecteur propre correspondant est plus critique. Étant donné que les composantes principales représentent les directions de variance maximale dans les données, elles sont également les vecteurs propres de la matrice de covariance.
Deux composantes principales sont calculées dans l’ACP : la première composante principale (PC1) et la deuxième composante principale (PC2).
La première composante principale (PC1) est la direction dans l’espace le long de laquelle les points de données présentent la variance la plus élevée ou la plus importante. C’est la ligne qui représente le mieux la forme des points projetés. Plus la variabilité capturée dans la première composante est importante, plus les informations conservées du jeu de données d’origine sont importantes. Aucune autre composante principale ne peut avoir une variabilité plus élevée.
Nous calculons la deuxième composante principale (PC2) de la même manière que la PC1. La PC2 représente la variance la plus élevée dans le jeu de données et ne doit pas être corrélée avec la PC1. C’est-à-dire que la PC2 doit être orthogonale, c’est-à-dire perpendiculaire, à la PC1. Cette relation peut également être exprimée en disant que la corrélation entre la PC1 et la PC2 égale à zéro.
Un nuage de points est généralement utilisé pour montrer la relation entre la PC1 et la PC2 lorsque l’ACP est appliquée à un jeu de données. Les axes PC1 et PC2 seront perpendiculaires l’un à l’autre.
S’il existe des composantes ultérieures, elles conserveront les mêmes propriétés, c’est-à-dire qu’elles ne seront pas corrélées avec d’autres composantes et qu’elles expliqueront toute variation restante.
Le processus de calcul de l’ACP est résumé dans les étapes ci-dessous, qui montrent comment les composantes principales sont calculées et comment elles sont liées aux données d’origine.
Étant donné que l’ACP peut être biaisée et privilégier certaines caractéristiques, il est important de déterminer si une normalisation des données est nécessaire. Les données doivent refléter une distribution normale avec une moyenne de zéro et un écart-type de un.
Au cours de cette étape, les valeurs moyennes des variables sont calculées et soustraites du jeu de données d’origine afin que chaque variable contribue de manière égale à l’analyse. Cette valeur est ensuite divisée par l’écart type de chaque variable afin que toutes les variables utilisent la même échelle.
La covariance (cov) mesure le degré de corrélation entre deux variables ou plus. La matrice de covariance résume les covariances associées à toutes les combinaisons de paires des variables initiales du jeu de données. Le calcul de la matrice de covariance permet d’identifier les relations entre les variables, c’est-à-dire la façon dont les variables varient par rapport à la moyenne les unes par rapport aux autres. Cette matrice de données est une matrice symétrique, ce qui signifie que les combinaisons de variables peuvent être représentées par d × d, où d est le nombre de dimensions. Par exemple, pour un jeu de données à 3 dimensions, il y aurait 3 × 3 soit 9 combinaisons de variables dans la matrice de covariance.
Le signe des variables dans la matrice nous indique si les combinaisons sont corrélées :
Ici, nous calculons les vecteurs propres (composantes principales) et les valeurs propres de la matrice de covariance. En tant que vecteurs de valeurs propres, les composantes principales représentent les directions de la variance maximale dans les données. Les valeurs propres représentent la variance dans chaque composante. Le classement des vecteurs propres par valeur propre permet d’identifier l’ordre des composantes principales.
Ici, nous décidons quelles sont les composantes à conserver et celles à écarter. Les composantes dont les valeurs propres sont faibles ne sont généralement pas aussi significatives. Les nuages de points, ou graphiques scree plots, représentent généralement la proportion de la variance totale expliquée et la proportion cumulative de la variance. Ces paramètres permettent de déterminer le nombre optimal de composantes à conserver. Le point au niveau duquel l’axe Y des valeurs propres ou de la variance totale expliquée crée un « creux » indique généralement le nombre de composantes ACP que nous voulons inclure.
Enfin, les données sont transformées dans le nouveau système de coordonnées défini par les composantes principales. En d’autres termes, le vecteur caractéristique créé à partir des vecteurs propres de la matrice de covariance projette les données sur les nouveaux axes définis par les composantes principales. Cela crée de nouvelles données, capturant la plupart des informations mais avec moins de dimensions que le jeu de données d’origine.
Un graphique ACP est un nuage de points créé en utilisant les deux premières composantes principales comme axes. La première composante principale (PC1) est l’axe des x et la deuxième composante principale (PC2) est l’axe des y. Le nuage de points montre les relations entre les observations (points de données) et les nouvelles variables (les composantes principales). La position de chaque point montre les valeurs de PC1 et PC2 pour cette observation.
La direction et la longueur des flèches indiquent le chargement des variables, c’est-à-dire la manière dont chaque variable contribue aux principales composantes. Si une variable comporte une charge élevée pour une composante particulière, elle est fortement corrélée à ce composant. Cela peut mettre en évidence les variables qui ont un impact significatif sur les variations des données.
Le nombre de composantes principales qui subsistent après l’application de l’ACP peut vous aider à interpréter les données en sortie. La première composante principale explique la plus grande variance de données, et chaque composante ultérieure représente une variance moindre. Ainsi, le nombre de composantes peut indiquer la quantité d’informations conservées dans le jeu de données d’origine. Un nombre réduit de composantes après l’application de l’ACP peut signifier que vous n’avez pas capturé beaucoup de variations de données. Un plus grand nombre de composantes indique une plus grande variation de données, mais les résultats peuvent être plus difficiles à interpréter. Vous pouvez décider du nombre optimal de composantes à retenir à l’aide d’un nuage de points ou de la variance expliquée cumulée.
L’application de l’ACP peut aider à prétraiter ou à extraire les caractéristiques les plus informatives d’un jeu de données comportant de nombreuses variables. Le prétraitement réduit la complexité tout en préservant les informations pertinentes. L’ACP est couramment utilisée dans les scénarios suivants :
L’ACP réduit la dimensionnalité de l’image tout en conservant les informations essentielles. Elle permet de créer des représentations compactes des images, ce qui facilite leur stockage et leur transmission.
L’ACP permet de visualiser les données de grande dimension en les projetant dans un espace de dimension inférieure, tel qu’une représentation 2D ou 3D. Cela simplifie l’interprétation et l’exploration des données.
L’ACP peut supprimer le bruit ou les informations redondantes des données en se concentrant sur les composantes principales qui capturent les modèles sous-jacents.
L’ACP a également été appliquée dans le domaine de la santé. Par exemple, elle a permis de diagnostiquer des maladies plus tôt et avec plus de précision. L’article « Breast Cancer Prediction using Principal Component Analysis with Logistic Regression » (Prédiction du cancer du sein à l’aide de l’analyse en composantes principales et de la régression logistique) analyse un jeu de données bien connu sur le cancer du sein2 collecté auprès de patients des hôpitaux de l’Université du Wisconsin, à Madison. L’auteur de l’étude, M. Akbar, utilise l’ACP pour réduire les dimensions des six attributs de données différents :
Un algorithme de classification par apprentissage supervisé, la régression logistique, a ensuite été appliqué pour prédire la présence ou non d’un cancer du sein.
Il existe de nombreuses autres techniques de réduction de la dimensionnalité, notamment l’analyse discriminante linéaire, la forêt d’arbres décisionnels, l’approximation et projection uniforme de variétés (UMAP) et la méthode stochastique distribuée en t (t-SNE). Tenez compte des facteurs suivants pour décider si l’ACP est la bonne approche pour votre analyse :
Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.
Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.
Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.
Découvrez comment une approche de type data lakehouse ouvert peut fournir des données fiables et accélérer l’exécution des analyses et des projets d’IA.
Alignez votre stratégie de données et d’analyse sur les objectifs de l’entreprise grâce à ces quatre étapes clés.
Examinez de plus près les raisons pour lesquelles les défis en matière de business intelligence peuvent persister et ce qu’ils signifient pour les utilisateurs au sein d’une organisation.
Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.