Qu’est-ce que la multicolinéarité ?

21 novembre 2023

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Qu’est-ce que la multicolinéarité ?

On parle de multicolinéarité lorsque plusieurs variables indépendantes d’une équation de régression linéaire sont corrélées. Les variables multicolinéaires peuvent nuire aux prévisions des modèles sur des données inédites. Plusieurs techniques de régularisation permettent de détecter et de corriger les problèmes de multicolinéarité.

Multicolinéarité ou colinéarité ?

On parle de colinéarité quand deux variables indépendantes d’une analyse de régression sont corrélées. On parle de multicolinéarité quand plus de deux variables indépendantes sont corrélées.1 À l’inverse, on parle d’orthogonalité quand les variables indépendantes ne sont pas corrélées. La multicolinéarité empêche les modèles prédictifs de produire des prévisions exactes en augmentant la complexité des modèles et en les surajustant.

Contexte : analyse de régression 

Voici un exemple d’équation de régression linéaire multivariée standard :

Y représente la sortie prédite (variable dépendante) et X représente un prédicteur (variable indépendante ou explicative). B représente le coefficient de régression associé et il mesure la modification de Y pour chaque unité de modification au niveau du prédicteur correspondant (Xn) en supposant que tous les autres prédicteurs restent constants. X0 représente la valeur de la variable de réponse (Y) lorsque la variable indépendante est égale à zéro. Cette valeur finale est également appelée y-intercept.2

Bien entendu, cette équation polynomiale vise à mesurer et à mapper la corrélation entre Y et Xn. Dans un modèle prédictif idéal, les variables indépendantes (Xn) ne sont pas corrélées. Néanmoins, cela peut souvent se produire dans les modèles qui utilisent des données du monde réel, en particulier lorsque les modèles sont conçus avec de nombreuses variables indépendantes.

Effets de la multicolinéarité

Lors de la création d’un modèle prédictif, nous devons calculer les coefficients, car ils sont rarement connus à l’avance. Pour estimer les coefficients de régression, nous pouvons utiliser un estimateur matriciel standard des moindres carrés ordinaires (MCO) :

Comprendre les opérations de cette formule nécessite de maîtriser la notation matricielle. Mais pour le moment, tout ce que nous avons à comprendre, c’est que la taille et le contenu de la matrice X sont déterminés par les variables indépendantes choisies comme paramètres du modèle. De plus, les degrés de corrélation entre les prédicteurs, également appelés coefficients de corrélation, sont utilisés pour calculer les coefficients de régression entre X et Y.3

Lorsque des variables indépendantes sont incluses dans le modèle ou exclues de ce dernier, les coefficients estimés pour un prédicteur peuvent changer radicalement, rendant les estimations de coefficients peu fiables et peu précises. La corrélation entre deux prédicteurs ou plus complique la détermination de l’impact individuel d’une variable sur la sortie du modèle. N’oubliez pas qu’un coefficient de régression mesure l’effet d’un prédicteur donné sur la sortie en supposant que les autres prédicteurs restent constants. Mais si les prédicteurs sont corrélés, il peut être impossible de les isoler. Ainsi, les coefficients de régression estimés pour les variables multicolinéaires ne reflètent pas l’effet d’un prédicteur sur la sortie, mais plutôt l’effet partiel du prédicteur, en fonction des covariables qui se trouvent dans le modèle.4

En outre, différents échantillons de données, ou même de petites modifications dans les données, avec les mêmes variables multicolinéaires, peuvent produire un coefficient de régression très différent. Il s’agit peut-être du problème le plus connu de la multicolinéarité : le surajustement. On parle de surajustement quand des modèles présentent une faible erreur d’entraînement et une erreur de généralisation élevée. Comme nous l’avons indiqué, la signification statistique d’une variable multicolinéaire reste incertaine dans le bruit de ses relations avec les autres. Cela empêche le calcul précis de la signification statistique d’une variable sur la sortie du modèle, et c’est ce que l’estimateur de coefficient indique en grande partie. Comme la multicolinéarité empêche le calcul d’estimations précises des coefficients, les modèles multicolinéaires ne se prêtent pas à la généralisation sur des données inédites. Ainsi, les coefficients estimés pour les variables multicolinéaires présentent une grande variabilité, également appelée erreur type élevée.5

Types de multicolinéarité

Degrés de multicolinéarité

Les manuels et articles sur les statistiques établissent parfois une distinction entre la multicolinéarité extrême et la multicolinéarité parfaite. On parle de multicolinéarité parfaite quand une variable indépendante présente une corrélation linéaire parfaite avec une ou plusieurs variables indépendantes. On parle de multicolinéarité extrême lorsqu’un prédicteur est fortement corrélé à une ou plusieurs autres variables indépendantes.6 Il s’agit des deux principaux degrés de multicolinéarité.

Causes de la multicolinéarité

Il n’y a pas autant de formes discrètes de multicolinéarité que de causes potentielles. Ces causes peuvent aller de la nature des données examinées à une mauvaise conception des expériences. Voici certaines des causes les plus courantes :

- Collecte de données Cette multicolinéarité basée sur les données peut survenir si l’on échantillonne un sous-espace non représentatif des données en question. Ainsi, Montgomery et al. fournissent l’exemple d’un jeu de données de livraison de chaîne d’approvisionnement où la distance et la taille de la commande sont les variables indépendantes d’un modèle prédictif. Dans les données qu’ils fournissent, le volume des stocks des commandes semble augmenter avec la distance de livraison. La solution à cette corrélation est simple : collecter et inclure des échantillons de données pour les livraisons sur de courtes distances avec des stocks importants, ou inversement.7

- Contraintes du modèle Cette cause est similaire à la collecte des données, mais pas identique. Un phénomène de multicolinéarité peut apparaître en raison de la nature des données et des variables du modèle prédictif en question. Imaginez que nous créions un modèle prédictif pour mesurer la satisfaction des employés sur leur lieu de travail, le nombre d’heures travaillées par semaine et le stress déclaré étant deux prédicteurs parmi d’autres. Une corrélation peut apparaître entre ces prédicteurs en raison de la nature des données, c’est-à-dire que les personnes qui travaillent plus sont susceptibles de signaler un plus haut niveau de stress. Une situation similaire peut se produire si la formation et le salaire sont des prédicteurs de modèle : les employés plus formés gagneront probablement plus. Dans ce cas, la collecte de données supplémentaires pourrait ne pas suffire à résoudre le problème, car la multicolinéarité est inhérente aux données elles-mêmes.

- Modèle surdéfini Un phénomène de multicolinéarité peut apparaître lorsqu’il y a plus de prédicteurs dans le modèle que de points d’observation de données. Ce problème peut survenir en particulier dans le domaine de la biostatistique ou d’autres études biologiques. Pour résoudre la surdéfinition du modèle, il faut en éliminer complètement certains prédicteurs. Mais comment déterminer lesquels supprimer ? On peut mener plusieurs études préliminaires en utilisant des sous-ensembles de régresseurs (c’est-à-dire des prédicteurs) ou avoir recours à l’analyse en composantes principales (ACP) pour combiner les variables multicolinéaires.8

Multicolinéarité basée sur les données et multicolinéarité structurelle

Certaines données peuvent particulièrement conduire à la multicolinéarité. Parmi elles, les principales sont les données de séries temporelles. Les facteurs relatifs à la croissance et aux tendances, notamment dans le domaine économique, évoluent souvent dans la même direction au fil du temps, un phénomène propice à l’apparition d’une multicolinéarité. Les études observationnelles menées dans le domaine des sciences sociales sont également souvent propices à la multicolinéarité, car de nombreuses variables socioéconomiques (par exemple revenu, formation, affiliation politique, etc.) sont souvent interdépendantes et non contrôlées par les chercheurs.9

La multicolinéarité peut également résulter d’une manipulation des prédicteurs. Dans certains cas, il est possible d’utiliser les valeurs quadratiques ou décalées de variables indépendantes comme nouveaux prédicteurs de modèle. Bien entendu, ces nouveaux prédicteurs présentent une forte corrélation avec les variables indépendantes à partir desquelles ils ont été dérivés.10 Il s’agit d’une multicolinéarité structurelle.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Comment détecter la multicolinéarité

De grands coefficients estimés en eux-mêmes peuvent indiquer la présence d’une multicolinéarité, de même que des changements massifs dans les coefficients estimés lorsqu’un seul prédicteur (ou même un point de données) est ajouté ou supprimé dans le modèle. Les coefficients associés à de grands intervalles de confiance indiquent également une multicolinéarité. Parfois, les coefficients possédant des signes ou des magnitudes contraires aux attentes dérivées de l’analyse préliminaire des données peuvent indiquer une multicolinéarité. Bien sûr, aucun de ces éléments ne confirme de manière absolue la multicolinéarité et ne fournit des mesures quantitatives de cette dernière.11 Plusieurs méthodes de diagnostic permettent cependant de le faire.

Deux outils relativement simples permettent de mesurer la multicolinéarité : un nuage de points et une matrice de corrélation de variables indépendantes. Dans un nuage de points, on trace les valeurs des variables indépendantes de chaque point de données les unes par rapport aux autres. Si le nuage de points révèle une corrélation linéaire entre les variables choisies, il se peut qu’il existe un certain degré de multicolinéarité. Cette figure illustre des données multicolinéaires dans un nuage de points. Elle se base sur l’exemple du jeu de données de livraison Montgomery et al.

Une autre méthode de diagnostic consiste à calculer une matrice de corrélation pour toutes les variables indépendantes. Les éléments de la matrice sont les coefficients de corrélation entre chaque prédicteur dans un modèle. Le coefficient de corrélation est une valeur comprise entre -1 et 1 qui mesure le degré de corrélation entre deux prédicteurs. Notez que la matrice contient une diagonale de 1, car chaque variable a une corrélation parfaite avec elle-même. Plus un élément de la matrice donné est élevé, plus le degré de corrélation est important.12

Facteur d’inflation de la variance

Le facteur d’inflation de la variance (VIF) est la méthode la plus couramment utilisée pour déterminer le degré de multicolinéarité dans les modèles de régression linéaire. Chaque prédicteur de modèle possède une valeur VIF, qui indique dans quelle mesure la variance de ce prédicteur est gonflée par les autres prédicteurs du modèle.

L’algorithme VIF comporte plusieurs étapes. L’explication complète de cet algorithme dépasse cependant le cadre de cet article. En résumé, le VIF mesure la proportion de variance d’une variable choisie, déterminée par les autres variables indépendantes du modèle. Voici l’équation du facteur d’inflation de la variance :

Le R au carré (R2) représente le coefficient de détermination multiple obtenu en calculant la régression d’une variable indépendante par rapport à toutes les autres.13 Le terme inférieur de l’équation VIF représente la tolérance, un concept distinct des intervalles de tolérance. La tolérance est l’inverse du VIF. Bien que beaucoup moins abordé dans la littérature, il s’agit néanmoins d’un autre moyen viable de calculer la multicolinéarité.14

Plus la valeur du VIF est élevée, plus le degré de multicolinéarité est élevé. Aucune valeur limite de VIF ne permet de déterminer un « mauvais » ou un « bon » modèle. Néanmoins, la règle générale suivante est largement acceptée : une valeur VIF supérieure ou égale à dix indique une multicolinéarité sévère.15

Notez que R et Python contiennent des fonctions permettant de calculer le VIF. La fonction vif() du package car de R et la fonction variance_inflation_factor() du module statsmodels.stats de Python peuvent respectivement calculer le VIF pour un modèle désigné.16

Comment résoudre la multicolinéarité

Comme mentionné, plusieurs solutions simples permettent de résoudre la multicolinéarité : de la diversification ou de l’élargissement de la taille de l’échantillon de données d’apprentissage à la suppression totale des paramètres. Plusieurs techniques de régularisation permettent également de corriger les problèmes de multicolinéarité. La régression Ridge est une méthode largement recommandée, qui consiste à pénaliser les coefficients de haute valeur, réduisant ainsi l’impact des prédicteurs multicolinéaires sur la sortie du modèle. La régression Lasso pénalise elle aussi les coefficients élevés. La principale différence entre ces deux types de régression, c’est que la régression Ridge réduit simplement les valeurs des coefficients à des valeurs proches de zéro, tandis que la régression Lasso peut réduire les coefficients à zéro, supprimant ainsi totalement les variables indépendantes du modèle.

Quelques cas d’utilisation

Finances

Comme les spécialistes de la recherche d’affaires et financière ne peuvent pas mener d’expériences contrôlées et qu’ils travaillent principalement avec données de séries temporelles, la multicolinéarité est un problème permanent dans ce domaine. Les recherches récentes remettent en question l’utilisation des méthodes de suppression des prédicteurs (par ex.ACP) pour résoudre la colinéarité, car elles peuvent supprimer des prédicteurs importants.17 Dans d’autres domaines, les chercheurs appliquent la régression Ridge, et les nouvelles méthodes de réduction qui en découlent, pour corriger la multicolinéarité dans l’analyse des décisions relatives à la gestion des investissements.18

Justice pénale

Comme beaucoup d’autres sous-disciplines des sciences sociales, la criminologie et la justice pénale reposent sur des études observationnelles, dans lesquelles le phénomène de multicolinéarité apparaît souvent. Les chercheurs peuvent utiliser des combinaisons de variables (p. ex. ACP),19 ainsi que des méthodes d’abandon de variables pour résoudre la multicolinéarité.20 Notons comment, dans cette dernière étude, un VIF supérieur à trois indique une multicolinéarité trop élevée, montrant que toutes les recherches ne suivent pas la règle du VIF>10. La recherche explore également d’autres méthodes de diagnostic et de résolution de la multicolinéarité, telles que l’analyse de dominance, qui classe les prédicteurs en fonction de leur contribution à la variance du modèle.21

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani et Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael H. Kutner, Christopher J. Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck et G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst et J.T. Webster, « Regression analysis and problems of multicollinearity », Communications in Statistics, vol. 4, n° 3, 1975, pages 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist et Paula Stephan, Understanding Regression Analysis : An Introductory Guide, 2e édition, SAGE, 2017.

10 R.F. Gunst et J.T. Webster, « Regression analysis and problems of multicollinearity », Communications in Statistics, vol. 4, n° 3, 1975, pages 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression : A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson et Ronald Tatham, Multivariate Data Analysis, 6e édition, Pearson, 2006.

14 Richard Darlington et Andrew Hayes, Regression Analysis and Linear Models : Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter et William Li, Applied Statistical Linear Models, 5e édition, McGraw-Hill, 2005.

16 Chantal Larose et Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck et Alain Verbeke, « Misconceptions about multicollinearity in international business research : Identification, consequences, and remedies », Journal of International Business Studies, vol. 51, 2020, pages 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto et Carlos R. Azzoni, « Multicollinearity and financial constraint in investment decisions : a Bayesian generalized ridge regression », Journal of Applied Statistics, vol. 38, n° 2, 2011, pages 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras et Cristhian Mellado, « Regression, multicollinearity and Markowitz », Finance Research Letters, vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White et Joshua Hinkle, « Examining impacts of street characteristics on residents' fear of crime : Evidence from a longitudinal study of crime hot spots », Journal of Criminal Justice, vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson et Carley Fockler, « Ecological and social correlates of violent crime », SN Social Sciences, vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock, « Dominance analysis of police legitimacy’s regressors : disentangling the effects of procedural justice, effectiveness, and corruption », Police Practice and Research, vol. 22, n° 1, 2021, pages 589-605, https://doi.org/10.1080/15614263.2020.1851229