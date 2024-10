Il n’y a pas autant de formes discrètes de multicolinéarité que de causes potentielles. Ces causes peuvent aller de la nature des données examinées à une mauvaise conception des expériences. Voici certaines des causes les plus courantes :

- Collecte de données Cette multicolinéarité basée sur les données peut survenir si l’on échantillonne un sous-espace non représentatif des données en question. Ainsi, Montgomery et al. fournissent l’exemple d’un jeu de données de livraison de chaîne d’approvisionnement où la distance et la taille de la commande sont les variables indépendantes d’un modèle prédictif. Dans les données qu’ils fournissent, le volume des stocks des commandes semble augmenter avec la distance de livraison. La solution à cette corrélation est simple : collecter et inclure des échantillons de données pour les livraisons sur de courtes distances avec des stocks importants, ou inversement.7

- Contraintes du modèle Cette cause est similaire à la collecte des données, mais pas identique. Un phénomène de multicolinéarité peut apparaître en raison de la nature des données et des variables du modèle prédictif en question. Imaginez que nous créions un modèle prédictif pour mesurer la satisfaction des employés sur leur lieu de travail, le nombre d’heures travaillées par semaine et le stress déclaré étant deux prédicteurs parmi d’autres. Une corrélation peut apparaître entre ces prédicteurs en raison de la nature des données, c’est-à-dire que les personnes qui travaillent plus sont susceptibles de signaler un plus haut niveau de stress. Une situation similaire peut se produire si la formation et le salaire sont des prédicteurs de modèle : les employés plus formés gagneront probablement plus. Dans ce cas, la collecte de données supplémentaires pourrait ne pas suffire à résoudre le problème, car la multicolinéarité est inhérente aux données elles-mêmes.

- Modèle surdéfini Un phénomène de multicolinéarité peut apparaître lorsqu’il y a plus de prédicteurs dans le modèle que de points d’observation de données. Ce problème peut survenir en particulier dans le domaine de la biostatistique ou d’autres études biologiques. Pour résoudre la surdéfinition du modèle, il faut en éliminer complètement certains prédicteurs. Mais comment déterminer lesquels supprimer ? On peut mener plusieurs études préliminaires en utilisant des sous-ensembles de régresseurs (c’est-à-dire des prédicteurs) ou avoir recours à l’analyse en composantes principales (ACP) pour combiner les variables multicolinéaires.8