Analyse de correspondance multiple

L'Analyse de correspondance multiple tente de créer une solution dans laquelle les objets faisant partie de la même catégorie sont tracés proches les uns des autres, et les objets de catégories différentes, éloignés les uns des autres. Chaque objet se trouve aussi près que possible des points de catégorie qui s'appliquent. Ainsi, les catégories divisent les objets en sous-groupes homogènes. Les variables sont considérées comme homogènes lorsqu'elles classent les objets des mêmes catégories dans les mêmes sous-groupes.

Pour une solution en une dimension, l'analyse de correspondance multiple attribue des valeurs d'échelle optimale (quantifications de catégorie) à chaque catégorie de chaque variable si bien que, dans l'ensemble, les catégories ont en moyenne une étendue maximale. Pour une solution en deux dimensions, l'analyse de correspondance multiple recherche un second ensemble de quantifications des catégories de chaque variable non lié au premier ensemble, en réessayant d'optimiser l'étendue, etc. Les catégories recevant autant d'évaluations qu'il existe de dimensions, les variables de l'analyse sont censées être nominales multiples au niveau de codage optimal.

L'analyse de correspondance multiple affecte également des scores aux objets de l'analyse, afin que les quantifications de catégorie représentent les moyennes, ou centroïdes, des scores des objets de la catégorie.

Relation avec les autres procédures de catégorie. L'analyse de correspondance multiple est également appelée analyse d'homogénéité ou double codage. Elle fournit des résultats, certes comparables mais pas identiques, à ceux de l'analyse des correspondances lorsque seules deux variables sont utilisées. L'analyse des correspondances génère des sorties uniques récapitulant l'ajustement et la qualité de la représentation de la solution, y compris les informations de stabilité. Par conséquent, dans le cas de deux variables, il vaut mieux généralement préférer l'analyse des correspondances à l'analyse de correspondance multiple. Ces deux procédures présentent une autre différence : l'entrée de l'analyse de correspondance multiple est une matrice de données, dans laquelle les lignes sont des objets et les colonnes sont des variables. Quant au point de départ de l'analyse des correspondances, il peut être la même matrice de données, une matrice de proximité générale ou un tableau de contingence joint, qui est une matrice récapitulative où les lignes et les colonnes représentent des catégories de variables. L'analyse de correspondance multiple peut également être assimilée à l'analyse en composantes principales de données codées au niveau nominal multiple.

Relation avec les méthodes standard. L'analyse de correspondance multiple peut être considérée comme étant l'analyse d'un tableau de contingence à entrées multiples. Un tableau de contingence à entrées multiples peut également être analysé avec la procédure de tableaux croisés, mais celle-ci fournit des statistiques récapitulatives distinctes pour chaque catégorie de chaque variable de contrôle. Grâce à l'analyse de correspondance multiple, il est généralement possible de récapituler la relation entre toutes les variables à l'aide d'un tracé bidimensionnel. Un mode d'utilisation avancé de ce type d'analyse consiste à remplacer les valeurs de catégorie d'origine par les valeurs d'échelle optimale de la première dimension, puis à effectuer une analyse multivariée secondaire. Puisque l'analyse de correspondance multiple remplace les libellés de catégorie par des valeurs d'échelle numérique, de nombreuses procédures nécessitant des données numériques peuvent être appliquées lorsqu'elle est terminée. Par exemple, la procédure d'analyse factorielle crée une première composante principale équivalant à la première dimension de l'analyse de correspondance multiple. Les scores des composantes de la première dimension sont identiques à ceux des objets et les chargements entre composantes, aux mesures de discrimination. Néanmoins, la deuxième dimension de l'analyse de correspondance multiple est différente de celle de l'analyse factorielle.