Régression catégorielle

La régression catégorielle convient le mieux si votre analyse a pour but de prévoir une variable (de réponse) dépendante issue d'un ensemble de variables indépendantes (prédicteur). Comme pour toutes les procédures de codage optimal, des valeurs d'échelle sont attribuées à chaque catégorie de chaque variable, afin que ces valeurs soient optimales par rapport à la régression. La solution d'une régression catégorielle optimise la corrélation carrée entre la réponse transformée et la combinaison pondérée de prédicteurs transformés.

Relation avec les autres procédures de catégorie. La régression catégorielle avec codage optimal est comparable à l'analyse de corrélation canonique avec codage optimal utilisant deux ensembles, dont l'un contient uniquement la variable dépendante. Dans la dernière méthode, la similitude des ensembles est calculée par comparaison de chaque ensemble à une variable inconnue située entre tous les ensembles. Dans la régression catégorielle, la similitude de la réponse transformée et de la combinaison linéaire de prédicteurs transformés est évaluée directement.

Relation avec les méthodes standard. Dans la régression linéaire standard, les variables catégorielles peuvent être soit recodées en tant que variables indicateur, soit traitées de la même manière que les variables de niveau d'intervalle. Dans la première approche, le modèle inclut une constante et une pente différentes pour chaque combinaison de niveaux des variables catégorielles. Un grand nombre de paramètres à interpréter est ainsi généré. Dans la seconde approche, un seul paramètre est estimé pour chaque variable. Toutefois, la nature arbitraire des codages de catégorie rend toute généralisation impossible.

Si une partie des variables n'est pas continue, d'autres types d'analyse sont disponibles. Si la réponse est continue et les prédicteurs catégoriels, l'analyse de variance est généralement utilisée. Si la réponse est catégorielle et les prédicteurs continus, la régression logistique ou l'analyse discriminante peut convenir. Si la réponse et les prédicteurs sont catégoriels, les modèles log-linéaires sont généralement utilisés.

La régression avec codage optimal fournit trois niveaux de codage pour chaque variable. Les combinaisons de ces niveaux peuvent représenter des relations non linéaires très diverses auxquelles une méthode « standard » n'est pas du tout adaptée. Par conséquent, le codage optimal s'avère une solution beaucoup plus souple que les approches standard un peu plus complexes.

En outre, les transformations non linéaires des prédicteurs réduisent habituellement les dépendances des uns par rapport aux autres. Si vous comparez les valeurs propres de la matrice de corrélation des prédicteurs avec celles de la matrice de corrélation des prédicteurs codés de façon optimale, ces dernières sont généralement moins variables que les autres. En d'autres termes, dans la régression catégorielle, le codage optimal réduit les valeurs propres supérieures de la matrice de corrélation des prédicteurs et incrémente les valeurs propres inférieures.