Statistiques de R-deux

Dans le modèle de régression linéaire, le coefficient de détermination, R ², récapitule la proportion de variance dans la variable dépendante associée aux variables de prédicteur (indépendantes), avec des valeurs R ² plus élevées indiquant que plus la variation est expliqué par le modèle, jusqu'à un maximum de 1. Pour les modèles de régression avec une variable dépendante catégorielle, il n'est pas possible de calculer une statistique R ² unique ayant toutes les caractéristiques de R ² dans le modèle de régression linéaire. Ces approximations sont donc calculées à la place. Les méthodes suivantes sont utilisées pour estimer le coefficient de détermination.

Cox et le R ² ¹ de Snell est basé sur le logarithme de la vraisemblance du modèle par rapport au logarithme de la vraisemblance d'un modèle de base. Cependant, avec des résultats catégoriels, il a une valeur maximale théorique inférieure à 1, même pour un modèle "parfait".
Le R ² ² de Nagelkerke est une version ajustée du R-carré de Cox & Snell qui ajuste l'échelle de la statistique pour couvrir l'ensemble de la plage de 0 à 1.
McFadden's R ² ³ est une autre version, basée sur les noyaux de log-vraisemblance pour le modèle à ordonnée à l'origine uniquement et le modèle estimé complet.

Ce qui constitue une "bonne" valeur R ² varie selon les domaines d'application. Bien que ces statistiques puissent être suggestives à elles seules, elles sont particulièrement utiles lorsqu'il s'agit de comparer des modèles concurrents pour les mêmes données. Le modèle avec la statistique R ² la plus élevée est "optimal" selon cette mesure.

¹ Cox, D. R., et E. J. Snell. 1989. The Analysis of Binary Data, 2e éd. Londres : Chapman and Hall.

² Nagelkerke, N. J. D. 1991. A note on the general definition of the coefficient of determination. Biometrika, 78:3, 691-692.

³ McFadden, D. 1974. Conditional logit analysis of qualitative choice behavior. Extrait de : Frontiers in Economics, P. Zarembka, eds. New York : Academic Press.