Régression logistique

La régression logistique est utile lorsque vous souhaitez être capable de prévoir la présence ou l'absence d'une caractéristique ou d'un résultat en fonction de certaines valeurs ou d'un groupe de variables de prédicteur. Elle est similaire à la régression linéaire mais elle convient aux modèles dans lesquelles les variables sont dichotomiques. Les coefficients de la régression logistique peuvent servir à estimer des rapports des cotes pour chacune des variables indépendantes d'un modèle. La régression logistique s'applique à une plus large gamme de situations de recherche que l'analyse discriminante.

Exemple. Quelles sont les caractéristiques du mode de vie qui constituent des facteurs de risques coronariens ? Sur un échantillon de patients choisis en fonction de leur statut de fumeur, leur régime alimentaire, leur consommation d'alcool et leur historique cardiaque, vous pouvez construire un modèle à l'aide de quatre variables du mode de vie pour expliquer la présence ou l'absence de déficiences coronariennes sur l'échantillon de patients. Le modèle peut alors servir à dériver les prévisions des rapports des cotes pour chaque facteur afin de vous indiquer, par exemple, que les fumeurs sont plus susceptibles de développer des déficiences coronariennes que les non-fumeurs.

Statistiques: Pour chaque analyse : observations totales, observations sélectionnées, observations valides. Pour chaque variable catégorielle : codage de paramètre. Pour chaque pas : variable(s) introduites ou éliminées, historique des itérations, log de vraisemblance –2, qualité de l'ajustement, statistique de qualité d'ajustement de Hosmer-Lemeshow, khi-deux du modèle, khi-deux d'amélioration, table de classification, corrélations entre variables, groupes observés et graphique des probabilités prévues, khi-deux résiduel. Pour chaque variable de l'équation : coefficient (B), erreur standard de B, statistique de Wald, rapport des cotes estimé (exp(B)), intervalle de confiance pour exp(B), log de vraisemblance si un terme a été éliminé du modèle. Pour chaque variable hors de l'équation : statistiques de scores. Pour chaque observation : groupe observé, probabilité prédite, groupe prévu, résidu, résidu standard.

Méthodes. Vous pouvez estimer des modèles à l'aide des entrées en bloc de variables ou de n'importe laquelle des méthodes détaillées pas à pas suivantes : ascendante conditionnelle, ascendante rapport de vraisemblance, ascendante Wald, descendante conditionnelle, descendante rapport de vraisemblance, descendante Wald.

Remarques sur les données de régression logistique

Données. Les variables dépendantes et indépendantes doivent être dichotomiques. Les variables indépendantes peuvent être de niveaux d'intervalles ou des variables catégorielles. Dans ce dernier cas, elles doivent être factices ou codées numériquement (il existe une option dans la procédure pour recoder les variables catégorielles automatiquement).

Hypothèses: La régression logistique ne s'appuie pas sur des hypothèses de distribution au même sens que l'analyse discriminante. Cependant, votre solution peut être plus stable si vos prédicteurs suivent une distribution multivariée gaussienne. De surcroît, comme avec les autres formes de régression, la multicolinéarité parmi les prédicteurs peut entraîner une altération des estimations et l'augmentation des erreurs standard. La procédure est plus efficace lorsque l'appartenance au groupe est une variable purement catégorielle, si l'appartenance au groupe est fondée sur des valeurs d'une variable continue(par exemple "QI élevé" opposé à "QI faible"), vous devez envisager d'utiliser la régression linéaire pour profiter de la richesse des informations offertes par la variable continue elle-même.

Procédures apparentées : Utilisez le nuage de points pour étudier la multicolinéarité de vos données. Si les hypothèses de normalité multivariées et d'égalité des matrices de variance/covariance sont satisfaites, vous devez obtenir une solution plus rapide à l'aide de la procédure d'analyse discriminante. Si toutes vos variables de prédicteur sont catégorielles, vous pouvez également utiliser la procédure log-linéaire. Si votre variable dépendante est continue, utilisez la procédure de régression linéaire. Vous pouvez utiliser la procédure Courbe ROC pour tracer sous forme graphique les probabilités enregistrées avec la procédure Régression logistique.

Obtenir une analyse de la régression logistique

Cette fonction requiert Tableaux personnalisés et statistiques avancées.

  1. A partir des menus, sélectionnez :

    Analyser > Régression > Logistique binaire ...

    Remarque : les champs surlignés en rouge sont obligatoires. Les boutons Coller et OK sont activés après avoir saisi des valeurs valides dans tous les champs obligatoires.
  2. Sélectionnez une Variable dépendante dichotomique. Il peut s'agir d'une variable numérique ou d'une chaîne.
  3. Sélectionnez une ou plusieurs covariables. Pour ajouter des termes d'interaction, sélectionnez toutes les variables impliquées dans l'interaction, puis sélectionnez >a*b>.

Pour saisir les variables en groupe (blocs), sélectionnez les covariables pour un bloc, puis cliquez sur Suivant pour spécifier un nouveau bloc. Répétez jusqu'à ce que tous les blocs soient spécifiés.

Vous pouvez éventuellement sélectionner des observations pour analyse. Choisissez une variable de sélection, puis entrez les critères de règle.

Cette procédure reproduit la syntaxe de commande LOGISTIC REGRESSION .