Qu'est-ce que la régression logistique ?
Découvrez comment la régression logistique peut aider à faire des prédictions pour améliorer la prise de décision
El gerente de proyecto hace una presentación motivacional o un equipo de ingenieros
Qu'est-ce que la régression logistique ?

Ce type de modèle statistique (également appelé modèle logit) est souvent utilisé pour la classification et l'analyse prédictive. La régression logistique estime la probabilité qu'un événement se produise, tel que voter ou ne pas voter, sur la base d'un ensemble de données donné de variables indépendantes. Comme le résultat est une probabilité, la variable dépendante est bornée entre 0 et 1. Dans régression logistique, une transformation logit est appliquée sur la cote, c'est-à-dire la probabilité de succès divisée par la probabilité de défaillance. Ceci est aussi communément appelé la cote historique, ou le logarithme naturel de la cote, et cette fonction logistique est représentée par les formules de suivi :

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Dans cette équation de régression logistique, logit(pi) est la variable dépendante ou de réponse et x est la variable indépendante. Le paramètre bêta, ou coefficient, dans ce modèle est généralement estimé via une estimation de probabilité maximal (MLE). Cette méthode teste différentes valeurs de bêta à travers plusieurs itérations pour optimiser le meilleur ajustement des cotes logarithmiques. Toutes ces itérations produisent la fonction de probabilité historique , et régression logistique cherche à agrandir cette fonction pour rechercher la meilleure estimation de paramètres. Une fois que le coefficient optimal (ou les coefficients s'il y a plus d'une variable indépendante) est trouvé, les probabilités conditionnelles pour chaque observation peuvent être calculées, enregistrées et additionnées pour produire une probabilité prédite. Pour la classification binaire, une probabilité inférieure à 0.5 prédira 0 tandis qu'une probabilité supérieure à 0 prédira 1.  Une fois le modèle calculé, il est recommandé d'évaluer dans quelle mesure le modèle prédit la variable dépendante, appelée qualité de l'ajustement. Le test Hosmer-Lemeshow est une méthode populaire pour évaluer l'ajustement du modèle.

Interprétation de la régression logistique

 

Les probabilités logarithmiques peuvent être difficiles à comprendre dans une analyse de données de régression logistique. Par conséquent, l'exponentiation des estimations bêta est courante pour transformer les résultats en un rapport de cotes (OR), ce qui facilite l'interprétation des résultats. L'OR représente les chances qu'un résultat se produise compte tenu d'un événement particulier, par rapport aux chances que le résultat se produise en l'absence de cet événement. Si l'OR est supérieur à 1, l'événement est associé à une probabilité plus élevée de générer un résultat spécifique. Inversement, si l'OR est inférieur à 1, l'événement est associé à une probabilité plus faible que ce résultat se produise. Sur la base de l'équation ci-dessus, l'interprétation d'un rapport de cotes peut être notée comme suit : la probabilité d'un succès change de exp(cB_1) fois pour chaque augmentation d'unité c de x. Pour utiliser un exemple, disons que nous devions estimer les chances de survie sur le Titanic étant donné que la personne était un homme, et que le rapport de cotes pour les hommes était de 0,0810. Nous interpréterions le rapport de cotes comme la probabilité de survie des hommes diminuée d'un facteur de 0,0810 par rapport aux femmes, en maintenant toutes les autres variables constantes.

 

 

Lire le livre blanc (776 ko)
Régression linéaire vs régression logistique

Les régressions linéaire et logistique font partie des modèles les plus populaires de la science des données, et les outils open source, comme Python et R, rendent leur calcul rapide et facile.

Les modèles de régression linéaire sont utilisés pour identifier la relation entre une variable dépendante continue et une ou plusieurs variables indépendantes. Lorsqu'il n'y a qu'une seule variable indépendante et une seule variable dépendante, on parle de régression linéaire simple, mais à mesure que le nombre de variables indépendantes augmente, on parle de régression linéaire multiple. Pour chaque type de régression linéaire, il cherche à tracer une ligne de meilleur ajustement à travers un ensemble de points de données, qui est généralement calculé à l'aide de la méthode des moindres carrés.

Semblable à la régression linéaire, la régression logistique est également utilisée pour estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes, mais elle est utilisée pour faire une prédiction sur une variable catégorielle par rapport à une variable continue. Une variable catégorielle peut être vraie ou fausse, oui ou non, 1 ou 0, etc. L'unité de mesure diffère également de la régression linéaire car elle produit une probabilité, mais la fonction logit transforme la courbe en S en ligne droite.  

Alors que les deux modèles sont utilisés dans l'analyse de régression pour faire des prédictions sur les résultats futurs, la régression linéaire est généralement plus facile à comprendre. La régression linéaire ne nécessite pas non plus une taille d'échantillon aussi grande que la régression logistique nécessite un échantillon adéquat pour représenter les valeurs dans toutes les catégories de réponse. Sans un échantillon représentatif plus grand, le modèle peut ne pas avoir une puissance statistique suffisante pour détecter un effet significatif.

Types de régression logistique

Il existe trois types de modèles de régression logistique, qui sont définis en fonction de la réponse catégorique.

  • Régression logistique binaire : dans cette approche, la réponse ou la variable dépendante est de nature dichotomique, c'est-à-dire il n'a que deux résultats possibles (par exemple 0 ou 1). Certains exemples populaires de son utilisation incluent la prédiction si un e-mail est un spam ou non ou si une tumeur est maligne ou non maligne. Dans la régression logistique, c'est l'approche la plus couramment utilisée, et plus généralement, c'est l'un des classificateurs les plus courants pour la classification binaire.
  • Régression logistique multinomiale : dans ce type de modèle de régression logistique, la variable dépendante a trois résultats possibles ou plus ; cependant, ces valeurs n'ont pas d'ordre spécifié.  Par exemple, les studios de cinéma veulent prédire quel genre de film un spectateur est susceptible de voir pour commercialiser les films plus efficacement. Un modèle de régression logistique multinomiale peut aider le studio à déterminer la force de l'influence que l'âge, le sexe et le statut amoureux d'une personne peuvent avoir sur le type de film qu'elle préfère. Le studio peut alors orienter une campagne publicitaire d'un film spécifique vers un groupe de personnes susceptibles d'aller le voir.
  • Régression logistique ordinale : ce type de modèle de régression logistique est exploité lorsque la variable de réponse a trois résultats possibles ou plus, mais dans ce cas, ces valeurs ont un ordre défini. Des exemples de réponses ordinales comprennent des échelles de notation de A à F ou des échelles de notation de 1 à 5. 
Dans la tête d'un spécialiste des données (776 ko)
Régression logistique et apprentissage automatique

Au sein de l'apprentissage automatique, la régression logistique appartient à la famille des modèles d'apprentissage automatique supervisé. Il est également considéré comme un modèle discriminatif, ce qui signifie qu'il tente de distinguer les classes (ou catégories). Contrairement à un algorithme génératif, tel que naïve bayes, il ne peut pas, comme son nom l'indique, générer des informations, telles qu'une image, de la classe qu'il tente de prédire (par exemple, l'image d'un chat).

Précédemment, nous avons mentionné comment la régression logistique maximise la fonction log de vraisemblance pour déterminer les coefficients bêta du modèle. Cela change légèrement dans le contexte de l'apprentissage automatique. Dans l'apprentissage automatique, la vraisemblance logarithmique négative est utilisée comme fonction de perte, en utilisant le processus de descente de gradient pour trouver le maximum global. C'est juste une autre façon d'arriver aux mêmes estimations discutées ci-dessus.

La régression logistique peut également être sujette à un surajustement, en particulier lorsqu'il existe un nombre élevé de variables prédictives dans le modèle. La régularisation est généralement utilisée pour pénaliser les paramètres à grands coefficients lorsque le modèle souffre d'une grande dimensionnalité.

Scikit-learn (lien externe à IBM) fournit une documentation précieuse pour en savoir plus sur le modèle d'apprentissage automatique par régression logistique.

Cas d'utilisation de régression logistique

La régression logistique est couramment utilisée pour les problèmes de prédiction et de classification. Certains de ces cas d'utilisation incluent :

  • Détection de la fraude : les modèles de régression logistique peuvent aider les équipes à identifier les anomalies de données, qui sont prédictives de la fraude. Certains comportements ou caractéristiques peuvent être davantage associés à des activités frauduleuses, ce qui est particulièrement utile aux institutions bancaires et autres institutions financières pour protéger leurs clients. Les entreprises basées sur le SaaS ont également commencé à adopter ces pratiques pour éliminer les faux comptes d'utilisateurs de leurs ensembles de données lors de l'analyse des données sur les performances de l'entreprise.
  • Prédiction des maladies : en médecine, cette approche analytique peut être utilisée pour prédire la probabilité d'une maladie ou d'une maladie pour une population donnée. Les organismes de santé peuvent mettre en place des soins préventifs pour les personnes qui présentent une propension plus élevée à certaines maladies.
  • Prédiction de l'attrition : des comportements spécifiques peuvent indiquer un taux d'attrition dans différentes fonctions d'une organisation. Par exemple, les équipes des ressources humaines et de gestion peuvent vouloir savoir s'il y a des employés très performants au sein de l'entreprise qui risquent de quitter l'entreprise ; ce type d'informations peut susciter des conversations pour comprendre les problèmes au sein de l'entreprise, tels que la culture ou la rémunération. Alternativement, l'organisation commerciale peut vouloir savoir lesquels de ses clients risquent de faire affaire ailleurs. Cela peut inciter les équipes à mettre en place une stratégie de rétention pour éviter les pertes de revenus.
Exemples de cas réussis de régression logistique Évaluation du risque de crédit

La régression logistique binaire aide les banques à évaluer le risque de crédit. Imaginons que vous soyez responsable des prêts dans une banque et que vous souhaitiez identifier les caractéristiques de clients personnes risquant de ne pas rembourser leurs prêts. Ces caractéristiques vont vous permettre d'identifier les bons et mauvais risques de crédit. Vous avez des données sur 850 clients. Les 700 premiers sont des clients axuquels des prêts ont déjà été accordés. Regardez comment vous pouvez utiliser un échantillon aléatoire de ces 700 clients pour créer un modèle de régression logistique et classifier les 150 clients restants comme ayant un bon ou un mauvais risque.

Augmentation des bénéfices dans le secteur bancaire

First Tennessee Bank a augmenté sa rentabilité avec le logiciel IBM SPSS et obtenu des augmentations de ses campagnes de ventes croisées allant jusqu'à 600 %. Les dirigeants de cette banque régionale des États-Unis voulaient approcher les bons clients avec les bons produits et services. Les données utiles ne manquaient pas, mais il était très difficile de pouvoir passer de l'information à l'action. First Tennessee utilise des techniques d'analyse prédictive et logistique au sein d'une solution analytique pour mieux comprendre toutes ses données. Résultat : une prise de décision améliorée qui optimise interactions avec les clients. (1 Mo)

Solutions connexes
IBM SPSS Advanced Statistics

Obtenez des conclusions plus précises lorsque vous analysez des relations complexes à l'aide de techniques de modélisation univariée et multivariée.

Explorer SPSS Advanced Statistics
IBM SPSS Modeler

Stimulez le retour sur investissements à l'aide d'un outil de science des données fonctionnant par par glisser-déposer.

Explorer SPSS Modeler
IBM SPSS Regression

Prévoyez les résultats catégoriels et appliquez une large gamme de procédures de régression non linéaire.

Explorer SPSS Regression
IBM Watson Studio

Créez et entraînez des modèles d'IA et d'apprentissage automatique, préparez et analysez les données, le tout dans un environnement de cloud hybride flexible.

Explorer Watson Studio
IBM Watson Discovery

Une solution intelligente et simple qui permet d'exploiter et d'explorer toutes vos données non structurées via l'exploration cognitive, une puissante fonction d'analyse de texte et l'apprentissage automatique.

Explorer Watson Discovery
Ressources Esai gratuit de 14 jours d'IBM SPSS Statistics IBM SPSS Statistics - Démo d'analyse statistique En savoir plus sur IBM Watson Studio Local