Régression logistique

Prévoyez les résultats et prenez de meilleures décisions.

Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.

Qu'est-ce que la régression logistique ?

Ce type d'analyse statistique (également appelé modèle Logit) est souvent utilisé pour l'analyse prédictive et la modélisation, et englobe aussi des applications d'apprentissage automatique. Dans cette approche analytique, la variable dépendante est finie ou catégorique, soit de type A ou B (régression binaire), soit une plage d'options finies A, B, C ou D (régression multinomiale). La régression logistique est utilisée dans les logiciels de statistique pour comprendre la relation entre la variable dépendante et une ou plusieurs variables indépendantes, en estimant les probabilités à l'aide d'une équation de régression logistique. 

Ce type d'analyse peut vous aider à prévoir la probabilité qu'un événement se produise ou qu'un choix soit fait. Par exemple, vous pouvez vouloir savoir quelle est la probabilité qu'un visiteur choisisse une offre sur votre site Web, ou au contraire qu'il la rejette (variable dépendante). Votre analyse peut examiner des caractéristiques connues des visiteurs, telles que les sites d'où ils proviennent, leurs visites répétées sur votre site, le comportement sur votre site (variables indépendantes). Les modèles de régression logistique vous aident à déterminer la probabilité du type de visiteurs susceptibles d'accepter ou de rejeter l'offre. Le résultat est que vous pouvez prendre de meilleures décisions sur la promotion de votre offre ou concernant l'offre elle-même.


Apprentissage automatique et modèles prédictifs

L'apprentissage automatique utilise des concepts statistiques pour permettre aux machines (les ordinateurs) d'"apprendre" sans programmation explicite. Une approche logistique convient mieux lorsque la tâche que la machine apprend est basée sur deux valeurs, ou sur uneclassification binaire. En se basant sur l'exemple ci-dessus, votre ordinateur pourrait utiliser ce type d'analyse pour prendre des décisions concernant la promotion de votre offre et choisir par lui-même les actions à entreprendre. Au fur et à mesure que des données supplémentaires sont fournies,  il peut apprendre à améliorer ses décisions et ses actions au fil du temps.

Voici plusieurs types de modèles prédictifs qui utilisent l'analyse logistique :

  • Modèle linéaire généralisé
  • Choix discret
  • Logit multinomial
  • Logit mixte
  • Probit
  • Probit multinomial
  • Logit ordonné

L'importance de la régression logistique

Les modèles prédictifs construits à l'aide de cette approche peuvent introduire une différence avantageuse dans votre entreprise ou votre organisation. Parce que ces modèles vous aident à comprendre les relations et à prévoir les résultats, vous pouvez agir pour améliorer la prise de décision. Pour exemple, l'équipe analytique d'un fabricant peut utiliser l'analyse de régression logistique  dans un progiciel statistique pour détecter la probabilité entre les pannes des composants de machines et la durée de conservation de ces composants en stock. Avec les informations reçues de cette analyse, l'équipe peut décider d'ajuster les plannings de livraison ou les durées d'installation afin d'éliminer de futures pannes.

En médecine, cette approche analytique peut être utilisée pour prévoir la probabilité d'une maladie ou d'une pathologie pour une population donnée, ce qui signifie que des soins préventifs peuvent être mis en place. Les entreprises peuvent utiliser cette approche pour détecter les tendances permettant de fidéliser davantage les employés ou de créer des produits plus rentables en analysant le comportement des acheteurs. Dans l'univers de l'entreprise, ce type d'analyse est appliquée par  des spécialistes des données dont l'objectif est clair : analyser et interpréter des données numériques complexes.


Concepts et applications statistiques

Certes, l'analyse multinomiale peut être utile lorsque vous examinez une plage de résultats catégoriques : A, B, C ou D. Mais l'analyse binaire — oui ou non, présent ou absent — est plus souvent utilisée. Bien que les résultats soient limités, les possibilités ne le sont pas. La régression logistique binaire permet de tout examiner, depuis des statistiques sur le baseball en passant par les risques de glissements de terrain ou l'analyse graphologique.

Cette approche analytique s'avère également utile pour toute une gamme de concepts et d'applications statistiques :

  • Analyse textuelle
  • Détection automatique d'interaction du chi carré (CHAID)
  • Analyse conjointe
  • Analyse de bootstrap
  • Régression non linéaire
  • Logiciel de statistiques et d'analyse de cluster
  • Simulation de Monte-Carlo
  • Statistiques descriptives

L'utilisation de logiciels d'analyse statistique est très intéressante pour des approches telles que l'analyse de régression logistique, l'analyse multivariée, les réseaux de neurones, les arbres de décision et la régression linéaire. Cependant, n'oubliez pas ce point : les solutions matérielles et de cloud doivent également être envisagées si vous devez traiter des fichiers très volumineux sur site, dans le cloud ou dans une configuration de cloud hybride.


Hypothèses fondamentales d'une régression logistique efficace

Quand cette approche est-elle la plus efficace ou la plus inefficace ?

Bien que la régression logistique binaire soit plus souvent utilisée et évoquée, il peut être utile de déterminer dans quels cas chaque type est le plus efficace.

La régression multinomiale  peut être utilisée pour classifier des sujets en groupes basés sur une plage catégorique de variables pour prévoir un comportement . Par exemple, vous pouvez effectuer une enquête dans laquelle les participants sont invités à sélectionner leur produit favori parmi plusieurs produits concurrents. Vous pouvez créer des profils des personnes les plus susceptibles d'être intéressées par votre produit, et planifier votre stratégie publicitaire en conséquence.

La régression binaire  est particulièrement utile lorsque vous souhaitez modéliser la probabilité de l'événement pour une variable de réponse catégorielle avec deux résultats. Un responsable des prêts veut savoir si le client suivant est susceptible de ne pas rembourser un prêt, ou s'il est au contraire fiable. L'analyse binaire permet d'évaluer le risque de concéder un crédit à un client particulier.


Dangers potentiels

 

Il est également utile de comprendre dans quels cas ce type d'analyse peut être inefficace, selon  Classroom – The Disadvantages of Logistic Regression (lien externe au site ibm.com). Voici quelques dangers à surveiller :

  • Les variables indépendantes doivent être valides. Des variables incorrectes ou incomplètes nuisent à la valeur prédictive d'un modèle.
  • Évitez les résultats continus. Les températures, les durées ou tout ce qui a une fin ouverte rendent le modèle beaucoup moins précis.
  • N'utilisez pas de données apparentées entre elles. Si certaines observations sont apparentées à d'autres, le modèle aura tendance à exagérer leur signification.
  • Méfiez-vous des surajustements ou des surestimations. Ces modèles d'analyse statistique sont précis, mais leur exactitude n'est pas infaillible ou exempte d'écart.

Outils et comparaisons

Outils
Vous pouvez utiliser Microsoft Excel pour effectuer cette approche analytique, mais dans presque toutes les applications, y compris la régression logistique conditionnelle, la régression logistique multiple et la régression logistique multivariée, il est conseillé d'utiliser des progiciels de code source ouvert (régression logistique avec R) ou des progiciels du commerce (régression logistique SPSS) pour analyser les données et appliquer des techniques plus  efficacement. Vous pouvez effectuer l'analyse dans Microsoft Excel ou utiliser des progiciels statistiques tels que IBM SPSS® Statistics, qui simplifient considérablement l'utilisation d'équations de régression logistique, de modèles de régression logistique et de formules de régression logistique.

Comparaison avec la régression linéaire
Quand utiliser une analyse linéaire ou logistique est une question qui se pose souvent. À la base, l'analyse de régression linéaire a une application plus efficace lorsque la variable dépendante est ouverte ou continue : c'est le cas des distances astronomiques ou des températures, par exemple. Utilisez l'approche logistique lorsque la variable dépendante est limitée à une plage de valeurs ou lorsqu'elle est catégorielle : A ou B, ou A, B, C ou D.


Exemples de cas réussis de régression logistique


Solutions connexes

IBM SPSS Advanced Statistics

Obtenez des conclusions plus précises lorsque vous analysez des relations complexes à l'aide de techniques de modélisation univariée et multivariée.


IBM SPSS Modeler

Stimulez le retour sur investissements à l'aide d'un outil de science des données fonctionnant par glisser-déposer.


IBM SPSS Regression

Prévoyez les résultats catégoriels et appliquez une large gamme de procédures de régression non linéaire.


IBM Watson Studio

Créez et entraînez des modèles d'IA et d'apprentissage automatique, préparez et analysez les données, le tout dans un environnement de cloud hybride flexible.


IBM Watson Discovery

Une solution intelligente et simple qui permet d'exploiter et d'explorer toutes vos données non structurées via l'exploration cognitive, une puissante fonction d'analyse de texte et l'apprentissage automatique.