Qu’est-ce que la régression logistique ?

Qu’est-ce que la régression logistique ?

La régression logistique estime la probabilité qu’un événement se produise (a voté ou n’a pas voté par exemple), sur la base d’un jeu de données spécifique de variables indépendantes.

Ce type de modèle statistique (également appelé modèle logit) est souvent utilisé à des fins de classification et d’analyse prédictive. Comme le résultat est une probabilité, la variable dépendante est comprise entre 0 et 1. Dans la régression logistique, une transformation logit est appliquée aux odds, c’est-à-dire à la probabilité de succès divisée par la probabilité d’échec. Elle est également connue sous le nom de log-odds ou logarithme naturel de l’odds ratio, et cette fonction logistique est représentée par les formules suivantes :

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Dans cette équation de régression logistique, logit(pi) est la variable dépendante ou de réponse et x est la variable indépendante. Le paramètre bêta, ou coefficient, de ce modèle est généralement estimé via l’estimateur du maximum de vraisemblance (MLE). Cette méthode teste différentes valeurs bêta dans diverses itérations afin de trouver la meilleure adéquation du log-odds. Toutes ces itérations produisent la fonction de log-vraisemblance, et la régression logistique cherche à optimiser cette fonction pour trouver le meilleur estimateur de paramètre. Une fois le coefficient optimal (ou les coefficients s’il y a plus d’une variable indépendante) trouvé, les probabilités conditionnelles de chaque observation peuvent être calculées, subir une transformation logarithmique et être additionnées pour obtenir une probabilité prédite. Dans le contexte de la classification binaire, une probabilité inférieure à 0,5 prédira 0 tandis qu’une probabilité supérieure à 0,5 prédira 1. Une fois le modèle calculé, il convient d’évaluer la capacité du modèle à prédire la variable dépendante, ce que l’on appelle la qualité de l’ajustement. Le test de Hosmer-Lemeshow est une méthode populaire qui permet d’évaluer l’ajustement du modèle.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Interprétation de la régression logistique

Il peut être difficile de comprendre les log-odds dans le contexte d’une analyse des données via régression logistique. Par conséquent, l’exponentiation des estimations bêta est une pratique couramment utilisée pour transformer les résultats en odds ratio (OR), ce qui en facilite l’interprétation. L’OR représente les chances qu’un résultat se produise compte tenu d’un événement particulier, par rapport aux chances que le résultat se produise en l’absence de cet événement. Si l’OR est supérieur à 1, l’événement est associé à des chances plus élevées de générer un résultat spécifique. Inversement, si l’OR est inférieur à 1, l’événement est associé à des chances plus faibles que ce résultat se produise. Sur la base de l’équation ci-dessus, l’interprétation d’un odds ratio peut être représentée comme suit : les chances de réussite sont multipliées par exp(cB_1) à chaque augmentation de c-unit dans x. Supposons par exemple que nous devions estimer les chances de survie d’une personne sur le Titanic étant donné que cette personne était un homme, et que l’odds ratio pour les hommes était de 0,0810. Nous interpréterions l’odds ratio comme la diminution des chances de survie des hommes par un facteur de 0,0810 par rapport aux femmes, toutes les autres variables restant constantes.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Régression linéaire et régression logistique

La régression linéaire et la régression logistique font toutes deux partie des modèles les plus populaires dans le domaine de la science des données, et les outils open source, comme Python et R, en accélèrent et en facilitent les calculs.

Les modèles de régression linéaire permettent d’identifier la relation entre une variable dépendante continue et une ou plusieurs variables indépendantes. Lorsqu’il n’y a qu’une seule variable indépendante et une seule variable dépendante, on parle de régression linéaire simple, mais à mesure que le nombre de variables indépendantes augmente, on parle de régression linéaire multiple. Pour chaque type de régression linéaire, le modèle cherche à tracer une ligne de meilleur ajustement en s’appuyant sur un ensemble de points de données, généralement calculé à l’aide de la méthode des moindres carrés.

Comme la régression linéaire, la régression logistique sert également à estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes, mais elle est utilisée pour faire une prédiction sur une variable nominale et non sur une variable continue. Une variable nominale peut être : vrai ou faux, oui ou non, 1 ou 0, etc. En outre, l’unité de mesure diffère de celle de la régression linéaire, car elle donne une probabilité, mais la fonction logit transforme la courbe logistique en ligne droite.

Bien que les deux modèles soient utilisés dans le cadre de l’analyse de régression pour faire des prédictions sur les résultats futurs, la régression linéaire est généralement plus facile à comprendre. En outre, la régression linéaire ne nécessite pas d’échantillon aussi important que la régression logistique, mais un échantillon adéquat pour représenter les valeurs de toutes les catégories de réponse. En l’absence d’un échantillon représentatif plus important, le modèle pourrait ne pas être suffisamment puissant statistiquement pour détecter un effet significatif.

Types de régression logistique

Il existe trois types de modèles de régression logistique, qui sont définis en fonction de la réponse nominale.

  • Régression logistique binaire : Dans cette approche, la réponse ou la variable dépendante est dichotomique par nature, c’est-à-dire qu’elle n’a que deux résultats possibles (par exemple, 0 ou 1). Parmi les exemples populaires de son utilisation, citons la prédiction du caractère indésirable ou non d’un e-mail, ou de la nature maligne ou non d’une tumeur. Dans le champ de la régression logistique, il s’agit de l’approche la plus couramment utilisée et, plus généralement, de l’une des méthodes de classification binaire les plus courantes.
  • Régression logistique multinomiale : Dans ce type de modèle de régression logistique, la variable dépendante a trois résultats possibles ou plus ; cependant, ces valeurs n’ont pas d’ordre spécifié. Par exemple, les studios de cinéma souhaitent prédire le genre de film qu’un cinéphile est susceptible d’aller voir pour mettre en place des pratiques de commercialisation plus efficaces. Un modèle de régression logistique multinomiale peut aider le studio à déterminer l’importance de l’influence de l’âge, du sexe et du statut marital d’une personne sur le type de film qu’elle préfère. Le studio peut ensuite orienter la campagne publicitaire d’un film spécifique vers un groupe de personnes susceptibles d’aller le voir.
  • Régression logistique ordinale : Ce type de modèle de régression logistique est utilisé lorsque la variable de réponse a trois résultats possibles ou plus, mais dans ce cas, ces valeurs ont un ordre défini. Parmi les exemples de réponses ordinales, citons les échelles de notation de A à F ou les échelles de notation de 1 à 5.

Régression logistique et machine learning

Dans le domaine du machine learning, la régression logistique appartient à la famille de modèles de machine learning supervisés. Ce type de régression est également considéré comme un modèle discriminant, ce qui signifie qu’il tente de distinguer les classes (ou catégories). Contrairement aux algorithmes génératifs, comme les algorithmes bayésiens naïfs, ce modèle ne peut pas, comme son nom l’indique, générer des informations (comme une image) de la classe qu’il tente de prédire (par exemple, une image de chat).

Précédemment, nous avons expliqué comment la régression logistique optimisait la fonction de log-vraisemblance pour déterminer les coefficients bêta du modèle. Ce procédé diffère légèrement dans le contexte du machine learning. Dans le cadre du machine learning, le log de vraisemblance négatif est utilisé comme fonction de perte, en utilisant le processus de descente de gradient pour trouver le maximum global. Il s’agit simplement d’une autre façon d’arriver aux mêmes estimations que celles évoquées ci-dessus.

La régression logistique peut également être sujette au surajustement, en particulier lorsqu’il existe un nombre élevé de variables de prédicteur dans le modèle. Un mécanisme de régularisation est généralement utilisé pour pénaliser les paramètres à grands coefficients lorsque le modèle présente une dimensionnalité élevée.

Scikit-Learn (lien externe à ibm.com) fournit une documentation précieuse pour en savoir plus sur le modèle de machine learning basé sur la régression logistique.

Cas d’utilisation de la régression logistique

La régression logistique est couramment utilisée pour résoudre les problèmes en matière de prédiction et de classification. Voici quelques exemples :

  • Détection des fraudes : Les modèles de régression logistique peuvent aider les équipes à identifier les anomalies dans les données, qui peuvent prédire une fraude. Certains comportements ou certaines caractéristiques sont parfois plus souvent associés à des activités frauduleuses, une information particulièrement utile aux banques et autres institutions financières pour protéger leurs clients. Les entreprises basées sur le SaaS ont également commencé à adopter ces pratiques pour éliminer les faux comptes utilisateurs de leurs jeux de données lors de l’analyse des données à des fins d’évaluation des performances métier.
  • Prédiction des maladies : En médecine, cette approche analytique peut être utilisée pour prédire la probabilité de l’apparition d’une maladie au sein d’une population donnée. Les établissements de santé peuvent mettre en place des soins préventifs pour les personnes les plus susceptibles d’être touchées par certaines maladies.
  • Prédiction de l’attrition : Des comportements spécifiques peuvent indiquer une attrition dans différents départements d’une organisation. Par exemple, il pourrait être utile aux ressources humaines et à la direction de savoir si des employés très performants risquent de quitter l’organisation. Ces informations peuvent initier des conversations pour comprendre les problèmes de l’entreprise, au niveau de la culture ou de la rémunération par exemple. Le service commercial pourrait également avoir besoin de savoir qui parmi ses clients risquerait de s’adresser à d’autres entreprises. Cela pourrait inciter les équipes à mettre en place une stratégie de fidélisation pour éviter les pertes de revenus.
Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct