Qu’est-ce que la régression logistique ?
Appliquer la régression logistique avec watsonx.ai S’abonner aux actualités de l’IA
Illustration montrant les processus d’analyse des données et de prise de décision dans la régression logistique pour établir de meilleures prédictions
Qu’est-ce que la régression logistique ?

La régression logistique estime la probabilité qu’un événement se produise (a voté ou n’a pas voté par exemple), sur la base d’un jeu de données spécifique de variables indépendantes.

Ce type de modèle statistique (également appelé modèle logit) est souvent utilisé à des fins de classification et d’analytique prédictive. Comme le résultat est une probabilité, la variable dépendante est comprise entre 0 et 1. Dans la régression logistique, une transformation logit est appliquée aux odds, c’est-à-dire à la probabilité de succès divisée par la probabilité d’échec. Elle est également connue sous le nom de log-odds ou logarithme naturel de l’odds ratio, et cette fonction logistique est représentée par les formules suivantes : 

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Dans cette équation de régression logistique, logit(pi) est la variable dépendante ou de réponse et x est la variable indépendante. Le paramètre bêta, ou coefficient, de ce modèle est généralement estimé via l’estimateur du maximum de vraisemblance (MLE). Cette méthode teste différentes valeurs bêta dans diverses itérations afin de trouver la meilleure adéquation du log-odds. Toutes ces itérations produisent la fonction de log-vraisemblance, et la régression logistique cherche à optimiser cette fonction pour trouver le meilleur estimateur de paramètre. Une fois le coefficient optimal (ou les coefficients s’il y a plus d’une variable indépendante) trouvé, les probabilités conditionnelles de chaque observation peuvent être calculées, subir une transformation logarithmique et être additionnées pour obtenir une probabilité prédite. Dans le contexte de la classification binaire, une probabilité inférieure à 0,5 prédira 0 tandis qu’une probabilité supérieure à 0,5 prédira 1.  Une fois le modèle calculé, il convient d’évaluer la capacité du modèle à prédire la variable dépendante, ce que l’on appelle la qualité de l’ajustement. Le test de Hosmer-Lemeshow est une méthode populaire qui permet d’évaluer l’ajustement du modèle.

Pourquoi la gouvernance de l’IA est un impératif stratégique pour la mise à l’échelle de l’IA d’entreprise

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe

Obtenir l’ebook sur Presto

Interprétation de la régression logistique

 

Il peut être difficile de comprendre les log-odds dans le contexte d’une analyse des données via régression logistique. Par conséquent, l’exponentiation des estimations bêta est une pratique couramment utilisée pour transformer les résultats en odds ratio (OR), ce qui en facilite l’interprétation. L’OR représente les chances qu’un résultat se produise compte tenu d’un événement particulier, par rapport aux chances que le résultat se produise en l’absence de cet événement. Si l’OR est supérieur à 1, l’événement est associé à des chances plus élevées de générer un résultat spécifique. Inversement, si l’OR est inférieur à 1, l’événement est associé à des chances plus faibles que ce résultat se produise. Sur la base de l’équation ci-dessus, l’interprétation d’un odds ratio peut être représentée comme suit : les chances de réussite sont multipliées par exp(cB_1) à chaque augmentation de c-unit dans x. Supposons par exemple que nous devions estimer les chances de survie d’une personne sur le Titanic étant donné que cette personne était un homme, et que l’odds ratio pour les hommes était de 0,0810. Nous interpréterions l’odds ratio comme la diminution des chances de survie des hommes par un facteur de 0,0810 par rapport aux femmes, toutes les autres variables restant constantes.

 

 

Lire le livre blanc
Régression linéaire et régression logistique

La régression linéaire et la régression logistique font toutes deux partie des modèles les plus populaires dans le domaine de la science des données, et les outils open source, comme Python et R, en accélèrent et en facilitent les calculs.

Les modèles de régression linéaire permettent d’identifier la relation entre une variable dépendante continue et une ou plusieurs variables indépendantes. Lorsqu’il n’y a qu’une seule variable indépendante et une seule variable dépendante, on parle de régression linéaire simple, mais à mesure que le nombre de variables indépendantes augmente, on parle de régression linéaire multiple. Pour chaque type de régression linéaire, le modèle cherche à tracer une ligne de meilleur ajustement en s’appuyant sur un ensemble de points de données, généralement calculé à l’aide de la méthode des moindres carrés.

Comme la régression linéaire, la régression logistique sert également à estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes, mais elle est utilisée pour faire une prédiction sur une variable nominale et non sur une variable continue. Une variable nominale peut être : vrai ou faux, oui ou non, 1 ou 0, etc. En outre, l’unité de mesure diffère de celle de la régression linéaire, car elle donne une probabilité, mais la fonction logit transforme la courbe logistique en ligne droite.  

Bien que les deux modèles soient utilisés dans le cadre de l’analyse de régression pour faire des prédictions sur les résultats futurs, la régression linéaire est généralement plus facile à comprendre. En outre, la régression linéaire ne nécessite pas d’échantillon aussi important que la régression logistique, mais un échantillon adéquat pour représenter les valeurs de toutes les catégories de réponse. En l’absence d’un échantillon représentatif plus important, le modèle pourrait ne pas être suffisamment puissant statistiquement pour détecter un effet significatif.

Types de régression logistique

Il existe trois types de modèles de régression logistique, qui sont définis en fonction de la réponse nominale.

  • Régression logistique binaire : Dans cette approche, la réponse ou la variable dépendante est dichotomique par nature, c’est-à-dire qu’elle n’a que deux résultats possibles (par exemple, 0 ou 1). Parmi les exemples populaires de son utilisation, citons la prédiction du caractère spam ou non d’un e-mail, ou de la nature maligne ou non d’une tumeur. Dans le champ de la régression logistique, il s’agit de l’approche la plus couramment utilisée et, plus généralement, de l’une des méthodes de classification binaire les plus courantes.
  • Régression logistique multinomiale : Dans ce type de modèle de régression logistique, la variable dépendante a trois résultats possibles ou plus ; cependant, ces valeurs n’ont pas d’ordre spécifié.  Par exemple, les studios de cinéma souhaitent prédire le genre de film qu’un cinéphile est susceptible d’aller voir pour mettre en place des pratiques de commercialisation plus efficaces. Un modèle de régression logistique multinomiale peut aider le studio à déterminer l’importance de l’influence de l’âge, du sexe et du statut marital d’une personne sur le type de film qu’elle préfère. Le studio peut ensuite orienter la campagne publicitaire d’un film spécifique vers un groupe de personnes susceptibles d’aller le voir.
  • Régression logistique ordinale : Ce type de modèle de régression logistique est utilisé lorsque la variable de réponse a trois résultats possibles ou plus, mais dans ce cas, ces valeurs ont un ordre défini. Parmi les exemples de réponses ordinales, citons les échelles de notation de A à F ou les échelles de notation de 1 à 5. 
Un aperçu de ce qui se passe dans la tête d’un data scientist
Régression logistique et machine learning

Dans le domaine du machine learning, la régression logistique appartient à la famille de modèles de machine learning supervisés. Ce type de régression est également considéré comme un modèle discriminant, ce qui signifie qu’il tente de distinguer les classes (ou catégories). Contrairement aux algorithmes génératifs, comme les algorithmes bayésiens naïfs, ce modèle ne peut pas, comme son nom l’indique, générer des informations (comme une image) de la classe qu’il tente de prédire (par exemple, une image de chat).

Précédemment, nous avons expliqué comment la régression logistique optimisait la fonction de log-vraisemblance pour déterminer les coefficients bêta du modèle. Ce procédé diffère légèrement dans le contexte du machine learning. Dans le cadre du machine learning, le log de vraisemblance négatif est utilisé comme fonction de perte, en utilisant le processus de descente de gradient pour trouver le maximum global. Il s’agit simplement d’une autre façon d’arriver aux mêmes estimations que celles évoquées ci-dessus.

La régression logistique peut également être sujette au surajustement, en particulier lorsqu’il existe un nombre élevé de variables de prédicteur dans le modèle. Un mécanisme de régularisation est généralement utilisé pour pénaliser les paramètres à grands coefficients lorsque le modèle présente une dimensionnalité élevée.

Scikit-Learn (lien externe à ibm.com) fournit une documentation précieuse pour en savoir plus sur le modèle de machine learning basé sur la régression logistique.

Cas d’utilisation de la régression logistique

La régression logistique est couramment utilisée pour résoudre les problèmes en matière de prédiction et de classification. Voici quelques exemples :

  • Détection des fraudes : Les modèles de régression logistique peuvent aider les équipes à identifier les anomalies dans les données, qui peuvent prédire une fraude. Certains comportements ou certaines caractéristiques sont parfois plus souvent associés à des activités frauduleuses, une information particulièrement utile aux banques et autres institutions financières pour protéger leurs clients. Les entreprises basées sur le SaaS ont également commencé à adopter ces pratiques pour éliminer les faux comptes utilisateurs de leurs jeux de données lors de l’analyse des données à des fins d’évaluation des performances métier.
  • Prédiction des maladies : En médecine, cette approche analytique peut être utilisée pour prédire la probabilité de l’apparition d’une maladie au sein d’une population donnée. Les établissements de santé peuvent mettre en place des soins préventifs pour les personnes les plus susceptibles d’être touchées par certaines maladies.
  • Prédiction de l’attrition : Des comportements spécifiques peuvent indiquer une attrition dans différents départements d’une organisation. Par exemple, il pourrait être utile aux ressources humaines et à la direction de savoir si des employés très performants risquent de quitter l’organisation. Ces informations peuvent initier des conversations pour comprendre les problèmes de l’entreprise, au niveau de la culture ou de la rémunération par exemple. Le service commercial pourrait également avoir besoin de savoir qui parmi ses clients risquerait de s’adresser à d’autres entreprises. Cela pourrait inciter les équipes à mettre en place une stratégie de fidélisation pour éviter les pertes de revenus.
Exemples régression logistique réussie Évaluer les risques liés aux crédits

La régression logistique binaire peut aider les banquiers à évaluer les risques liés aux crédits. Découvrez comment utiliser un échantillon aléatoire pour créer un modèle de régression logistique et classer les clients dans deux catégories de risques : bons ou mauvais.

Augmenter les bénéfices dans le secteur bancaire

First Tennessee Bank a augmenté sa rentabilité en utilisant l’analytique prédictive et la régression logistique avec le logiciel IBM SPSS et a réalisé des augmentations allant jusqu’à 600 % dans ses campagnes de ventes croisées. First Tennessee utilise des techniques d’analytique prédictive et de régression logistique dans sa solution d’analyse afin de mieux comprendre toutes ses données.

Solutions connexes
watsonx.ai

Passez à l'étape suivante pour commencer à opérationnaliser et à appliquer l'IA générative et le machine learning à votre entreprise.

Découvrir watsonx.ai
IBM SPSS Modeler

Générez un retour sur investissement grâce à un outil de science des données par glisser-déposer.

Découvrir SPSS Modeler
IBM Watson Studio

Créez et entraînez des modèles d’IA et de machine learning, préparez et analysez des données, le tout dans un environnement de cloud hybride flexible.

Découvrir Watson Studio
Ressources connexes Mise en œuvre de la régression logistique de A à Z en Python

Découvrez comment entraîner votre propre modèle de régression binaire personnalisé. Découvrez comment générer des probabilités, classer des exemples et comprendre la descente de gradient.

Régression logistique avec TensorFlow

Créez un Jupyter Notebook avec du code Python définissant la régression logistique, puis utilisez TensorFlow pour la mettre en œuvre.

Entraînement avec chiffrement homomorphe de 30 000 modèles de régression logistique

Des chercheurs d’IBM montrent que l’utilisation du schéma de chiffrement homomorphe CKKS permet d’entraîner simultanément un grand nombre de modèles de régression logistique.

Passez à l’étape suivante

Élaborez votre stratégie d’IA grâce à une seule et même plateforme collaborative d’IA et de données. Avec IBM watsonx, vous exploitez des données fiables pour entraîner, valider, régler et déployer vos modèles afin de faire évoluer l’IA et d’accélérer son impact à l’échelle de l’entreprise.

Découvrir watsonx Réserver une démo en direct