Accueil
Thèmes
Logistic Regression
La régression logistique estime la probabilité qu’un événement se produise (a voté ou n’a pas voté par exemple), sur la base d’un jeu de données spécifique de variables indépendantes.
Ce type de modèle statistique (également appelé modèle logit) est souvent utilisé à des fins de classification et d’analytique prédictive. Comme le résultat est une probabilité, la variable dépendante est comprise entre 0 et 1. Dans la régression logistique, une transformation logit est appliquée aux odds, c’est-à-dire à la probabilité de succès divisée par la probabilité d’échec. Elle est également connue sous le nom de log-odds ou logarithme naturel de l’odds ratio, et cette fonction logistique est représentée par les formules suivantes :
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Dans cette équation de régression logistique, logit(pi) est la variable dépendante ou de réponse et x est la variable indépendante. Le paramètre bêta, ou coefficient, de ce modèle est généralement estimé via l’estimateur du maximum de vraisemblance (MLE). Cette méthode teste différentes valeurs bêta dans diverses itérations afin de trouver la meilleure adéquation du log-odds. Toutes ces itérations produisent la fonction de log-vraisemblance, et la régression logistique cherche à optimiser cette fonction pour trouver le meilleur estimateur de paramètre. Une fois le coefficient optimal (ou les coefficients s’il y a plus d’une variable indépendante) trouvé, les probabilités conditionnelles de chaque observation peuvent être calculées, subir une transformation logarithmique et être additionnées pour obtenir une probabilité prédite. Dans le contexte de la classification binaire, une probabilité inférieure à 0,5 prédira 0 tandis qu’une probabilité supérieure à 0,5 prédira 1. Une fois le modèle calculé, il convient d’évaluer la capacité du modèle à prédire la variable dépendante, ce que l’on appelle la qualité de l’ajustement. Le test de Hosmer-Lemeshow est une méthode populaire qui permet d’évaluer l’ajustement du modèle.
Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.
Il peut être difficile de comprendre les log-odds dans le contexte d’une analyse des données via régression logistique. Par conséquent, l’exponentiation des estimations bêta est une pratique couramment utilisée pour transformer les résultats en odds ratio (OR), ce qui en facilite l’interprétation. L’OR représente les chances qu’un résultat se produise compte tenu d’un événement particulier, par rapport aux chances que le résultat se produise en l’absence de cet événement. Si l’OR est supérieur à 1, l’événement est associé à des chances plus élevées de générer un résultat spécifique. Inversement, si l’OR est inférieur à 1, l’événement est associé à des chances plus faibles que ce résultat se produise. Sur la base de l’équation ci-dessus, l’interprétation d’un odds ratio peut être représentée comme suit : les chances de réussite sont multipliées par exp(cB_1) à chaque augmentation de c-unit dans x. Supposons par exemple que nous devions estimer les chances de survie d’une personne sur le Titanic étant donné que cette personne était un homme, et que l’odds ratio pour les hommes était de 0,0810. Nous interpréterions l’odds ratio comme la diminution des chances de survie des hommes par un facteur de 0,0810 par rapport aux femmes, toutes les autres variables restant constantes.
La régression linéaire et la régression logistique font toutes deux partie des modèles les plus populaires dans le domaine de la science des données, et les outils open source, comme Python et R, en accélèrent et en facilitent les calculs.
Les modèles de régression linéaire permettent d’identifier la relation entre une variable dépendante continue et une ou plusieurs variables indépendantes. Lorsqu’il n’y a qu’une seule variable indépendante et une seule variable dépendante, on parle de régression linéaire simple, mais à mesure que le nombre de variables indépendantes augmente, on parle de régression linéaire multiple. Pour chaque type de régression linéaire, le modèle cherche à tracer une ligne de meilleur ajustement en s’appuyant sur un ensemble de points de données, généralement calculé à l’aide de la méthode des moindres carrés.
Comme la régression linéaire, la régression logistique sert également à estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes, mais elle est utilisée pour faire une prédiction sur une variable nominale et non sur une variable continue. Une variable nominale peut être : vrai ou faux, oui ou non, 1 ou 0, etc. En outre, l’unité de mesure diffère de celle de la régression linéaire, car elle donne une probabilité, mais la fonction logit transforme la courbe logistique en ligne droite.
Bien que les deux modèles soient utilisés dans le cadre de l’analyse de régression pour faire des prédictions sur les résultats futurs, la régression linéaire est généralement plus facile à comprendre. En outre, la régression linéaire ne nécessite pas d’échantillon aussi important que la régression logistique, mais un échantillon adéquat pour représenter les valeurs de toutes les catégories de réponse. En l’absence d’un échantillon représentatif plus important, le modèle pourrait ne pas être suffisamment puissant statistiquement pour détecter un effet significatif.
Il existe trois types de modèles de régression logistique, qui sont définis en fonction de la réponse nominale.
Dans le domaine du machine learning, la régression logistique appartient à la famille de modèles de machine learning supervisés. Ce type de régression est également considéré comme un modèle discriminant, ce qui signifie qu’il tente de distinguer les classes (ou catégories). Contrairement aux algorithmes génératifs, comme les algorithmes bayésiens naïfs, ce modèle ne peut pas, comme son nom l’indique, générer des informations (comme une image) de la classe qu’il tente de prédire (par exemple, une image de chat).
Précédemment, nous avons expliqué comment la régression logistique optimisait la fonction de log-vraisemblance pour déterminer les coefficients bêta du modèle. Ce procédé diffère légèrement dans le contexte du machine learning. Dans le cadre du machine learning, le log de vraisemblance négatif est utilisé comme fonction de perte, en utilisant le processus de descente de gradient pour trouver le maximum global. Il s’agit simplement d’une autre façon d’arriver aux mêmes estimations que celles évoquées ci-dessus.
La régression logistique peut également être sujette au surajustement, en particulier lorsqu’il existe un nombre élevé de variables de prédicteur dans le modèle. Un mécanisme de régularisation est généralement utilisé pour pénaliser les paramètres à grands coefficients lorsque le modèle présente une dimensionnalité élevée.
Scikit-Learn (lien externe à ibm.com) fournit une documentation précieuse pour en savoir plus sur le modèle de machine learning basé sur la régression logistique.
La régression logistique est couramment utilisée pour résoudre les problèmes en matière de prédiction et de classification. Voici quelques exemples :
La régression logistique binaire peut aider les banquiers à évaluer les risques liés aux crédits. Découvrez comment utiliser un échantillon aléatoire pour créer un modèle de régression logistique et classer les clients dans deux catégories de risques : bons ou mauvais.
First Tennessee Bank a augmenté sa rentabilité en utilisant l’analytique prédictive et la régression logistique avec le logiciel IBM SPSS et a réalisé des augmentations allant jusqu’à 600 % dans ses campagnes de ventes croisées. First Tennessee utilise des techniques d’analytique prédictive et de régression logistique dans sa solution d’analyse afin de mieux comprendre toutes ses données.
Passez à l'étape suivante pour commencer à opérationnaliser et à appliquer l'IA générative et le machine learning à votre entreprise.
Générez un retour sur investissement grâce à un outil de science des données par glisser-déposer.
Créez et entraînez des modèles d’IA et de machine learning, préparez et analysez des données, le tout dans un environnement de cloud hybride flexible.
Découvrez comment entraîner votre propre modèle de régression binaire personnalisé. Découvrez comment générer des probabilités, classer des exemples et comprendre la descente de gradient.
Créez un Jupyter Notebook avec du code Python définissant la régression logistique, puis utilisez TensorFlow pour la mettre en œuvre.
Des chercheurs d’IBM montrent que l’utilisation du schéma de chiffrement homomorphe CKKS permet d’entraîner simultanément un grand nombre de modèles de régression logistique.