La régression logistique estime la probabilité qu’un événement se produise (a voté ou n’a pas voté par exemple), sur la base d’un jeu de données spécifique de variables indépendantes.
Ce type de modèle statistique (également appelé modèle logit) est souvent utilisé à des fins de classification et d’analyse prédictive. Comme le résultat est une probabilité, la variable dépendante est comprise entre 0 et 1. Dans la régression logistique, une transformation logit est appliquée aux odds, c’est-à-dire à la probabilité de succès divisée par la probabilité d’échec. Elle est également connue sous le nom de log-odds ou logarithme naturel de l’odds ratio, et cette fonction logistique est représentée par les formules suivantes :
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
Dans cette équation de régression logistique, logit(pi) est la variable dépendante ou de réponse et x est la variable indépendante. Le paramètre bêta, ou coefficient, de ce modèle est généralement estimé via l’estimateur du maximum de vraisemblance (MLE). Cette méthode teste différentes valeurs bêta dans diverses itérations afin de trouver la meilleure adéquation du log-odds. Toutes ces itérations produisent la fonction de log-vraisemblance, et la régression logistique cherche à optimiser cette fonction pour trouver le meilleur estimateur de paramètre. Une fois le coefficient optimal (ou les coefficients s’il y a plus d’une variable indépendante) trouvé, les probabilités conditionnelles de chaque observation peuvent être calculées, subir une transformation logarithmique et être additionnées pour obtenir une probabilité prédite. Dans le contexte de la classification binaire, une probabilité inférieure à 0,5 prédira 0 tandis qu’une probabilité supérieure à 0,5 prédira 1. Une fois le modèle calculé, il convient d’évaluer la capacité du modèle à prédire la variable dépendante, ce que l’on appelle la qualité de l’ajustement. Le test de Hosmer-Lemeshow est une méthode populaire qui permet d’évaluer l’ajustement du modèle.
Il peut être difficile de comprendre les log-odds dans le contexte d’une analyse des données via régression logistique. Par conséquent, l’exponentiation des estimations bêta est une pratique couramment utilisée pour transformer les résultats en odds ratio (OR), ce qui en facilite l’interprétation. L’OR représente les chances qu’un résultat se produise compte tenu d’un événement particulier, par rapport aux chances que le résultat se produise en l’absence de cet événement. Si l’OR est supérieur à 1, l’événement est associé à des chances plus élevées de générer un résultat spécifique. Inversement, si l’OR est inférieur à 1, l’événement est associé à des chances plus faibles que ce résultat se produise. Sur la base de l’équation ci-dessus, l’interprétation d’un odds ratio peut être représentée comme suit : les chances de réussite sont multipliées par exp(cB_1) à chaque augmentation de c-unit dans x. Supposons par exemple que nous devions estimer les chances de survie d’une personne sur le Titanic étant donné que cette personne était un homme, et que l’odds ratio pour les hommes était de 0,0810. Nous interpréterions l’odds ratio comme la diminution des chances de survie des hommes par un facteur de 0,0810 par rapport aux femmes, toutes les autres variables restant constantes.
La régression linéaire et la régression logistique font toutes deux partie des modèles les plus populaires dans le domaine de la science des données, et les outils open source, comme Python et R, en accélèrent et en facilitent les calculs.
Les modèles de régression linéaire permettent d’identifier la relation entre une variable dépendante continue et une ou plusieurs variables indépendantes. Lorsqu’il n’y a qu’une seule variable indépendante et une seule variable dépendante, on parle de régression linéaire simple, mais à mesure que le nombre de variables indépendantes augmente, on parle de régression linéaire multiple. Pour chaque type de régression linéaire, le modèle cherche à tracer une ligne de meilleur ajustement en s’appuyant sur un ensemble de points de données, généralement calculé à l’aide de la méthode des moindres carrés.
Comme la régression linéaire, la régression logistique sert également à estimer la relation entre une variable dépendante et une ou plusieurs variables indépendantes, mais elle est utilisée pour faire une prédiction sur une variable nominale et non sur une variable continue. Une variable nominale peut être : vrai ou faux, oui ou non, 1 ou 0, etc. En outre, l’unité de mesure diffère de celle de la régression linéaire, car elle donne une probabilité, mais la fonction logit transforme la courbe logistique en ligne droite.
Bien que les deux modèles soient utilisés dans le cadre de l’analyse de régression pour faire des prédictions sur les résultats futurs, la régression linéaire est généralement plus facile à comprendre. En outre, la régression linéaire ne nécessite pas d’échantillon aussi important que la régression logistique, mais un échantillon adéquat pour représenter les valeurs de toutes les catégories de réponse. En l’absence d’un échantillon représentatif plus important, le modèle pourrait ne pas être suffisamment puissant statistiquement pour détecter un effet significatif.
Il existe trois types de modèles de régression logistique, qui sont définis en fonction de la réponse nominale.
Dans le domaine du machine learning, la régression logistique appartient à la famille de modèles de machine learning supervisés. Ce type de régression est également considéré comme un modèle discriminant, ce qui signifie qu’il tente de distinguer les classes (ou catégories). Contrairement aux algorithmes génératifs, comme les algorithmes bayésiens naïfs, ce modèle ne peut pas, comme son nom l’indique, générer des informations (comme une image) de la classe qu’il tente de prédire (par exemple, une image de chat).
Précédemment, nous avons expliqué comment la régression logistique optimisait la fonction de log-vraisemblance pour déterminer les coefficients bêta du modèle. Ce procédé diffère légèrement dans le contexte du machine learning. Dans le cadre du machine learning, le log de vraisemblance négatif est utilisé comme fonction de perte, en utilisant le processus de descente de gradient pour trouver le maximum global. Il s’agit simplement d’une autre façon d’arriver aux mêmes estimations que celles évoquées ci-dessus.
La régression logistique peut également être sujette au surajustement, en particulier lorsqu’il existe un nombre élevé de variables de prédicteur dans le modèle. Un mécanisme de régularisation est généralement utilisé pour pénaliser les paramètres à grands coefficients lorsque le modèle présente une dimensionnalité élevée.
Scikit-Learn (lien externe à ibm.com) fournit une documentation précieuse pour en savoir plus sur le modèle de machine learning basé sur la régression logistique.
La régression logistique est couramment utilisée pour résoudre les problèmes en matière de prédiction et de classification. Voici quelques exemples :
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez des approches d’apprentissage supervisées telles que les machines à vecteurs de support et les classificateurs probabilistes.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.