Les coefficients en régression logistique, et , sont estimées en utilisant l’estimateur du maximum de vraisemblance (MLE). L’idée centrale du MLE est de trouver les paramètres qui rendent les données observées les plus « probables » dans le cadre du modèle de régression logistique.
Dans la régression logistique, nous modélisons la probabilité que la variable cible est 1 (par exemple, « approuvé ») étant donné une entrée en utilisant la fonction logistique (sigmoïde) :
Le MLE essaie différentes combinaisons de et et, pour chaque combinaison, pose la question suivante : « Quelle est la probabilité de voir les résultats réels dans nos données, compte tenu de ces paramètres ?
Pour ce faire, on utilise la fonction de vraisemblance, qui multiplie les probabilités prédites pour chaque point de données :
-Si =1 (« approuvé »), nous voulons que la probabilité prédite du modèle soit aussi proche que 1. Le terme résout ce problème. Si les données réelles observées sur y1 correspondent effectivement à « approuvé » ou 1, le terme sera 1.
-Si = 0, nous voulons que la probabilité prédite soit proche de 0. Le terme gère ce cas. Si les données réelles observées sur est « non approuvé », ou 0, la valeur sera sera proche de 0, alors sera proche de 1.
Ainsi, pour chaque point de données, nous multiplions soit OU , selon que l’étiquette réelle est 1 ou 0. Le produit sur tous les exemples nous donne une valeur unique : la vraisemblance de voir l’ensemble du jeu de données dans le modèle actuel. Comme nous le constatons, si les résultats prédits (à l’aide des paramètres et ) sont conformes aux données observées, la valeur de la vraisemblance sera maximisée. La raison pour laquelle nous multiplions toutes les probabilités est que nous supposons que les résultats sont indépendants les uns des autres. En d’autres termes, les chances d’approbation d’une personne ne doivent pas influencer celles d’une autre.
Comme ce produit peut devenir extrêmement petit, nous travaillons généralement avec le log-vraisemblance, qui transforme le produit en somme et qui est plus facile à calculer et à optimiser.
Pour trouver les valeurs de et qui maximisent le log-vraisemblance, nous utilisons la descente de gradient, un algorithme d’optimisation itératif. À chaque étape, nous calculons comment le log-vraisemblance change par rapport à chaque paramètre (par exemple, son gradient), puis nous modifions légèrement les paramètres dans la direction qui augmente la vraisemblance. Au fil du temps, ce processus converge vers les valeurs de et qui correspondent le mieux aux données.