Die Koeffizienten in der logistischen Regression, und , werden mithilfe der Maximum-Likelihood-Methode (MLE) geschätzt. Die Kernidee hinter dieser Methode besteht darin, die Parameter zu finden, die die beobachteten Daten im Rahmen des logistischen Regressionsmodells am wahrscheinlichsten machen.
Bei der logistischen Regression modellieren wir die Wahrscheinlichkeit, dass die Zielvariable 1 ist (z. B. „genehmigt“), wenn eine Eingabe erfolgt unter Verwendung der logistischen Funktion (Sigmoid):
MLE probiert verschiedene Kombinationen von und und fragt für jede Kombination: Wie wahrscheinlich ist es, dass wir unter Berücksichtigung dieser Parameter die tatsächlichen Ergebnisse in unseren Daten sehen würden?
Dies wird mithilfe der Wahrscheinlichkeitsfunktion erfasst, indem die vorhergesagten Wahrscheinlichkeiten für jeden Datenpunkt miteinander multipliziert werden.
- Wenn = 1 („genehmigt“), sollte die vorhergesagte Wahrscheinlichkeit des Modells nahe bei 1 sein. Der Wert geht darauf ein. Wenn die tatsächlich beobachteten Daten von y1 tatsächlich „genehmigt“ oder 1 sind, lautet der Wert 1.
- Wenn =0. Wir möchten, dass die vorhergesagte Wahrscheinlichkeit nahe bei 0 liegt. Der Begriff bearbeitet diesen Fall. Wenn die tatsächlich beobachteten Daten von „nicht genehmigt“ oder 0 ist. Der Wert ist nahe bei 0 liegen, liegt nahe bei 1.
Für jeden Datenpunkt multiplizieren wir also entweder ODER , je nachdem, ob die tatsächliche Bezeichnung 1 oder 0 ist. Das Produkt über alle Beispiele liefert uns eine einzige Zahl: die Wahrscheinlichkeit, dass der gesamte Datensatz unter dem aktuellen Modell dargestellt wird. Wie wir sehen können, wenn die vorhergesagten Ergebnisse (mithilfe der Parameter und ) mit den beobachteten Daten übereinstimmen, wird der Wert der Wahrscheinlichkeit maximiert. Der Grund für die Multiplikation aller Wahrscheinlichkeiten ist, dass wir davon ausgehen, dass die Ergebnisse unabhängig voneinander sind. Mit anderen Worten: Die Genehmigungschancen einer Person sollten die Genehmigungschancen einer anderen Person nicht beeinflussen.
Da dieses Produkt extrem klein werden kann, arbeiten wir normalerweise mit der Log-Likelihood-Methode. Diese verwandelt das Produkt in eine Summe, die sich einfacher berechnen und optimieren lässt.
Um die Werte zu finden von und die die Log-Likelihood maximieren, verwenden wir den Gradientenabstieg – einen iterativen Optimierungsalgorithmus. Bei jedem Schritt berechnen wir, wie sich die Log-Likelihood in Bezug auf jeden Parameter ändert (z. B. seinen Gradienten), und aktualisieren dann die Parameter leicht in die Richtung, die die Wahrscheinlichkeit erhöht. Im Laufe der Zeit konvergiert dieser Prozess in Richtung der Werte von und die am besten zu den Daten passen.