Die Regression ist ein überwachter Algorithmus für maschinelles Lernen in der Data Science. Es handelt sich um eine Art Klassifizierungsalgorithmus , der ein diskretes oder kategorisches Ergebnis vorhersagt. Ein Beispiel ist die Verwendung eines Klassifizierungsmodells, um anhand von Prädiktoren wie Sparhöhe, Einkommen und Kreditwürdigkeit zu bestimmen, ob ein Kredit genehmigt wurde oder nicht.
In diesem Artikel befassen wir uns mit der Mathematik hinter der logistischen Regression, die zu den am häufigsten verwendeten Klassifizierungsalgorithmen im Bereich des maschinellen Lernens und der künstlichen Intelligenz (KI) gehört. Wir werden uns auch mit den Details der Regression, dem Anwendungsfall und den verschiedenen Arten logistischer Regressionen befassen. Im Zeitalter der generativen KI spielen die Grundlagen der logistischen Regression nach wie vor eine entscheidende Rolle bei der Orchestrierung komplexer neuronaler Netzwerke. Die logistische Regression ist nach wie vor von großer Bedeutung bei der Durchführung statistischer Tests im Rahmen der verhaltens- und sozialwissenschaftlichen Forschung sowie im Bereich der Data Science im Allgemeinen. Wir können sie einfach implementieren, indem wir das Modul scikit-learn in Python verwenden.
In dieser Erläuterung stellen wir Ihnen die Unterschiede zwischen linearer und logistischer Regression sowie die mathematischen Grundlagen, verschiedene Arten der logistischen Regression und die damit verbundenen Anwendungsfälle vor.
Die logistische Regression ist, ebenso wie die lineare Regression, eine Art lineares Modell, das die Beziehung zwischen Prädiktorvariablen (unabhängige Variablen) und einer Ausgabevariable (die Antwort-, Ziel- oder abhängige Variable) untersucht. Der Hauptunterschied besteht darin, dass die lineare Regression verwendet wird, wenn die Ausgabevariable einen kontinuierlichen Wert annehmen kann, beispielsweise bei der Vorhersage der Kreditwürdigkeit einer Person. Die logistische Regression kommt zum Einsatz, wenn das Ergebnis kategorisch ist, beispielsweise wenn es darum geht, ob ein Kredit genehmigt wurde oder nicht.
Bei der logistischen Regression sagt das Modell die Wahrscheinlichkeit voraus, dass ein bestimmtes Ergebnis eintritt. Anhand des Finanzprofils einer Person können wir beispielsweise die Wahrscheinlichkeit vorhersagen, dass ihr Kredit genehmigt wird. Die Ausgabe des Modells ist ein Wert zwischen 0 und 1. Basierend auf einem Schwellenwert – oft bei 0,5 – klassifizieren wir das Ergebnis entweder als „genehmigt“ oder „nicht genehmigt“. Anders als bei der linearen Regression, bei der eine gerade Linie durch die Daten gezogen wird, wird bei der logistischen Regression eine S-förmige Kurve angepasst, um die Eingabewerte einer Wahrscheinlichkeit zuzuordnen.
Sowohl bei der linearen als auch bei der logistischen Regression werden statistische Tests verwendet, um zu bewerten, welche Prädiktorvariablen einen sinnvollen Einfluss auf die Ausgabe haben. Mithilfe von Techniken wie dem t-Test und der Varianzanalyse (ANOVA) (bzw. Wahrscheinlichkeitsverhältnistests für die logistische Regression) werden für jeden Koeffizienten p-Werte erzeugt. Anhand dieser können wir beurteilen, ob die Beziehung statistisch signifikant ist. Ein niedriger p-Wert (typischerweise unter 0,05) deutet darauf hin, dass die Variable einen sinnvollen Beitrag zum Modell leistet. Wir bewerten auch die Güte der Anpassung, also wie gut das Modell die beobachteten Ergebnisse erklärt, indem wir je nach Regression unterschiedliche Metriken verwenden.
Bei der Erstellung von Modellen ist es wichtig, sich vor einer Überanpassung zu schützen. Dabei erfasst das Modell Rauschen in den Trainingsdaten und erbringt bei neuen Daten eine schlechte Leistung. Dieses Risiko steigt, wenn wir viele Prädiktorvariablen, aber eine kleine Stichprobengröße haben. Um dieses Problem zu lösen, können wir Regularisierung anwenden, eine Technik, die den Einfluss weniger wichtiger Variablen reduziert, indem ihre Koeffizienten verkleinert werden. Auch auf Sonderfälle muss sorgfältig geachtet werden, da sie das Modell verzerren und zu irreführenden p-Werten oder Koeffizienten führen können. In der Praxis verbessern wir Modelle durch eine wiederholte Auswahl von Funktionen, Tests und Verfeinerungen.
Um die beiden Modelle konkreter gegenüberzustellen, stellen Sie sich ein lineares Regressionsszenario vor, bei dem wir die Kreditwürdigkeit einer Person auf der Grundlage von Funktionen wie ihren aktuellen Ersparnissen vorhersagen wollen. Wir können dies wie folgt modellieren:
Wie die lineare Regression ist auch die logistische Regression ein lineares Modell und gehört zur Familie der verallgemeinerten linearen Modelle (GLM). Wie im vorangegangenen Beispiel wenden wir die lineare Funktion an, wenn wir die Wahrscheinlichkeit einer Genehmigung oder Nichtgenehmigung darstellen wollen.
Da die lineare Funktion eine lineare Beziehung annimmt, kann Y bei Änderungen der Werte von X Werte zwischen (-inf, inf) annehmen. Wahrscheinlichkeiten beschränken sich dagegen auf den Bereich [0,1]. Mit diesem Prinzip des linearen Modells können wir die Wahrscheinlichkeiten für ein binäres Ergebnis daher nicht direkt modellieren. Dafür benötigen wir ein logistisches Modell. Deshalb wollen wir eine Transformation auf die Eingabe anwenden, um das Ergebnis zu begrenzen. Diese Transformation wird als logistische Regression bezeichnet. Diese Gleichung mag auf den ersten Blick komplex erscheinen, doch wir werden sie im folgenden Abschnitt Schritt für Schritt aufschlüsseln und ihre Herleitung erläutern.
Die Sigmoid-Transformation ermöglicht es uns, eine binäre Vorhersage für den vorangegangenen Anwendungsfall zu treffen. Nach der Transformation kann der Wert von X den Bereich (-inf, inf) annehmen, während y auf den Bereich [0,1] beschränkt ist.
Um die logistische Regression (oder die Sigmoidfunktion) zu verstehen, benötigen wir eine solide Grundlage für die folgenden Konzepte:
Die Logit-Funktion ist der Logarithmus des Verhältnisses der Wahrscheinlichkeiten und bildet die Grundlage der logistischen Regression.
Da sich Wahrscheinlichkeiten nicht direkt mit einer linearen Funktion modellieren lassen, da sie zwischen 0 und 1 liegen, arbeiten wir stattdessen mit Chancen. Obwohl sowohl die Wahrscheinlichkeit als auch die Chance eines Ergebnisses dessen Wahrscheinlichkeit darstellen, unterscheiden sie sich in der Definition:
Die Wahrscheinlichkeit ist ein Maß dafür, wie wahrscheinlich es ist, dass ein Ereignis eintritt.
Chancen vergleichen die Wahrscheinlichkeit eines Ereignisses mit der Wahrscheinlichkeit, dass es nicht eintritt.
Sei p(x) die Wahrscheinlichkeit eines bestimmten Ergebnisses. Dann werden die Quoten von x wie folgt definiert:
Nehmen wir ein konkretes Beispiel:
Angenommen, ein Korb enthält 3 Äpfel und 5 Orangen.
- Die Wahrscheinlichkeit, eine Orange zu pflücken, beträgt 5/(3+5) = 0,625
- Die Chance, eine Orange zu pflücken, liegt bei 5/3 ≈ 1,667
Das bedeutet, dass das Pflücken einer Orange ≈1,667 Mal wahrscheinlicher ist als das Pflücken eines Apfels. Umgekehrt liegt die Chance, einen Apfel zu pflücken, bei 3/5 = 0,6, was weniger als 1 ist, was darauf hinweist, dass das Ergebnis (ein Apfel pflücken) weniger wahrscheinlich ist. Nach der Chancengleichung können wir uns die Chancen auch als die Wahrscheinlichkeit des Eintretens eines Ergebnisses über 1 - Wahrscheinlichkeit des Eintretens eines Ergebnisses denken. Daher beträgt die Chance, eine Orange zu pflücken, = P(Orangen)/(1-P(Orangen))=0,625/(1-0,625)≈1,667
Die Chancen liegen zwischen 0 und unendlich. Ein Chancenwert von über 1 deutet auf ein günstiges Ergebnis hin, ein Wert unter 1 auf ein ungünstiges. Ein Wert von genau 1 bedeutet, dass das Ereignis genauso wahrscheinlich eintritt, wie nicht.
Die Chancen sind jedoch nicht symmetrisch bezüglich 1. So stehen beispielsweise die Chancen 2 und 0,5 für „doppelt so wahrscheinlich“ bzw. „halb so wahrscheinlich“. Sie befinden sich jedoch auf sehr unterschiedlichen numerischen Maßstäben. Um dieses Ungleichgewicht zu beseitigen, nehmen wir den Logarithmus der Chancen. Dieser transformiert die unbegrenzte (0, ∞)-Skala der Chancen in die reelle Zahlenreihe (−∞, ∞). Dies wird als Log-Odds oder Logit bezeichnet und bildet die Grundlage des logistischen Regressionsmodells.
Wir definieren die Log-Odds folgendermaßen:
Mit dieser Transformation können wir die Log-Odds als lineare Funktion der Eingabe ausdrücken:
Dann können wir beide Seiten potenzieren, um wieder zu den Chancen zu gelangen:
Lösen für erhalten wir die Sigmoidfunktion, die dazu beiträgt, dass der vorhergesagte Wert zwischen 0 und 1 bleibt:
Diese Transformation ermöglicht es der logistischen Regression, gültige Wahrscheinlichkeiten auszugeben, obwohl sie mit einer linearen Funktion modelliert wird.
Abschließend wollen wir noch das Chancenverhältnis vorstellen. Dieses Konzept hilft bei der Interpretation der Auswirkungen von Modellkoeffizienten. Es gibt an, wie sich die Chancen verändern, wenn die Eingabevariable x1 um eine Einheit steigt.
Nehmen wir an, die Chancen für das Ereignis stehen wie folgt:
Wenn wir x1 um eine Einheit erhöhen, ergeben sich folgende Chancen:
Das bedeutet, dass für jede Erhöhung von x1 um eine Einheit die Wahrscheinlichkeit mit eb1 multipliziert wird. Dieser Multiplikator ist das Chancenverhältnis.
- Wenn b1>1, dann steigen die Chancen (das Ereignis wird wahrscheinlicher)
- Wenn b1<1, dann sinken die Chancen (Ereignisse werden wahrscheinlicher)
- Wenn b1=1 ist, ist das Chancenverhältnis 0, was bedeutet, dass die Eingabe keinen Einfluss auf die Chancen hat
Das Chancenverhältnis verleiht der logistischen Regression Interpretierbarkeit. Sie zeigt, wie sich die Wahrscheinlichkeit eines Ereignisses je nach Eingabe verändert. Dies ist in vielen Anwendungsbereichen, wie dem Gesundheitswesen, dem Marketing und dem Finanzwesen, nützlich. Wir können die Koeffizienten jedoch nicht auf die gleiche Weise interpretieren wie bei der linearen Regression. Im nächsten Abschnitt schauen wir uns im Detail an, wie die Koeffizienten ermittelt und interpretiert werden.
Erinnern Sie sich: Bei der linearen Regression lassen sich die Koeffizienten leicht interpretieren. Betrachten Sie ein Beispiel für eine lineare Regression mit kontinuierlichen Variablen: Eine Erhöhung des Eingabemerkmals x um eine Einheit führt zu einer Erhöhung des vorhergesagten Ergebnisses y um b1. Diese direkte Beziehung funktioniert, weil die lineare Regression eine konstante Änderungsrate zwischen den Eingabefunktionen und dem Ziel annimmt. Ihre Ausgabe ist unbegrenzt und wächst linear.
Die logistische Regression modelliert Y jedoch nicht direkt, sondern modelliert die Wahrscheinlichkeit von Y durch die Log-Odds (das Log der Chancen). Aus diesem Grund können wir nicht sagen, dass eine Erhöhung von x um eine Einheit zu einer konstanten Änderung von y um eine Einheit führt. Wir interpretieren den Koeffizienten stattdessen im Hinblick auf seine Auswirkung auf die Log-Odds und somit auch auf die Chancen und die Wahrscheinlichkeit des Ergebnisses.
Genauer gesagt, bei der logistischen Regression:
Wichtig ist, dass die Größe des Koeffizienten angibt, wie stark dieser Einfluss ist. Das Chancenverhältnis, das die Exponentialität des Koeffizienten angibt, sagt uns, wie stark sich die Wahrscheinlichkeit bei einer Erhöhung der Variablen um eine Einheit ändert.
Genau wie bei anderen Algorithmen des maschinellen Lernens können wir kategoriale Variablen einbeziehen, um Regressionsvorhersagen zu treffen. Wenn wir mit kategorialen oder diskreten Variablen arbeiten, verwenden wir häufig Funktion-Engineering-Techniken wie One-Hot-Codierung oder Dummy-Variablen, um sie in ein binäres Format umzuwandeln, das das Modell verwenden kann.
Nehmen wir beispielsweise an, wir möchten vorhersagen, ob eine Person eine Kreditzusage erhält ( genehmigt, nicht genehmigt), je nachdem, ob noch Schulden bestehen:
- Wir nehmen an, dass bedeutet, dass keine Schulden bestehen
- Wir nehmen an, dass bedeutet, dass Schulden bestehen
Unsere Log-Odds von wären
Der Koeffizient , stellt dann die Änderung der logarithmischen Wahrscheinlichkeit dar, genehmigt zu werden, wenn die Person eine bestehende Schuld hat, im Vergleich zu jemandem, der dies nicht tut.
Um dies besser interpretierbar zu machen, können wir b1 potenzieren, um das Chancenverhältnis zu erhalten:
Obwohl wir also die einfache Interpretation der Koeffizienten aus der linearen Regression verlieren, liefert die logistische Regression nach wie vor umfangreiche, interpretierbare Erkenntnisse – insbesondere, wenn wir sie im Hinblick auf Chancen und Wahrscheinlichkeitsverschiebungen betrachten. Das Ausmaß der Zunahme oder Abnahme der Wahrscheinlichkeit in Abhängigkeit von entspricht nicht einer Erhöhungseinheit in , kommt aber darauf an, wo an einem bestimmten Punkt angelangt ist.
Die Koeffizienten in der logistischen Regression, und , werden mithilfe der Maximum-Likelihood-Methode (MLE) geschätzt. Die Kernidee hinter dieser Methode besteht darin, die Parameter zu finden, die die beobachteten Daten im Rahmen des logistischen Regressionsmodells am wahrscheinlichsten machen.
Bei der logistischen Regression modellieren wir die Wahrscheinlichkeit, dass die Zielvariable 1 ist (z. B. „genehmigt“), wenn eine Eingabe erfolgt unter Verwendung der logistischen Funktion (Sigmoid):
MLE probiert verschiedene Kombinationen von und und fragt für jede Kombination: Wie wahrscheinlich ist es, dass wir unter Berücksichtigung dieser Parameter die tatsächlichen Ergebnisse in unseren Daten sehen würden?
Dies wird mithilfe der Wahrscheinlichkeitsfunktion erfasst, indem die vorhergesagten Wahrscheinlichkeiten für jeden Datenpunkt miteinander multipliziert werden.
- Wenn = 1 („genehmigt“), sollte die vorhergesagte Wahrscheinlichkeit des Modells nahe bei 1 sein. Der Wert geht darauf ein. Wenn die tatsächlich beobachteten Daten von y1 tatsächlich „genehmigt“ oder 1 sind, lautet der Wert 1.
- Wenn =0. Wir möchten, dass die vorhergesagte Wahrscheinlichkeit nahe bei 0 liegt. Der Begriff bearbeitet diesen Fall. Wenn die tatsächlich beobachteten Daten von „nicht genehmigt“ oder 0 ist. Der Wert ist nahe bei 0 liegen, liegt nahe bei 1.
Für jeden Datenpunkt multiplizieren wir also entweder ODER , je nachdem, ob die tatsächliche Bezeichnung 1 oder 0 ist. Das Produkt über alle Beispiele liefert uns eine einzige Zahl: die Wahrscheinlichkeit, dass der gesamte Datensatz unter dem aktuellen Modell dargestellt wird. Wie wir sehen können, wenn die vorhergesagten Ergebnisse (mithilfe der Parameter und ) mit den beobachteten Daten übereinstimmen, wird der Wert der Wahrscheinlichkeit maximiert. Der Grund für die Multiplikation aller Wahrscheinlichkeiten ist, dass wir davon ausgehen, dass die Ergebnisse unabhängig voneinander sind. Mit anderen Worten: Die Genehmigungschancen einer Person sollten die Genehmigungschancen einer anderen Person nicht beeinflussen.
Da dieses Produkt extrem klein werden kann, arbeiten wir normalerweise mit der Log-Likelihood-Methode. Diese verwandelt das Produkt in eine Summe, die sich einfacher berechnen und optimieren lässt.
Um die Werte zu finden von und die die Log-Likelihood maximieren, verwenden wir den Gradientenabstieg – einen iterativen Optimierungsalgorithmus. Bei jedem Schritt berechnen wir, wie sich die Log-Likelihood in Bezug auf jeden Parameter ändert (z. B. seinen Gradienten), und aktualisieren dann die Parameter leicht in die Richtung, die die Wahrscheinlichkeit erhöht. Im Laufe der Zeit konvergiert dieser Prozess in Richtung der Werte von und die am besten zu den Daten passen.
Es gibt drei Arten von Modellen der logistischen Regression, die auf der Grundlage von kategorialen Antworten definiert sind.
Logistische Regression wird häufig für Vorhersage- und Klassifizierungsprobleme verwendet. Zu diesen Anwendungsfällen gehören:
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.