Startseite
Themen
Logistic Regression
Die logistische Regression schätzt die Wahrscheinlichkeit des Eintretens eines Ereignisses, wie z. B. gewählt oder nicht gewählt zu haben, auf der Grundlage eines gegebenen Datensatzes unabhängiger Variablen.
Diese Art von statistischem Modell (auch Logit-Modell genannt) wird häufig für Klassifizierungen und prädiktive Analysen verwendet. Da es sich bei dem Ergebnis um eine Wahrscheinlichkeit handelt, ist die abhängige Variable auf einen Wert zwischen 0 und 1 begrenzt. Bei der logistischen Regression wird eine Logit-Transformation auf die Wahrscheinlichkeit angewandt, d. h. die Wahrscheinlichkeit des Erfolgs geteilt durch die Wahrscheinlichkeit des Misserfolgs. Dies wird auch als Log-Odds oder natürlicher Logarithmus der Wahrscheinlichkeit bezeichnet, und diese logistische Funktion wird durch die folgenden Formeln dargestellt:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
In dieser logistischen Regressionsgleichung ist logit(pi) die abhängige oder Antwortvariable und x ist die unabhängige Variable. Der Beta-Parameter oder -Koeffizient in diesem Modell wird in der Regel mithilfe der Maximum-Likelihood-Schätzung (MLE) geschätzt. Diese Methode testet verschiedene Beta-Werte durch mehrere Iterationen, um die beste Anpassung der statistischen Werte zu finden. Alle diese Iterationen ergeben die Log-Likelihood-Funktion, wobei die logistische Regression versucht, diese Funktion zu maximieren, um die beste Parameterschätzung zu finden. Sobald der optimale Koeffizient (oder die optimalen Koeffizienten, wenn es mehr als eine unabhängige Variable gibt) gefunden ist, können die bedingten Wahrscheinlichkeiten für jede Beobachtung berechnet, protokolliert und summiert werden, um eine vorhergesagte Wahrscheinlichkeit zu erhalten. Bei einer binären Klassifizierung bedeutet eine Wahrscheinlichkeit von weniger als 0,5 den Wert 0, während eine Wahrscheinlichkeit von mehr als 0 den Wert 1 bedeutet. Nachdem das Modell berechnet wurde, ist es am besten, zu bewerten, wie gut das Modell die abhängige Variable vorhersagt, was als Anpassungsgüte bezeichnet wird. Der Hosmer-Lemeshow-Test ist eine beliebte Methode zur Bewertung der Passgenauigkeit des Modells.
Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.
Log-Odds können in einer Datenanalyse auf Basis der logistischen Regression schwierig zu interpretieren sein. Daher ist es üblich, die Beta-Schätzungen zu potenzieren, um die Ergebnisse in ein Chancenverhältnis (Odds Ratio, OR) umzuwandeln, was die Interpretation der Ergebnisse erleichtert. Das OR gibt die Wahrscheinlichkeit an, dass ein Ergebnis bei einem bestimmten Ereignis eintritt, verglichen mit der Wahrscheinlichkeit, dass das Ergebnis ohne dieses Ereignis eintritt. Wenn das OR größer als 1 ist, dann ist das Ereignis mit einer höheren Wahrscheinlichkeit verbunden, ein bestimmtes Ergebnis zu erzeugen. Ist das OR dagegen kleiner als 1, dann ist das Ereignis mit einer geringeren Wahrscheinlichkeit für das Eintreten dieses Ergebnisses verbunden. Ausgehend von der obigen Gleichung lässt sich ein Chancenverhältnis wie folgt interpretieren: Die Wahrscheinlichkeit eines Erfolgs ändert sich um das exp(cB_1)-fache für jede c-Einheit, um die sich x erhöht. Nehmen wir als Beispiel an, dass wir die Wahrscheinlichkeit des Überlebens auf der Titanic schätzen sollen, wenn die Person männlich ist, und das Wahrscheinlichkeitsverhältnis für Männer 0,0810 beträgt. Wir würden das Chancenverhältnis so interpretieren, dass die Überlebenschancen von Männern im Vergleich zu Frauen um den Faktor 0,0810 sinken, wobei alle anderen Variablen konstant bleiben.
Sowohl die lineare als auch die logistische Regression gehören zu den beliebtesten Modellen im Bereich Data Science. Open-Source-Tools wie Python und R machen die Berechnung dieser Modelle schnell und einfach.
Modelle der linearen Regression werden verwendet, um die Beziehung zwischen einer kontinuierlichen abhängigen Variable und einer oder mehreren unabhängigen Variablen zu ermitteln. Wenn es nur eine unabhängige Variable und eine abhängige Variable gibt, spricht man von einer einfachen linearen Regression. Wenn jedoch die Anzahl der unabhängigen Variablen zunimmt, spricht man von einer multiplen linearen Regression. Bei jeder Art von linearer Regression wird versucht, eine Linie der besten Anpassung durch eine Reihe von Datenpunkten zu zeichnen, die normalerweise mit der Methode der kleinsten Quadrate berechnet wird.
Ähnlich wie die lineare Regression wird auch die logistische Regression für die Schätzung der Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen verwendet. Allerdings wird sie genutzt, um eine Vorhersage über eine kategoriale Variable im Vergleich zu einer kontinuierlichen Variable zu machen. Eine kategoriale Variable kann wahr oder falsch sein, ja oder nein, 1 oder 0, usw. Auch die Maßeinheit unterscheidet sich von der linearen Regression, da sie eine Wahrscheinlichkeit erzeugt. Die Logit-Funktion wandelt die S-Kurve jedoch in eine gerade Linie um.
Obwohl beide Modelle in der Regressionsanalyse verwendet werden, um Vorhersagen über zukünftige Ergebnisse zu machen, ist die lineare Regression in der Regel einfacher zu verstehen. Die lineare Regression erfordert auch keine so große Stichprobengröße wie die logistische Regression, die eine angemessene Stichprobe benötigt, um die Werte aller Antwortkategorien zu repräsentieren. Ohne eine größere, repräsentative Stichprobe hat das Modell möglicherweise nicht genügend statistische Aussagekraft, um einen signifikanten Effekt nachzuweisen.
Es gibt drei Arten von Modellen der logistischen Regression, die auf der Grundlage von kategorialen Antworten definiert sind.
Innerhalb des maschinellen Lernens gehört die logistische Regression zur Familie der überwachten maschinellen Lernmodelle. Sie wird auch als diskriminatives Modell betrachtet, was bedeutet, dass sie versucht, zwischen Klassen (oder Kategorien) zu unterscheiden. Im Gegensatz zu einem generativen Algorithmus (wie z. B. Naïve Bayes), kann er, wie der Name schon sagt, keine Informationen, wie z. B. ein Bild, der Klasse generieren, die er vorherzusagen versucht (z. B. ein Bild einer Katze).
Wir haben bereits erwähnt, wie die logistische Regression die Log-Likelihood-Funktion maximiert, um die Beta-Koeffizienten des Modells zu bestimmen. Dies ändert sich im Kontext des maschinellen Lernens leicht. Im Rahmen des maschinellen Lernens wird die negative Log-Likelihood als Verlustfunktion verwendet, wobei der Prozess des Gradientenabstiegs genutzt wird, um das globale Maximum zu finden. Dies ist nur ein anderer Weg, um zu den gleichen Schätzungen zu gelangen, wie oben beschrieben.
Die logistische Regression kann auch für eine Überanpassung anfällig sein, insbesondere wenn das Modell eine große Anzahl von Prädiktorvariablen enthält. In der Regel wird eine Regularisierung verwendet, um Parameter mit großen Koeffizienten zu bestrafen, wenn das Modell unter einer hohen Dimensionalität leidet.
Scikit-learn (Link befindet sich außerhalb von ibm.com) bietet eine wertvolle Dokumentation, um mehr über das maschinelle Lernmodell der logistischen Regression zu erfahren.
Logistische Regression wird häufig für Vorhersage- und Klassifizierungsprobleme verwendet. Zu diesen Anwendungsfällen gehören:
Die binäre logistische Regression kann Banken bei der Bewertung von Kreditrisiken helfen. Sehen Sie, wie Sie anhand einer Stichprobe ein logistisches Regressionsmodell erstellen und Kunden nach gutem und schlechtem Risiko klassifizieren können.
Die First Tennessee Bank steigerte ihre Rentabilität durch den Einsatz von Predictive Analytics und Logistic mit IBM SPSS Software und erzielte Steigerungen von bis zu 600 Prozent bei Cross-Sale-Kampagnen. First Tennessee nutzt prädiktive und logistische Analysetechniken innerhalb einer Analyselösung, um einen besseren Einblick in all seine Daten zu erhalten.
Ergreifen Sie den nächsten Schritt und beginnen Sie mit der Operationalisierung und Skalierung von generativer KI und maschinellem Lernen für Ihr Geschäft.
Steigern Sie Ihren ROI über ein Data-Science-Tool mit Drag-and-Drop-Funktion.
Erstellen und trainieren Sie KI- und Machine-Learning-Modelle, bereiten Sie Daten auf und analysieren Sie sie – alles in einer flexiblen, hybriden Cloud-Umgebung.
Lernen Sie, wie Sie Ihr eigenes binäres Regressionsmodell trainieren können. Erfahren Sie, wie Sie Wahrscheinlichkeiten erzeugen und Beispiele klassifizieren und was unter dem Gradientenabstieg zu verstehen ist.
Erstellen Sie ein Jupyter Notebook, das Python-Code zur Definition der logistischen Regression enthält, und verwenden Sie dann TensorFlow, um diese zu implementieren.
IBM Forscher zeigen, dass mit dem homomorphen Verschlüsselungsschema CKKS eine große Anzahl logistischer Regressionsmodelle gleichzeitig trainiert werden kann.