Dieser Typ von statistischem Modell (auch bekannt als Logit-Modell) wird häufig für Klassifizierung und Vorhersageanalyse verwendet. Logistische Regression schätzt die Wahrscheinlichkeit des Auftretens eines Ereignisses, wie z. B. gewählt oder nicht gewählt, basierend auf einem bestimmten Datenbestand unabhängiger Variablen. Da das Ergebnis eine Wahrscheinlichkeit ist, ist die abhängige Variable auf einen Wert zwischen 0 und 1 beschränkt. Bei der logistischen Regression wird eine Logit-Transformation auf die Odds angewendet – also die Wahrscheinlichkeit des Erfolgs dividiert durch die Wahrscheinlichkeit des Fehlschlagens. Dies wird allgemein auch als Log-Odds oder natürlicher Logarithmus der Odds bezeichnet, und diese logistische Funktion wird durch die folgenden Formeln dargestellt:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
In dieser logistischen Regressionsgleichung ist logit(pi) die abhängige oder Antwortvariable und x die unabhängige Variable. Der Betaparameter oder Koeffizient in diesem Modell wird normalerweise per Maximum-Likelihood-Estimation (MLE) geschätzt. Diese Methode testet verschiedene Betawerte durch mehrere Iterationen, um eine Optimierung für die am besten passenden Log-Odds zu erreichen. All diese Iterationen erzeugen die Log-Likelihood-Funktion, und die logistische Regression strebt danach, diese Funktion zu maximieren, um die beste Parameterschätzung zu finden. Sobald der optimale Koeffizient (oder Koeffizienten, wenn es mehr als eine unabhängige Variable gibt) gefunden ist, können die bedingten Wahrscheinlichkeiten für jede Beobachtung berechnet, protokolliert und summiert werden, um eine vorhergesagte Wahrscheinlichkeit zu ergeben. Bei der binären Klassifizierung entspricht eine Wahrscheinlichkeit von weniger als 0,5 einer Vorhersage von 0, während eine Wahrscheinlichkeit von mehr als 0 einer Vorhersage von 1 entspricht. Nachdem das Modell berechnet wurde, wird als Best Practice bewertet, wie gut das Modell die abhängige Variable vorhersagt. Dies wird als Anpassungsgüte bezeichnet. Der Hosmer-Lemeshow-Test ist eine gängige Methode zur Bewertung der Modellanpassungsgüte.
Es kann schwierig sein, aus Log-Odds im Rahmen einer Datenanalyse für logistische Regression schlau zu werden. Daher ist es üblich, die Betaschätzungen zu potenzieren, um die Ergebnisse in ein Odds-Verhältnis (Odds Ratio, OR) umzuwandeln und damit die Interpretation der Ergebnisse zu erleichtern. Das OR stellt die Odds dar, dass bei einem bestimmten Ereignis ein Ergebnis eintritt, verglichen mit den Odds, dass das Ergebnis bei Abwesenheit dieses Ereignisses eintritt. Ist das OR größer als 1, wird das Ereignis mit höheren Odds für das Eintreten eines bestimmten Ergebnisses in Bezug gesetzt. Umgekehrt gilt, wenn das OR kleiner als 1 ist, wird das Ereignis mit niedrigeren Odds für das Eintreten dieses Ergebnisses in Bezug gesetzt. Basierend auf der Gleichung von oben kann die Interpretation eines Odds-Verhältnisses wie folgt lauten: Die Odds eines Erfolgs ändern sich um das exp(cB_1)-fache für jede Zunahme der c-Einheit in x. Nehmen wir beispielsweise an, wir müssten die Überlebenschancen einer Person auf der Titanic schätzen, wenn die Person männlich und das Odds-Verhältnis für Männer 0,0810 war. Wir würden das Odds-Verhältnis als die Überlebenschance von Männern interpretieren, reduziert um einen Faktor von 0,0810 im Vergleich zu Frauen, wobei alle anderen Variablen konstant bleiben.
Sowohl lineare als auch logistische Regression zählen zu den gängigsten Modellen in der Datenwissenschaft, und Open-Source-Tools wie Python und R beschleunigen und vereinfachen die Berechnung.
Lineare Regressionsmodelle werden verwendet, um die Beziehung zwischen einer kontinuierlichen abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu ermitteln. Wenn es nur eine unabhängige Variable und eine abhängige Variable gibt, spricht man von einfacher linearer Regression, wenn die Anzahl unabhängiger Variablen jedoch zunimmt, spricht man von mehrfacher linearer Regression. Für jeden Typ der linearen Regression wird versucht, eine Linie der besten Anpassung durch eine Gruppe von Datenpunkten darzustellen, die typischerweise mit der Methode der kleinsten Quadrate berechnet wird.
Ähnlich wie die lineare Regression wird auch die logistische Regression verwendet, um die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu schätzen. Sie wird jedoch verwendet, um eine Prognose für eine kategoriale Variable und nicht für eine kontinuierliche Variable abzugeben. Eine kategoriale Variable kann wahr oder falsch, ja oder nein, 1 oder 0 etc. sein. Die Maßeinheit unterscheidet sich auch von der linearen Regression, da sie eine Wahrscheinlichkeit erzeugt, die Logit-Funktion jedoch die S-Kurve in eine gerade Linie umwandelt.
Während beide Modelle in der Regressionsanalyse verwendet werden, um künftige Ergebnisse vorherzusagen, ist die lineare Regression normalerweise einfacher zu verstehen. Für die lineare Regression ist auch kein so großer Stichprobenumfang erforderlich, da die logistische Regression eine repräsentative Stichprobe erfordert, um alle Werte in allen Antwortkategorien abzubilden. Ohne eine größere, repräsentative Stichprobe verfügt das Modell möglicherweise nicht über ausreichende statistische Trennschärfe, um eine erhebliche Auswirkung zu erkennen.
Es gibt drei Arten von logistischen Regressionsmodellen, die ausgehend von der kategorialen Antwort definiert werden.
Im Rahmen von maschinellem Lernen gehört die logistische Regression zur Familie der Modelle für überwachtes maschinelles Lernen. Sie wird auch als diskriminatives Modell betrachtet, d. h., es wird versucht, zwischen Klassen (oder Kategorien) zu unterscheiden. Im Gegensatz zu einem generativen Algorithmus, wie z. B. einem naiven Bayes-Klassifikator, kann dieses Modell, wie der Name schon sagt, keine Informationen (z. B. ein Bild) der Klasse generieren, die vorhergesagt werden soll (z. B. ein Bild einer Katze).
Zuvor haben wir erwähnt, wie die logistische Regression die Log-Likelihood-Funktion maximiert, um die Betakoeffizienten des Modells zu bestimmen. Im Kontext des maschinellen Lernens ändert sich dies geringfügig. Beim maschinellen Lernen wird die negative Log-Likelihood als Verlustfunktion verwendet, wobei mit dem Gradientenabstiegsverfahren das globale Maximum bestimmt wird. Dies ist nur ein weitere Möglichkeit, um zu denselben Schätzungen zu gelangen, die vorstehend erörtert wurden.
Logistische Regression kann auch für Überanpassung anfällig sein, insbesondere wenn es eine große Anzahl an Prädiktorvariablen im Modell gibt. Regularisierung wird normalerweise verwendet, um die Parameter großer Koeffizienten zu penalisieren, wenn das Modell unter hoher Dimensionalität leidet.
Scikit-learn (Link führt zu Seite außerhalb von IBM) bietet wertvolle Dokumentation, um mehr über das logistische Regressionsmodell für maschinelles Lernen zu erfahren.
Logistische Regression wird im Allgemeinen für Prognose und Klassifizierung verwendet. Einige dieser Anwendungsfälle umfassen:
Binäre logistische Regression kann Bankmitarbeitern bei der Beurteilung des Kreditrisikos helfen. Stellen Sie sich vor, Sie sind Kreditsachbearbeiter bei einer Bank und möchten Kenndaten von Personen bestimmen, die eine Wahrscheinlichkeit für Schuldnerausfälle aufweisen. In diesem Fall möchten Sie diese Kenndaten verwenden, um gute und schlechte Kreditnehmer zu erkennen. Sie haben Daten von 850 Kunden. Die ersten 700 sind Kunden, die bereits Kredite erhalten haben. Sehen Sie sich an, wie Sie eine Zufallsstichprobe aus diesen 700 Kunden nutzen können, um ein logistisches Regressionsmodell zu erstellen und die 150 verbleibenden Kunden als gute oder schlechte Kreditnehmer zu klassifizieren.
First Tennessee Bank verbesserte die Rentabilität mit IBM SPSS Software bei Cross-Sale-Aktionen und erzielte Steigerungen bis zu 600 Prozent. Das Führungspersonal in dieser Regionalbank in den USA wollte das richtige Konzept und die richtigen Services, um die richtigen Kunden anzusprechen. Es gibt keinen Mangel an unterstützenden Daten, aber es war eine Aufgabe, die Lücke zwischen Daten und dem Ergreifen von Maßnahmen zu schließen. Zunächst setzte Tennessee Techniken zur Vorhersageanalyse und zur logistischen Analyse im Rahmen einer Analyselösung ein, um aussagekräftige Informationen aus sämtlichen Unternehmensdaten zu ziehen. Das Ergebnis war eine verbesserte Entscheidungsfindung für optimierte Interaktion mit den Kunden. (1 MB)
Erzielen Sie präzisere Schlussfolgerungen bei der Analyse komplexer Zusammenhänge beim Einsatz von univariaten und multivariaten Modellierungstechniken.
Höherer ROI mit einem Drag-and-drop-Tool für Data-Science.
Sagen Sie kategoriale Ergebnisse vorher und wenden Sie eine Vielzahl nicht linearer Regressionsverfahren an.
Nutzen Sie eine flexible Hybrid-Cloud-Umgebung, um KI-Modelle und Modelle für maschinelles Lernen zu erstellen und zu trainieren sowie Daten aufzubereiten und zu analysieren.
Sie erhalten eine intelligente, einfache Möglichkeit, um Ihre unstrukturierten Daten mit kognitiver Exploration, leistungsfähigen Textanalysen und Funktionen für maschinelles Lernen zu filtern und untersuchen.