Was ist logistische Regression?
Erfahren Sie, wie logistische Regression helfen kann, Vorhersagen zu treffen, um die Entscheidungsfindung zu verbessern
Projektmanager hält eine Präsentation
Was ist logistische Regression?

Dieser Typ von statistischem Modell (auch bekannt als Logit-Modell) wird häufig für Klassifizierung und Vorhersageanalyse verwendet. Logistische Regression schätzt die Wahrscheinlichkeit des Auftretens eines Ereignisses, wie z. B. gewählt oder nicht gewählt, basierend auf einem bestimmten Datenbestand unabhängiger Variablen. Da das Ergebnis eine Wahrscheinlichkeit ist, ist die abhängige Variable auf einen Wert zwischen 0 und 1 beschränkt. Bei der logistischen Regression wird eine Logit-Transformation auf die Odds angewendet – also die Wahrscheinlichkeit des Erfolgs dividiert durch die Wahrscheinlichkeit des Fehlschlagens. Dies wird allgemein auch als Log-Odds oder natürlicher Logarithmus der Odds bezeichnet, und diese logistische Funktion wird durch die folgenden Formeln dargestellt:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

In dieser logistischen Regressionsgleichung ist logit(pi) die abhängige oder Antwortvariable und x die unabhängige Variable. Der Betaparameter oder Koeffizient in diesem Modell wird normalerweise per Maximum-Likelihood-Estimation (MLE) geschätzt. Diese Methode testet verschiedene Betawerte durch mehrere Iterationen, um eine Optimierung für die am besten passenden Log-Odds zu erreichen. All diese Iterationen erzeugen die Log-Likelihood-Funktion, und die logistische Regression strebt danach, diese Funktion zu maximieren, um die beste Parameterschätzung zu finden. Sobald der optimale Koeffizient (oder Koeffizienten, wenn es mehr als eine unabhängige Variable gibt) gefunden ist, können die bedingten Wahrscheinlichkeiten für jede Beobachtung berechnet, protokolliert und summiert werden, um eine vorhergesagte Wahrscheinlichkeit zu ergeben. Bei der binären Klassifizierung entspricht eine Wahrscheinlichkeit von weniger als 0,5 einer Vorhersage von 0, während eine Wahrscheinlichkeit von mehr als 0 einer Vorhersage von 1 entspricht.  Nachdem das Modell berechnet wurde, wird als Best Practice bewertet, wie gut das Modell die abhängige Variable vorhersagt. Dies wird als Anpassungsgüte bezeichnet. Der Hosmer-Lemeshow-Test ist eine gängige Methode zur Bewertung der Modellanpassungsgüte.

Logistische Regression interpretieren

 

Es kann schwierig sein, aus Log-Odds im Rahmen einer Datenanalyse für logistische Regression schlau zu werden. Daher ist es üblich, die Betaschätzungen zu potenzieren, um die Ergebnisse in ein Odds-Verhältnis (Odds Ratio, OR) umzuwandeln und damit die Interpretation der Ergebnisse zu erleichtern. Das OR stellt die Odds dar, dass bei einem bestimmten Ereignis ein Ergebnis eintritt, verglichen mit den Odds, dass das Ergebnis bei Abwesenheit dieses Ereignisses eintritt. Ist das OR größer als 1, wird das Ereignis mit höheren Odds für das Eintreten eines bestimmten Ergebnisses in Bezug gesetzt. Umgekehrt gilt, wenn das OR kleiner als 1 ist, wird das Ereignis mit niedrigeren Odds für das Eintreten dieses Ergebnisses in Bezug gesetzt. Basierend auf der Gleichung von oben kann die Interpretation eines Odds-Verhältnisses wie folgt lauten: Die Odds eines Erfolgs ändern sich um das exp(cB_1)-fache für jede Zunahme der c-Einheit in x. Nehmen wir beispielsweise an, wir müssten die Überlebenschancen einer Person auf der Titanic schätzen, wenn die Person männlich und das Odds-Verhältnis für Männer 0,0810 war. Wir würden das Odds-Verhältnis als die Überlebenschance von Männern interpretieren, reduziert um einen Faktor von 0,0810 im Vergleich zu Frauen, wobei alle anderen Variablen konstant bleiben.

 

 

Whitepaper lesen (776 KB)
Lineare Regression im Vergleich zu logistischer Regression

Sowohl lineare als auch logistische Regression zählen zu den gängigsten Modellen in der Datenwissenschaft, und Open-Source-Tools wie Python und R beschleunigen und vereinfachen die Berechnung.

Lineare Regressionsmodelle werden verwendet, um die Beziehung zwischen einer kontinuierlichen abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu ermitteln. Wenn es nur eine unabhängige Variable und eine abhängige Variable gibt, spricht man von einfacher linearer Regression, wenn die Anzahl unabhängiger Variablen jedoch zunimmt, spricht man von mehrfacher linearer Regression. Für jeden Typ der linearen Regression wird versucht, eine Linie der besten Anpassung durch eine Gruppe von Datenpunkten darzustellen, die typischerweise mit der Methode der kleinsten Quadrate berechnet wird.

Ähnlich wie die lineare Regression wird auch die logistische Regression verwendet, um die Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen zu schätzen. Sie wird jedoch verwendet, um eine Prognose für eine kategoriale Variable und nicht für eine kontinuierliche Variable abzugeben. Eine kategoriale Variable kann wahr oder falsch, ja oder nein, 1 oder 0 etc. sein. Die Maßeinheit unterscheidet sich auch von der linearen Regression, da sie eine Wahrscheinlichkeit erzeugt, die Logit-Funktion jedoch die S-Kurve in eine gerade Linie umwandelt.  

Während beide Modelle in der Regressionsanalyse verwendet werden, um künftige Ergebnisse vorherzusagen, ist die lineare Regression normalerweise einfacher zu verstehen. Für die lineare Regression ist auch kein so großer Stichprobenumfang erforderlich, da die logistische Regression eine repräsentative Stichprobe erfordert, um alle Werte in allen Antwortkategorien abzubilden. Ohne eine größere, repräsentative Stichprobe verfügt das Modell möglicherweise nicht über ausreichende statistische Trennschärfe, um eine erhebliche Auswirkung zu erkennen.

Arten der logistischen Regression

Es gibt drei Arten von logistischen Regressionsmodellen, die ausgehend von der kategorialen Antwort definiert werden.

  • Binäre logistische Regression: Bei diesem Ansatz ist die Antwort- oder abhängige Variable dichotom – d. h., sie hat nur zwei mögliche Ergebnisse (z. B. 0 oder 1). Einige gängige Verwendungsbeispiele umfassen die Vorhersage, ob eine E-Mail Spam oder kein Spam ist oder ob ein Tumor bösartig oder nicht bösartig ist. Innerhalb der logistischen Regression ist dies der gängigste Ansatz, und ganz allgemein handelt es sich um eines der gängigsten Klassifikationsmerkmale für die binäre Klassifizierung.
  • Multinomiale logistische Regression: Bei dieser Art von logistischem Regressionsmodell hat die abhängige Variable drei oder mehr mögliche Ergebnisse; diese Werte haben jedoch keine definierte Reihenfolge.  Zum Beispiel möchten Filmstudios vorhersagen, welches Filmgenre ein Kinobesucher gerne mag, um Filme effektiver zu vermarkten. Mit einem multinomialen logistischen Regressionsmodell kann das Studio bestimmen, wie groß der Einfluss von Alter, Geschlecht und Dating-Status einer Person auf die Art von Film ist, die sie bevorzugt. Das Studio kann dann eine Werbekampagne für einen bestimmten Film an eine Personengruppe richten, die ihn sich wahrscheinlich ansehen wird.
  • Ordinale logistische Regression: Diese Art von logistischem Regressionsmodell wird genutzt, wenn die Antwortvariable drei oder mehr mögliche Ergebnisse hat; in diesem Fall haben diese Werte jedoch eine definierte Reihenfolge. Beispiele für ordinale Antworten umfassen Einstufungsskalen von A bis F oder Bewertungsskalen von 1 bis 5. 
Ein Blick in den Kopf eines Data-Scientists (776 KB)
Logistische Regression und maschinelles Lernen

Im Rahmen von maschinellem Lernen gehört die logistische Regression zur Familie der Modelle für überwachtes maschinelles Lernen. Sie wird auch als diskriminatives Modell betrachtet, d. h., es wird versucht, zwischen Klassen (oder Kategorien) zu unterscheiden. Im Gegensatz zu einem generativen Algorithmus, wie z. B. einem naiven Bayes-Klassifikator, kann dieses Modell, wie der Name schon sagt, keine Informationen (z. B. ein Bild) der Klasse generieren, die vorhergesagt werden soll (z. B. ein Bild einer Katze).

Zuvor haben wir erwähnt, wie die logistische Regression die Log-Likelihood-Funktion maximiert, um die Betakoeffizienten des Modells zu bestimmen. Im Kontext des maschinellen Lernens ändert sich dies geringfügig. Beim maschinellen Lernen wird die negative Log-Likelihood als Verlustfunktion verwendet, wobei mit dem Gradientenabstiegsverfahren das globale Maximum bestimmt wird. Dies ist nur ein weitere Möglichkeit, um zu denselben Schätzungen zu gelangen, die vorstehend erörtert wurden.

Logistische Regression kann auch für Überanpassung anfällig sein, insbesondere wenn es eine große Anzahl an Prädiktorvariablen im Modell gibt. Regularisierung wird normalerweise verwendet, um die Parameter großer Koeffizienten zu penalisieren, wenn das Modell unter hoher Dimensionalität leidet.

Scikit-learn (Link führt zu Seite außerhalb von IBM) bietet wertvolle Dokumentation, um mehr über das logistische Regressionsmodell für maschinelles Lernen zu erfahren.

Anwendungsfälle für logistische Regression

Logistische Regression wird im Allgemeinen für Prognose und  Klassifizierung verwendet. Einige dieser Anwendungsfälle umfassen:

  • Betrugserkennung: Mit logistischen Regressionsmodellen können Teams Datenanomalien ermitteln, die auf Betrug hinweisen. Bestimmte Verhaltensweisen oder Merkmale können in engerem Zusammenhang mit betrügerischen Aktivitäten stehen, was für Banken und andere Finanzinstitute beim Schutz ihrer Kunden besonders hilfreich ist. SaaS-basierte Unternehmen haben ebenfalls begonnen, diese Verfahren zu nutzen, um falsche Benutzerkonten aus ihren Datenbeständen zu entfernen, wenn sie Datenanalyse rund um die betriebliche Leistung durchführen.
  • Prognose von Krankheiten: In der Medizin kann dieser Analyseansatz verwendet werden, um die Wahrscheinlichkeit von Krankheiten oder einer Erkrankung für eine bestimmte Bevölkerungsgruppe vorherzusagen. Organisationen im Gesundheitswesen können eine Präventivversorgung für Personen einrichten, die eine höhere Neigung zu bestimmten Krankheiten aufweisen.
  • Prognose von Abwanderung: Bestimmte Verhaltensweisen können auf Abwanderungstendenzen in verschiedenen Funktionen eines Unternehmens hinweisen. Personal- und Managementteams möchten möglicherweise wissen, ob es im Unternehmen überdurchschnittlich leistungsfähige Mitarbeiter gibt, bei denen das Risiko besteht, dass sie das Unternehmen verlassen. Diese Art von Einblick kann zu Gesprächen anregen, um Problembereiche im Unternehmen kennenzulernen, wie z. B. Kultur oder Vergütung. Oder die Vertriebsorganisation möchte vielleicht erfahren, welche ihrer Kunden möglicherweise ihr Geschäft abziehen wollen. Dies kann Teams dazu veranlassen, eine Strategie für die Kundenbindung zu entwickeln, um Umsatzeinbußen zu verhindern.
Beispiele für erfolgreiche logistische Regression Bewertung des Kreditrisikos

Binäre logistische Regression kann Bankmitarbeitern bei der Beurteilung des Kreditrisikos helfen. Stellen Sie sich vor, Sie sind Kreditsachbearbeiter bei einer Bank und möchten Kenndaten von Personen bestimmen, die eine Wahrscheinlichkeit für Schuldnerausfälle aufweisen. In diesem Fall möchten Sie diese Kenndaten verwenden, um gute und schlechte Kreditnehmer zu erkennen. Sie haben Daten von 850 Kunden. Die ersten 700 sind Kunden, die bereits Kredite erhalten haben. Sehen Sie sich an, wie Sie eine Zufallsstichprobe aus diesen 700 Kunden nutzen können, um ein logistisches Regressionsmodell zu erstellen und die 150 verbleibenden Kunden als gute oder schlechte Kreditnehmer zu klassifizieren.

Gewinnsteigerung im Bankwesen

First Tennessee Bank verbesserte die Rentabilität mit IBM SPSS Software bei Cross-Sale-Aktionen und erzielte Steigerungen bis zu 600 Prozent. Das Führungspersonal in dieser Regionalbank in den USA wollte das richtige Konzept und die richtigen Services, um die richtigen Kunden anzusprechen. Es gibt keinen Mangel an unterstützenden Daten, aber es war eine Aufgabe, die Lücke zwischen Daten und dem Ergreifen von Maßnahmen zu schließen. Zunächst setzte Tennessee Techniken zur Vorhersageanalyse und zur logistischen Analyse im Rahmen einer Analyselösung ein, um aussagekräftige Informationen aus sämtlichen Unternehmensdaten zu ziehen. Das Ergebnis war eine verbesserte Entscheidungsfindung für optimierte Interaktion mit den Kunden. (1 MB)

Relevante Lösungen
IBM SPSS Advanced Statistics

Erzielen Sie präzisere Schlussfolgerungen bei der Analyse komplexer Zusammenhänge beim Einsatz von univariaten und multivariaten Modellierungstechniken.

SPSS Advanced Statistics kennenlernen
IBM SPSS Modeler

Höherer ROI mit einem Drag-and-drop-Tool für Data-Science.

SPSS Modeler kennenlernen
IBM SPSS Regression

Sagen Sie kategoriale Ergebnisse vorher und wenden Sie eine Vielzahl nicht linearer Regressionsverfahren an.

SPSS Regression kennenlernen
IBM Watson Studio

Nutzen Sie eine flexible Hybrid-Cloud-Umgebung, um KI-Modelle und Modelle für maschinelles Lernen zu erstellen und zu trainieren sowie Daten aufzubereiten und zu analysieren.

Watson Studio kennenlernen
IBM Watson Discovery

Sie erhalten eine intelligente, einfache Möglichkeit, um Ihre unstrukturierten Daten mit kognitiver Exploration, leistungsfähigen Textanalysen und Funktionen für maschinelles Lernen zu filtern und untersuchen.

Watson Discovery erkunden
Ressourcen Kostenlose 14-tägige Testversion von IBM SPSS Statistics Demo zur statistischen Analyse mit IBM SPSS Statistics Weitere Informationen zu IBM Watson Studio Local