Was ist logistische Regression?

Autor

Developer Advocate

IBM

Was ist logistische Regression?

Die Regression ist ein überwachter Algorithmus für maschinelles Lernen in der Data Science. Es handelt sich um eine Art Klassifizierungsalgorithmus , der ein diskretes oder kategorisches Ergebnis vorhersagt. Ein Beispiel ist die Verwendung eines Klassifizierungsmodells, um anhand von Prädiktoren wie Sparhöhe, Einkommen und Kreditwürdigkeit zu bestimmen, ob ein Kredit genehmigt wurde oder nicht.

In diesem Artikel befassen wir uns mit der Mathematik hinter der logistischen Regression, die zu den am häufigsten verwendeten Klassifizierungsalgorithmen im Bereich des maschinellen Lernens und der künstlichen Intelligenz (KI) gehört. Wir werden uns auch mit den Details der Regression, dem Anwendungsfall und den verschiedenen Arten logistischer Regressionen befassen. Im Zeitalter der generativen KI spielen die Grundlagen der logistischen Regression nach wie vor eine entscheidende Rolle bei der Orchestrierung komplexer neuronaler Netzwerke. Die logistische Regression ist nach wie vor von großer Bedeutung bei der Durchführung statistischer Tests im Rahmen der verhaltens- und sozialwissenschaftlichen Forschung sowie im Bereich der Data Science im Allgemeinen. Wir können sie einfach implementieren, indem wir das Modul scikit-learn in Python verwenden.

In dieser Erläuterung stellen wir Ihnen die Unterschiede zwischen linearer und logistischer Regression sowie die mathematischen Grundlagen, verschiedene Arten der logistischen Regression und die damit verbundenen Anwendungsfälle vor.

Schließen Sie sich den über 100.000 Abonnenten an, die die neuesten Nachrichten aus der Welt der Technik lesen

Bleiben Sie mit dem zweimal wöchentlich erscheinenden Think-Newsletter über die wichtigsten und spannendsten Branchentrends zu KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Logistische Regression im Vergleich zu linearer Regression

Die logistische Regression ist, ebenso wie die lineare Regression, eine Art lineares Modell, das die Beziehung zwischen Prädiktorvariablen (unabhängige Variablen) und einer Ausgabevariable (die Antwort-, Ziel- oder abhängige Variable) untersucht. Der Hauptunterschied besteht darin, dass die lineare Regression verwendet wird, wenn die Ausgabevariable einen kontinuierlichen Wert annehmen kann, beispielsweise bei der Vorhersage der Kreditwürdigkeit einer Person. Die logistische Regression kommt zum Einsatz, wenn das Ergebnis kategorisch ist, beispielsweise wenn es darum geht, ob ein Kredit genehmigt wurde oder nicht.

Bei der logistischen Regression sagt das Modell die Wahrscheinlichkeit voraus, dass ein bestimmtes Ergebnis eintritt. Anhand des Finanzprofils einer Person können wir beispielsweise die Wahrscheinlichkeit vorhersagen, dass ihr Kredit genehmigt wird. Die Ausgabe des Modells ist ein Wert zwischen 0 und 1. Basierend auf einem Schwellenwert – oft bei 0,5 – klassifizieren wir das Ergebnis entweder als „genehmigt“ oder „nicht genehmigt“. Anders als bei der linearen Regression, bei der eine gerade Linie durch die Daten gezogen wird, wird bei der logistischen Regression eine S-förmige Kurve angepasst, um die Eingabewerte einer Wahrscheinlichkeit zuzuordnen.

Sowohl bei der linearen als auch bei der logistischen Regression werden statistische Tests verwendet, um zu bewerten, welche Prädiktorvariablen einen sinnvollen Einfluss auf die Ausgabe haben. Mithilfe von Techniken wie dem t-Test und der Varianzanalyse (ANOVA) (bzw. Wahrscheinlichkeitsverhältnistests für die logistische Regression) werden für jeden Koeffizienten p-Werte erzeugt. Anhand dieser können wir beurteilen, ob die Beziehung statistisch signifikant ist. Ein niedriger p-Wert (typischerweise unter 0,05) deutet darauf hin, dass die Variable einen sinnvollen Beitrag zum Modell leistet. Wir bewerten auch die Güte der Anpassung, also wie gut das Modell die beobachteten Ergebnisse erklärt, indem wir je nach Regression unterschiedliche Metriken verwenden.

Bei der Erstellung von Modellen ist es wichtig, sich vor einer Überanpassung zu schützen. Dabei erfasst das Modell Rauschen in den Trainingsdaten und erbringt bei neuen Daten eine schlechte Leistung. Dieses Risiko steigt, wenn wir viele Prädiktorvariablen, aber eine kleine Stichprobengröße haben. Um dieses Problem zu lösen, können wir Regularisierung anwenden, eine Technik, die den Einfluss weniger wichtiger Variablen reduziert, indem ihre Koeffizienten verkleinert werden. Auch auf Sonderfälle muss sorgfältig geachtet werden, da sie das Modell verzerren und zu irreführenden p-Werten oder Koeffizienten führen können. In der Praxis verbessern wir Modelle durch eine wiederholte Auswahl von Funktionen, Tests und Verfeinerungen.

Um die beiden Modelle konkreter gegenüberzustellen, stellen Sie sich ein lineares Regressionsszenario vor, bei dem wir die Kreditwürdigkeit einer Person auf der Grundlage von Funktionen wie ihren aktuellen Ersparnissen vorhersagen wollen. Wir können dies wie folgt modellieren:

$Y_{c r e d i t s c o r e} = β_{0} + β_{1} X_{s a v i n g s}$

Lineare Regression im Vergleich zur Kreditwürdigkeit

Logistische Regression unter der Oberfläche

Wie die lineare Regression ist auch die logistische Regression ein lineares Modell und gehört zur Familie der verallgemeinerten linearen Modelle (GLM). Wie im vorangegangenen Beispiel wenden wir die lineare Funktion an, wenn wir die Wahrscheinlichkeit einer Genehmigung oder Nichtgenehmigung darstellen wollen.

$Y_{a p p r o v a l} = β_{0} + β_{1} X_{s a v i n g s}$

Da die lineare Funktion eine lineare Beziehung annimmt, kann Y bei Änderungen der Werte von X Werte zwischen (-inf, inf) annehmen. Wahrscheinlichkeiten beschränken sich dagegen auf den Bereich [0,1]. Mit diesem Prinzip des linearen Modells können wir die Wahrscheinlichkeiten für ein binäres Ergebnis daher nicht direkt modellieren. Dafür benötigen wir ein logistisches Modell. Deshalb wollen wir eine Transformation auf die Eingabe anwenden, um das Ergebnis zu begrenzen. Diese Transformation wird als logistische Regression bezeichnet. Diese Gleichung mag auf den ersten Blick komplex erscheinen, doch wir werden sie im folgenden Abschnitt Schritt für Schritt aufschlüsseln und ihre Herleitung erläutern.

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

Die Sigmoid-Transformation ermöglicht es uns, eine binäre Vorhersage für den vorangegangenen Anwendungsfall zu treffen. Nach der Transformation kann der Wert von X den Bereich (-inf, inf) annehmen, während y auf den Bereich [0,1] beschränkt ist.

Um die logistische Regression (oder die Sigmoidfunktion) zu verstehen, benötigen wir eine solide Grundlage für die folgenden Konzepte:

Chancen, Log-Odds und Chancenverhältnis
Koeffizienten der logistischen Regression
Maximum-Likelihood-Methode

Chancen, Log-Odds und Chancenverhältnis

Chancen

Die Logit-Funktion ist der Logarithmus des Verhältnisses der Wahrscheinlichkeiten und bildet die Grundlage der logistischen Regression.

Da sich Wahrscheinlichkeiten nicht direkt mit einer linearen Funktion modellieren lassen, da sie zwischen 0 und 1 liegen, arbeiten wir stattdessen mit Chancen. Obwohl sowohl die Wahrscheinlichkeit als auch die Chance eines Ergebnisses dessen Wahrscheinlichkeit darstellen, unterscheiden sie sich in der Definition:

Die Wahrscheinlichkeit ist ein Maß dafür, wie wahrscheinlich es ist, dass ein Ereignis eintritt.

Eine minimalistische Grafik mit blauen und roten Kreisen auf einem weißen Quadrat.

Chancen vergleichen die Wahrscheinlichkeit eines Ereignisses mit der Wahrscheinlichkeit, dass es nicht eintritt.

Log-Odds

Sei p(x) die Wahrscheinlichkeit eines bestimmten Ergebnisses. Dann werden die Quoten von x wie folgt definiert:

$o d d s (x) = \frac{p (x)}{1 - p (x)}$

Nehmen wir ein konkretes Beispiel:

Angenommen, ein Korb enthält 3 Äpfel und 5 Orangen.

- Die Wahrscheinlichkeit, eine Orange zu pflücken, beträgt 5/(3+5) = 0,625

- Die Chance, eine Orange zu pflücken, liegt bei 5/3 ≈ 1,667

Das bedeutet, dass das Pflücken einer Orange ≈1,667 Mal wahrscheinlicher ist als das Pflücken eines Apfels. Umgekehrt liegt die Chance, einen Apfel zu pflücken, bei 3/5 = 0,6, was weniger als 1 ist, was darauf hinweist, dass das Ergebnis (ein Apfel pflücken) weniger wahrscheinlich ist. Nach der Chancengleichung können wir uns die Chancen auch als die Wahrscheinlichkeit des Eintretens eines Ergebnisses über 1 - Wahrscheinlichkeit des Eintretens eines Ergebnisses denken. Daher beträgt die Chance, eine Orange zu pflücken, = P(Orangen)/(1-P(Orangen))=0,625/(1-0,625)≈1,667

Die Chancen liegen zwischen 0 und unendlich. Ein Chancenwert von über 1 deutet auf ein günstiges Ergebnis hin, ein Wert unter 1 auf ein ungünstiges. Ein Wert von genau 1 bedeutet, dass das Ereignis genauso wahrscheinlich eintritt, wie nicht.

Die Chancen sind jedoch nicht symmetrisch bezüglich 1. So stehen beispielsweise die Chancen 2 und 0,5 für „doppelt so wahrscheinlich“ bzw. „halb so wahrscheinlich“. Sie befinden sich jedoch auf sehr unterschiedlichen numerischen Maßstäben. Um dieses Ungleichgewicht zu beseitigen, nehmen wir den Logarithmus der Chancen. Dieser transformiert die unbegrenzte (0, ∞)-Skala der Chancen in die reelle Zahlenreihe (−∞, ∞). Dies wird als Log-Odds oder Logit bezeichnet und bildet die Grundlage des logistischen Regressionsmodells.

Wir definieren die Log-Odds folgendermaßen:

$\log (\frac{p (x)}{1 - p (x)})$

Mit dieser Transformation können wir die Log-Odds als lineare Funktion der Eingabe ausdrücken:

$\log (\frac{p (x)}{1 - p (x)}) = β_{0} + β_{1} \cdot x_{1}$

Dann können wir beide Seiten potenzieren, um wieder zu den Chancen zu gelangen:

$\frac{p (x)}{1 - p (x)} = e^{β_{0} + β_{1} \cdot x_{1}}$

Lösen für $p (x)$ erhalten wir die Sigmoidfunktion, die dazu beiträgt, dass der vorhergesagte Wert zwischen 0 und 1 bleibt:

$p (x) = \frac{e^{β_{0} + β_{1} \cdot x_{1}}}{1 + e^{β_{0} + β_{1} \cdot x_{1}}}$

Diese Transformation ermöglicht es der logistischen Regression, gültige Wahrscheinlichkeiten auszugeben, obwohl sie mit einer linearen Funktion modelliert wird.

Chancenverhältnis

Abschließend wollen wir noch das Chancenverhältnis vorstellen. Dieses Konzept hilft bei der Interpretation der Auswirkungen von Modellkoeffizienten. Es gibt an, wie sich die Chancen verändern, wenn die Eingabevariable x1 um eine Einheit steigt.

Nehmen wir an, die Chancen für das Ereignis stehen wie folgt:

$o d d s (x_{1}) = e^{β_{0} + β_{1} \cdot x_{1}}$

Wenn wir x1 um eine Einheit erhöhen, ergeben sich folgende Chancen:

$o d d s (x_{1} + 1) = e^{β_{0} + β_{1} (x_{1} + 1)} = e^{β_{0} + β_{1} x_{1}} \cdot e^{β_{1}}$

Das bedeutet, dass für jede Erhöhung von x1 um eine Einheit die Wahrscheinlichkeit mit eb1 multipliziert wird. Dieser Multiplikator ist das Chancenverhältnis.

- Wenn b1>1, dann steigen die Chancen (das Ereignis wird wahrscheinlicher)

- Wenn b1<1, dann sinken die Chancen (Ereignisse werden wahrscheinlicher)

- Wenn b1=1 ist, ist das Chancenverhältnis 0, was bedeutet, dass die Eingabe keinen Einfluss auf die Chancen hat

Das Chancenverhältnis verleiht der logistischen Regression Interpretierbarkeit. Sie zeigt, wie sich die Wahrscheinlichkeit eines Ereignisses je nach Eingabe verändert. Dies ist in vielen Anwendungsbereichen, wie dem Gesundheitswesen, dem Marketing und dem Finanzwesen, nützlich. Wir können die Koeffizienten jedoch nicht auf die gleiche Weise interpretieren wie bei der linearen Regression. Im nächsten Abschnitt schauen wir uns im Detail an, wie die Koeffizienten ermittelt und interpretiert werden.

Koeffizienten der logistischen Regression

Kontinuierliche Prädiktoren

Erinnern Sie sich: Bei der linearen Regression lassen sich die Koeffizienten leicht interpretieren. Betrachten Sie ein Beispiel für eine lineare Regression mit kontinuierlichen Variablen: Eine Erhöhung des Eingabemerkmals x um eine Einheit führt zu einer Erhöhung des vorhergesagten Ergebnisses y um b1. Diese direkte Beziehung funktioniert, weil die lineare Regression eine konstante Änderungsrate zwischen den Eingabefunktionen und dem Ziel annimmt. Ihre Ausgabe ist unbegrenzt und wächst linear.

Die logistische Regression modelliert Y jedoch nicht direkt, sondern modelliert die Wahrscheinlichkeit von Y durch die Log-Odds (das Log der Chancen). Aus diesem Grund können wir nicht sagen, dass eine Erhöhung von x um eine Einheit zu einer konstanten Änderung von y um eine Einheit führt. Wir interpretieren den Koeffizienten stattdessen im Hinblick auf seine Auswirkung auf die Log-Odds und somit auch auf die Chancen und die Wahrscheinlichkeit des Ergebnisses.

Genauer gesagt, bei der logistischen Regression:

Ein positiver Koeffizient bedeutet, dass die Log-Odds des Ergebnisses steigen, wenn die Eingabe steigt. Dies entspricht einer Erhöhung der Wahrscheinlichkeit.
Ein negativer Koeffizient bedeutet, dass die Log-Odds mit zunehmender Eingabe sinken. Dies entspricht einer Abnahme der Wahrscheinlichkeit.
Ein Koeffizient von Null bedeutet, dass die Variable keine Auswirkungen auf das Ergebnis hat.

Wichtig ist, dass die Größe des Koeffizienten angibt, wie stark dieser Einfluss ist. Das Chancenverhältnis, das die Exponentialität des Koeffizienten angibt, sagt uns, wie stark sich die Wahrscheinlichkeit bei einer Erhöhung der Variablen um eine Einheit ändert.

Kategorische Prädiktoren

Genau wie bei anderen Algorithmen des maschinellen Lernens können wir kategoriale Variablen einbeziehen, um Regressionsvorhersagen zu treffen. Wenn wir mit kategorialen oder diskreten Variablen arbeiten, verwenden wir häufig Funktion-Engineering-Techniken wie One-Hot-Codierung oder Dummy-Variablen, um sie in ein binäres Format umzuwandeln, das das Modell verwenden kann.

Nehmen wir beispielsweise an, wir möchten vorhersagen, ob eine Person eine Kreditzusage erhält ( $y = 1$ genehmigt, $y = 0$ nicht genehmigt), je nachdem, ob noch Schulden bestehen:

- Wir nehmen an, dass $x = 0$ bedeutet, dass keine Schulden bestehen

- Wir nehmen an, dass $x = 1$ bedeutet, dass Schulden bestehen

Unsere Log-Odds von $y = a p p r o v a l$ wären $y = b_{0} + b_{1} * x_{1}$

Der Koeffizient $b_{1}$ , stellt dann die Änderung der logarithmischen Wahrscheinlichkeit dar, genehmigt zu werden, wenn die Person eine bestehende Schuld hat, im Vergleich zu jemandem, der dies nicht tut.

Um dies besser interpretierbar zu machen, können wir b1 potenzieren, um das Chancenverhältnis zu erhalten:

Wenn $b_{1}$ positiv ist, $e$ zur Potenz $b_{1}$ größer als 1 ist, d. h. bestehende Schulden erhöhen die Chancen für eine Genehmigung.
Wenn $b_{1}$ negativ ist, $e$ zur Potenz $b_{1}$ kleiner als 1 ist, d. h. bestehende Schulden verringern die Chancen für eine Genehmigung.
Wenn $b_{1}$ ist 0, $e$ hoch $b_{1}$ ist 1, was bedeutet, dass der Schuldenstatus keine Auswirkungen hat.

Obwohl wir also die einfache Interpretation der Koeffizienten aus der linearen Regression verlieren, liefert die logistische Regression nach wie vor umfangreiche, interpretierbare Erkenntnisse – insbesondere, wenn wir sie im Hinblick auf Chancen und Wahrscheinlichkeitsverschiebungen betrachten. Das Ausmaß der Zunahme oder Abnahme der Wahrscheinlichkeit in Abhängigkeit von $x$ entspricht nicht einer Erhöhungseinheit in $x$ , kommt aber darauf an, wo $x$ an einem bestimmten Punkt angelangt ist.

AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Zur Episode wechseln

Schätzung der maximalen Wahrscheinlichkeit

Die Koeffizienten in der logistischen Regression, $β 0$ und $β_{1}$ , werden mithilfe der Maximum-Likelihood-Methode (MLE) geschätzt. Die Kernidee hinter dieser Methode besteht darin, die Parameter zu finden, die die beobachteten Daten im Rahmen des logistischen Regressionsmodells am wahrscheinlichsten machen.

Bei der logistischen Regression modellieren wir die Wahrscheinlichkeit, dass die Zielvariable $y_{1}$ 1 ist (z. B. „genehmigt“), wenn eine Eingabe erfolgt $x_{1}$ unter Verwendung der logistischen Funktion (Sigmoid):

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

MLE probiert verschiedene Kombinationen von $b_{0}$ und $b_{1}$ und fragt für jede Kombination: Wie wahrscheinlich ist es, dass wir unter Berücksichtigung dieser Parameter die tatsächlichen Ergebnisse in unseren Daten sehen würden?

Dies wird mithilfe der Wahrscheinlichkeitsfunktion erfasst, indem die vorhergesagten Wahrscheinlichkeiten für jeden Datenpunkt miteinander multipliziert werden.

$L (β_{0}, β_{1}) = \prod_{i = 1}^{n} p {(x_{i})}^{y_{i}} \cdot (1 - p (x_{i}))^{1 - y_{i}}$

- Wenn $y_{1} = 1$ = 1 („genehmigt“), sollte die vorhergesagte Wahrscheinlichkeit des Modells $P (x_{1})$ nahe bei 1 sein. Der Wert $p (x i)^{y} i$ geht darauf ein. Wenn die tatsächlich beobachteten Daten von y1 tatsächlich „genehmigt“ oder 1 sind, lautet der Wert 1.

- Wenn $y_{1} = 0$ =0. Wir möchten, dass die vorhergesagte Wahrscheinlichkeit nahe bei 0 liegt. Der Begriff $(1 - p (x_{i}))^{1 - y_{i}}$ bearbeitet diesen Fall. Wenn die tatsächlich beobachteten Daten von $y 1$ „nicht genehmigt“ oder 0 ist. Der Wert ist $p (x_{i})$ nahe bei 0 liegen, liegt $1 - p (x_{i})$ nahe bei 1.

Für jeden Datenpunkt multiplizieren wir also entweder $p (x 1)$ ODER $1 - p (x_{i})$ , je nachdem, ob die tatsächliche Bezeichnung 1 oder 0 ist. Das Produkt über alle Beispiele liefert uns eine einzige Zahl: die Wahrscheinlichkeit, dass der gesamte Datensatz unter dem aktuellen Modell dargestellt wird. Wie wir sehen können, wenn die vorhergesagten Ergebnisse (mithilfe der Parameter $b_{0}$ und $b_{1}$ ) mit den beobachteten Daten übereinstimmen, wird der Wert der Wahrscheinlichkeit maximiert. Der Grund für die Multiplikation aller Wahrscheinlichkeiten ist, dass wir davon ausgehen, dass die Ergebnisse unabhängig voneinander sind. Mit anderen Worten: Die Genehmigungschancen einer Person sollten die Genehmigungschancen einer anderen Person nicht beeinflussen.

Da dieses Produkt extrem klein werden kann, arbeiten wir normalerweise mit der Log-Likelihood-Methode. Diese verwandelt das Produkt in eine Summe, die sich einfacher berechnen und optimieren lässt.

Um die Werte zu finden von $b_{0}$ und $b_{1}$ die die Log-Likelihood maximieren, verwenden wir den Gradientenabstieg – einen iterativen Optimierungsalgorithmus. Bei jedem Schritt berechnen wir, wie sich die Log-Likelihood in Bezug auf jeden Parameter ändert (z. B. seinen Gradienten), und aktualisieren dann die Parameter leicht in die Richtung, die die Wahrscheinlichkeit erhöht. Im Laufe der Zeit konvergiert dieser Prozess in Richtung der Werte von $b_{0}$ und $b_{1}$ die am besten zu den Daten passen.

Arten der logistischen Regression

Es gibt drei Arten von Modellen der logistischen Regression, die auf der Grundlage von kategorialen Antworten definiert sind.

Binäre logistische Regression: Bei diesem Ansatz ist die Antwort oder abhängige Variable dichotom, d. h. sie hat nur zwei mögliche Ergebnisse (z. B. 0 oder 1). Gängige Beispiele für die Verwendung dieser Methode sind die Vorhersage, ob es sich bei einer E-Mail um Spam handelt oder nicht oder ob ein Tumor bösartig oder gutartig ist. Innerhalb der logistischen Regression ist dies der am häufigsten verwendete Ansatz und ganz allgemein einer der häufigsten Klassifikatoren für die binäre Klassifizierung.
Multinomiale logistische Regression: Bei dieser Art von logistischem Regressionsmodell hat die abhängige Variable drei oder mehr mögliche Ergebnisse, wobei diese Werte jedoch keine bestimmte Reihenfolge haben. Filmstudios möchten zum Beispiel vorhersagen, welches Filmgenre ein Kinobesucher wahrscheinlich sehen wird, um ihre Filme effektiver zu vermarkten. Ein multinomiales logistisches Regressionsmodell kann dem Studio dabei helfen, die Stärke des Einflusses zu bestimmen, den die Faktoren Alter, Geschlecht und Beziehungsstatus einer Person auf die Art der von ihr bevorzugten Filme haben. Das Studio kann dann eine Werbekampagne für einen bestimmten Film auf eine Gruppe von Personen abstimmen, die diesen Film wahrscheinlich anschauen werden.
Ordinale logistische Regression: Diese Art von logistischem Regressionsmodell wird eingesetzt, wenn die Antwortvariable drei oder mehr mögliche Ergebnisse hat. In diesem Fall haben diese Werte jedoch eine bestimmte Reihenfolge. Beispiele für ordinale Antworten sind Benotungsskalen von A bis F oder Bewertungsskalen von 1 bis 5.

Anwendungsfälle der logistischen Regression

Logistische Regression wird häufig für Vorhersage- und Klassifizierungsprobleme verwendet. Zu diesen Anwendungsfällen gehören:

Betrugserkennung: Logistische Regressionsmodelle können Teams bei der Identifizierung von Datenanomalien helfen, die auf Betrug hindeuten. Bestimmte Verhaltensweisen oder Merkmale können eine höhere Assoziation mit betrügerischen Aktivitäten aufweisen, was insbesondere für Banken und andere Finanzinstitute beim Schutz ihrer Kunden hilfreich ist. Auch SaaS-Unternehmen haben mit der Einführung dieser Verfahren begonnen, um im Rahmen der Datenanalyse um die Leistung gefälschte Benutzerkonten aus den Datensätzen zu entfernen.
Krankheitsvorhersage: In der Medizin kann dieser analytische Ansatz verwendet werden, um die Wahrscheinlichkeit von Krankheiten für eine bestimmte Bevölkerungsgruppe vorherzusagen. Gesundheitseinrichtungen können eine präventive Versorgung für Personen einrichten, die eine höhere Neigung zu bestimmten Krankheiten aufweisen.
Vorhersage der Fluktuation: Bestimmte Verhaltensweisen können auf Abwanderung in verschiedenen Funktionen eines Unternehmens hinweisen. Die Personal- und Managementteams möchten beispielsweise wissen, ob es im Unternehmen Leistungsträger gibt, bei denen die Gefahr einer Kündigung besteht. Diese Art von Erkenntnissen kann zu Gesprächen führen, um Problembereiche innerhalb des Unternehmens zu verstehen, wie z. B. die Kultur oder die Vergütung. Vielleicht möchte auch der Vertrieb erfahren, welche Kunden Gefahr laufen, ihr Geschäft zu verlagern. Dies kann die Teams zur Entwicklung einer Strategie veranlassen, um potenzielle Umsatzeinbußen zu vermeiden.

IBM X-Force Threat Intelligence Index 2026

Gewinnen Sie mit dem Index „IBM X-Force Threat Intelligence“ Erkenntnisse, um Vorbereitung und Reaktion auf Cyberangriffe schneller und effektiver zu machen.

Was ist logistische Regression?

Autor

Was ist logistische Regression?

Schließen Sie sich den über 100.000 Abonnenten an, die die neuesten Nachrichten aus der Welt der Technik lesen

Vielen Dank!

Logistische Regression im Vergleich zu linearer Regression

Logistische Regression unter der Oberfläche

Chancen, Log-Odds und Chancenverhältnis

Chancen

Log-Odds

Chancenverhältnis

Koeffizienten der logistischen Regression

Kontinuierliche Prädiktoren

Kategorische Prädiktoren

Nutzen Sie KI für Ihren Kundenservice

Schätzung der maximalen Wahrscheinlichkeit

Arten der logistischen Regression

Anwendungsfälle der logistischen Regression

Ressourcen