Logistische Regression
Die logistische Regression ist für Situationen nützlich, in denen Sie anhand der Werte von Prädiktorvariablen das Vorhandensein oder Nichtvorhandensein einer Eigenschaft oder eines Ergebnisses vorhersagen möchten. Diese Art der Regression verhält sich ähnlich wie ein lineares Regressionsmodell. Sie ist jedoch für Modelle geeignet, in denen die abhängige Variable dichotom ist. Die Koeffizienten der logistischen Regression können verwendet werden, um die Odds-Verhältnisse jeder unabhängigen Variablen im Modell zu schätzen. Die logistische Regression lässt sich auf einen größeren Bereich von Forschungssituationen anwenden als die Diskriminanzanalyse.
Beispiel. Welche Verhaltensweisen stellen Risikofaktoren für eine Erkrankung der Herzkranzgefäße dar? Bei einer Stichprobe von Patienten, bei denen Daten hinsichtlich Rauchgewohnheiten, Ernährung, körperliche Betätigung, Alkoholkonsum und Erkrankung der Herzkranzgefäße erhoben wurden, können Sie mit den vier Variablen für die Verhaltensweisen ein Modell erstellen, mit dem das Vorhandensein oder Nichtvorhandensein von Erkrankungen der Herzkranzgefäße in einer Stichprobe von Patienten vorhergesagt werden kann. Das Modell kann dann verwendet werden, um für jeden Faktor Schätzungen der Odds-Verhältnisse abzuleiten, die beispielsweise aussagen, um wie viel wahrscheinlicher Raucher eine Erkrankung der Herzkranzgefäße entwickeln als Nichtraucher.
Statistik. Für jede Analyse: Gesamtzahl der Fälle, ausgewählte Fälle, gültige Fälle. Für jede kategoriale Variable: Parametercodierung. Für jeden Schritt: eingeschlossene und entfernte Variablen, Iterationsverlauf, -2-Log-Likelihood, Güte der Anpassung, Hosmer-Lemeshow-Anpassungstest, Chi-Quadrat für das Modell, Chi-Quadrat für die Verbesserung, Klassifikationstabelle, Diagramm der Korrelationen zwischen Variablen, beobachteten Gruppen und vorhergesagten Wahrscheinlichkeiten, Chi-Quadrat-Residuen. Für jede Variable der Gleichung: Koeffizient (B), Standardfehler von B, Wald-Statistik, geschätztes Odds-Verhältnis (Exp(B)), Konfidenzintervall für Exp(B), Log-Likelihood (falls der Term aus dem Modell entfernt wurde). Für jede nicht in der Gleichung vorhandene Variable: Scorestatistik. Für jeden Fall: beobachtete Gruppe, vorhergesagte Wahrscheinlichkeit, vorhergesagte Gruppenzugehörigkeit, Residuum, standardisiertes Residuum.
Methoden. Beim Schätzen des Modells können die Variablen gesammelt im Block oder mit einer der folgenden schrittweisen Methoden eingeschlossen werden: "Vorwärts: Bedingt", "Vorwärts: LQ", "Vorwärts: Wald", "Rückwärts: Bedingt", "Rückwärts: LQ" und "Rückwärts: Wald".
Erläuterungen der Daten für die logistische Regression
Daten. Die abhängige Variable sollte dichotom sein. Unabhängige Variablen können Intervalle oder kategorial sein. Kategoriale Variablen sollten als Dummy oder Indikator codiert sein. (In der Prozedur ist eine Option zum automatischen Umcodieren von kategorialen Variablen verfügbar.)
Annahmen. Die logistische Regression beruht nicht so wie die Diskriminanzanalyse auf Annahmen hinsichtlich der Verteilung. Ihre Lösung ist aber möglicherweise stabiler, wenn die Prädiktoren eine multivariate Normalverteilung aufweisen. Wie bei anderen Formen der Regression kann eine Multikollinearität zwischen den Prädiktoren außerdem zu verzerrten Schätzungen und erhöhten Standardfehlern führen. Die Prozedur ist am effektivsten, wenn die Gruppenzugehörigkeit eine echte kategoriale Variable ist. Wenn die Gruppenzugehörigkeit auf den Werten einer stetigen Variablen beruht (z. B. "hoher IQ" bis "niedriger IQ"), empfiehlt sich die lineare Regression, mit der Sie die Vorteile der vielfältigen Informationen von stetigen Variablen nutzen können.
Verwandte Prozeduren. Verwenden Sie die Prozedur "Streudiagramm", um Ihre Daten auf Multikollinearität zu sichten. Wenn eine multivariate Normalverteilung und gleiche Varianz-Kovarianz-Matrizen vorliegen, erzielen Sie mit der Prozedur "Diskriminanzanalyse" schneller eine Lösung. Wenn alle Prädiktorvariablen kategorial sind, können Sie auch die Prozedur "Loglinear" verwenden. Wenn die abhängige Variable stetig ist, verwenden Sie die Prozedur "Lineare Regression". Mit der Prozedur "ROC-Kurve" können Sie die Wahrscheinlichkeiten, die mit der Prozedur "Logistische Regression" gespeichert wurden, in einem Diagramm darstellen.
Berechnen einer logistischen Regressionsanalyse
Diese Funktion erfordert SPSS® Statistics Standard Edition oder die Regressionsoption.
- Wählen Sie in den Menüs Folgendes aus:
- Wählen Sie eine dichotome abhängige Variable aus. Dies kann eine numerische oder eine Zeichenfolgevariable sein.
- Wählen Sie mindestens eine Kovariate aus. Um alle Interaktionsterme einzuschließen, wählen Sie erst alle mit der Interaktion verbundenen Variablen und dann >a*b> aus.
Um Variablen in Gruppen (Blöcken) einzugeben, wählen Sie erst die Kovariaten für einen Block aus. Klicken Sie dann auf Weiter, um einen neuen Block festzulegen. Wiederholen Sie diesen Vorgang, bis alle Blöcke festgelegt wurden.
Sie können außerdem Fälle für die Analyse auswählen. Wählen Sie eine Auswahlvariable aus und geben Sie die Regelkriterien ein.
Mit dieser Prozedur wird LOGISTIC REGRESSION -Befehlssyntax eingefügt.