Verallgemeinerte lineare Modelle
Das verallgemeinerte lineare Modell erweitert das allgemeine lineare Modell so, dass die abhängige Variable über eine angegebene Verknüpfungsfunktion in linearem Zusammenhang zu den Faktoren und Kovariaten steht. Außerdem ist es mit diesem Modell möglich, dass die abhängige Variable eine von der Normalverteilung abweichende Verteilung aufweist. Es deckt durch seine sehr allgemein gehaltene Modellformulierung häufig verwendete statistische Modelle ab, wie beispielsweise die lineare Regression für normalverteilte Antworten, logistische Modelle für binäre Daten und loglineare Modelle für Häufigkeitsdaten, Modelle vom Typ "Log-Log komplementär" für intervallzensierte Überlebensdaten sowie viele andere statistische Modelle.
Beispiele. Eine Reederei kann verallgemeinerte lineare Modelle verwenden, um eine Poisson-Regression auf die Anzahl der Havarien für mehrere Schiffstypen anzuwenden, die in verschiedenen Zeiträumen gebaut wurden. Anhand des so entstandenen Modells kann ermittelt werden, welche Schiffstypen am havarieanfälligsten sind.
Ein KFZ-Versicherungsunternehmen kann mithilfe von verallgemeinerten linearen Modellen eine Gamma-Regression an die Schadensansprüche für Autos anpassen. Anhand des so entstandenen Modells können die Faktoren ermittelt werden, die am meisten zur Anspruchshöhe beitragen.
Medizinforscher können mithilfe von verallgemeinerten linearen Modellen eine komplementäre Log-Log-Regression für intervallzensierte Überlebensdaten anpassen, um die Dauer bis zum Wiederauftreten eines Krankheitsbilds vorherzusagen.
Erläuterungen der Daten für verallgemeinerte lineare Modelle
Daten. Die Antwort kann metrisch (Skala), eine Anzahl, binär oder vom Typ "Ereignisse in Versuchen" sein. Es wird davon ausgegangen, dass Faktoren kategorial sind. Es wird davon ausgegangen, dass Kovariaten, Skalengewichtung und Offset metrisch (Skala) sind.
Annahmen. Fälle werden als unabhängige Beobachtungen betrachtet.
So erstellen Sie ein verallgemeinertes lineares Modell:
Für diese Funktion ist SPSS Statistics Standard Edition oder die Option "Advanced Statistics" erforderlich.
Wählen Sie in den Menüs Folgendes aus:
- Geben Sie eine Verteilung und eine Verknüpfungsfunktion an (unten finden Sie Einzelheiten zu den verschiedenen Optionen).
- Wählen Sie auf der Registerkarte Abhängige Variable eine abhängige Variable aus.
- Wählen Sie auf der Registerkarte Prädiktoren die Faktoren und Kovariaten aus, die zur Vorhersage der abhängigen Variablen verwendet werden sollen.
- Geben Sie auf der Registerkarte Modell mithilfe der ausgewählten Faktoren und Kovariaten Modelleffekte an.
Auf der Registerkarte "Typ des Modells" können Sie die Verteilung und die Verknüpfungsfunktion für Ihr Modell angeben, die Schnellverfahren für mehrere häufig verwendete Modelle bieten, die durch den Antworttyp kategorisiert sind.
Modelltypen
Metrische abhängige Variable. Die folgenden Optionen sind verfügbar:
- Linear. Gibt "Normal" als Verteilung und "Identität" als Verknüpfungsfunktion an.
- Gamma mit Log-Verknüpfung. Gibt "Gamma" als Verteilung und "Log" als Verknüpfungsfunktion an.
Ordinale abhängige Variable. Die folgenden Optionen sind verfügbar:
- Ordinal logistisch. Gibt "Multinomial (ordinal)" als Verteilung und "Logit (kumulativ)" als Verknüpfungsfunktion an.
- Ordinal Probit. Gibt "Multinomial (ordinal)" als Verteilung und "Probit (kumulativ)" als Verknüpfungsfunktion an.
Häufigkeiten. Die folgenden Optionen sind verfügbar:
- Poisson loglinear. Gibt "Poisson" als Verteilung und "Log" als Verknüpfungsfunktion an.
- Negativ binomial mit Log-Verknüpfung. Gibt "Negativ binomial" (mit einem Wert von 1 für den Hilfsparameter) als Verteilung und "Log" als Verknüpfungsfunktion an. Damit die Prozedur den Wert des Hilfsparameters schätzt, geben Sie ein benutzerdefiniertes Modell mit negativer binomialer Verteilung an und wählen Sie Wert schätzen in der Gruppe "Parameter".
Binär oder Anzahl Ereignisse. Die folgenden Optionen sind verfügbar:
- Binär logistisch. Gibt "Binomial" als Verteilung und "Logit" als Verknüpfungsfunktion an.
- Binär Probit. Gibt "Binomial" als Verteilung und "Probit" als Verknüpfungsfunktion an.
- Intervallzensiertes Überleben. Gibt "Binomial" als Verteilung und "Log-Log komplementär" als Verknüpfungsfunktion an.
Mischung. Die folgenden Optionen sind verfügbar:
- Tweedie mit Verknüpfungsfunktion "Log". Gibt "Tweedie" als Verteilung und "Log" als Verknüpfungsfunktion an.
- Tweedie mit Verknüpfungsfunktion "Identität". Gibt "Tweedie" als Verteilung und "Identität" als Verknüpfungsfunktion an.
Benutzerdefiniert. Geben Sie Ihre eigene Kombination von Verteilung und Verknüpfungsfunktion an.
Verteilung
Diese Auswahl gibt die Verteilung der abhängigen Variablen an. Die Möglichkeit einer anderen Verteilung als "Normal" und einer anderen Verknüpfungsfunktion als "Identität" ist die wichtigste Verbesserung des verallgemeinerten linearen Modells gegenüber dem allgemeinen linearen Modell. Es gibt zahlreiche mögliche Kombinationen aus Verteilung und Verknüpfungsfunktion und es können mehrere davon für das jeweils vorliegende Dataset geeignet sein. Daher können Sie sich in Ihrer Wahl durch theoretische Vorüberlegungen leiten lassen oder davon, welche Kombination am besten zu passen scheint.
- Binomial. Diese Verteilung ist nur für Variablen geeignet, die eine binäre Antwort oder eine Anzahl von Ereignissen repräsentieren.
- Gamma. Diese Verteilung eignet sich für Variablen mit positiven Skalenwerten, die in Richtung größerer positiver Werte verzerrt sind. Wenn ein Datenwert kleiner-gleich 0 ist oder fehlt, wird der entsprechende Fall nicht in der Analyse verwendet.
- Invers normal. Diese Verteilung eignet sich für Variablen mit positiven Skalenwerten, die in Richtung größerer positiver Werte verzerrt sind. Wenn ein Datenwert kleiner-gleich 0 ist oder fehlt, wird der entsprechende Fall nicht in der Analyse verwendet.
- Negativ binomial. Diese Verteilung lässt sich als Anzahl der Versuche betrachten, die erforderlich sind, um k Erfolge zu beobachten, und eignet sich für Variablen mit nicht negativen ganzzahligen Werten. Wenn ein Datenwert keine Ganzzahl oder kleiner als 0 ist oder fehlt, wird der entsprechende Fall nicht in der Analyse verwendet. Der Wert des Hilfsparameters der negativen Binomialverteilung kann jede beliebige Zahl größer-gleich 0 sein. Sie können einen festen Wert dafür festlegen oder den Wert durch die Prozedur schätzen lassen. Wenn der Hilfsparameter auf 0 gesetzt wird, ist die Verwendung dieser Verteilung äquivalent zur Verwendung der Poisson-Verteilung.
- Normal. Diese Option eignet sich für metrische Variablen, deren Werte eine symmetrische, glockenförmige Verteilung um einen Mittelwert aufweisen. Die abhängige Variable muss numerisch sein.
- Poisson. Diese Verteilung lässt sich als Anzahl der Vorkommen eines untersuchten Ereignissen in einem festen Zeitraum betrachten und eignet sich für Variablen mit nicht negativen ganzzahligen Werten. Wenn ein Datenwert keine Ganzzahl oder kleiner als 0 ist oder fehlt, wird der entsprechende Fall nicht in der Analyse verwendet.
- Tweedie. Diese Verteilung eignet sich für Variablen, die durch Poisson-Mischungen von Gammaverteilungen repräsentiert werden können; die Verteilung ist dahingehend "gemischt", dass sie sowohl Eigenschaften von stetigen Verteilungen (nimmt nicht negative reelle Werte an) als auch von diskreten Verteilungen (positive Wahrscheinlichkeitsmasse an einem Einzelwert, 0) aufweist. Die abhängige Variable muss numerisch sein, mit Datenwerten größer-gleich 0. Wenn ein Datenwert kleiner als 0 ist oder fehlt, wird der entsprechende Fall nicht in der Analyse verwendet. Der feste Wert des Parameters der Tweedie-Verteilung kann jede beliebige Zahl zwischen 1 und 2 sein.
- Multinomial. Diese Verteilung eignet sich für Variablen, die eine ordinale abhängige Variable repräsentieren. Bei der abhängigen Variablen kann es sich um eine numerische Variable oder eine Zeichenfolgevariable handeln; sie muss mindestens zwei verschiedene gültige Datenwerte aufweisen.
Verknüpfungsfunktionen
Die Verknüpfungsfunktion ist eine Transformation der abhängigen Variablen, die eine Schätzung des Modells ermöglicht. Die folgenden Funktionen sind verfügbar:
- Identität. f(x) = x. Die abhängige Variable wird nicht transformiert. Diese Verknüpfung kann mit jeder beliebigen Verteilung verwendet werden.
- Log-Log komplementär. f(x) = log(−log(1−x)). Nur für die Binomialverteilung geeignet.
- Cauchit (kumulativ). f(x) = tan(π(x - 0,5)), angewendet auf die kumulative Wahrscheinlichkeit der einzelnen Kategorien der Antwort. Nur für die Multinomialverteilung geeignet.
- Log-Log komplementär (kumulativ). f(x) = ln(−ln(1−x)), angewendet auf die kumulative Wahrscheinlichkeit der einzelnen Kategorien der Antwort. Nur für die Multinomialverteilung geeignet.
- Logit (kumulativ). f(x) = ln(x/(1−x)), angewendet auf die kumulative Wahrscheinlichkeit der einzelnen Kategorien der Antwort. Nur für die Multinomialverteilung geeignet.
- Log-Log negativ (kumulativ). f(x) = −ln(−ln(x)), angewendet auf die kumulative Wahrscheinlichkeit der einzelnen Kategorien der Antwort. Nur für die Multinomialverteilung geeignet.
- Probit (kumulativ). f(x) = Φ−1(x), angewendet auf die kumulative Wahrscheinlichkeit der einzelnen Kategorien der Antwort, wobei Φ−1 die umgekehrte kumulative Standardnormalverteilungsfunktion ist. Nur für die Multinomialverteilung geeignet.
- Log. f(x)=log(x). Diese Verknüpfung kann mit jeder beliebigen Verteilung verwendet werden.
- Log. Komplement. f(x) = log(1−x). Nur für die Binomialverteilung geeignet.
- Logit. f(x)=log(x / (1−x)). Nur für die Binomialverteilung geeignet.
- Negativ binomial. f(x) = log(x/(x+k−1)), wobei k der Hilfsparameter der negativen Binomialverteilung ist. Nur für die negative Binomialverteilung geeignet.
- Log-Log negativ. f(x) = −log(−log(x)). Nur für die Binomialverteilung geeignet.
- Odds-Potenz. f(x)=[(x/(1−x))α−1]/α, if α ≠ 0. f(x)=log(x), if α=0. α ist die erforderliche Zahlenspezifikation und muss eine reelle Zahl sein. Nur für die Binomialverteilung geeignet.
- Probit. f(x) = Φ−1(x), wobei Φ−1 die umgekehrte kumulative Standardnormalverteilungsfunktion ist. Nur für die Binomialverteilung geeignet.
- Exponent. f(x)=x α, if α ≠ 0. f(x)=log(x), if α=0. α ist die erforderliche Zahlenspezifikation und muss eine reelle Zahl sein. Diese Verknüpfung kann mit jeder beliebigen Verteilung verwendet werden.
Mit dieser Prozedur wird Syntax des Befehls GENLIN eingefügt.