Diskriminanzanalyse

Die Diskriminanzanalyse erstellt ein Vorhersagemodell für Gruppenzugehörigkeiten. Dieses Modell besteht aus einer Diskriminanzfunktion (oder bei mehr als zwei Gruppen ein Set von Diskriminanzfunktionen) auf der Grundlage derjenigen linearen Kombinationen der Prädiktorvariablen, welche die beste Diskriminanz zwischen den Gruppen ergeben. Die Funktionen werden aus einer Stichprobe der Fälle generiert, bei denen die Gruppenzugehörigkeit bekannt ist. Diese Funktionen können dann auf neue Fälle mit Messungen für die Prädiktorvariablen, aber unbekannter Gruppenzugehörigkeit angewandt werden.

Hinweis: Die Gruppierungsvariable kann mehr als zwei Werte besitzen. Die Codes für die Gruppierungsvariable müssen allerdings ganzzahlige Werte sein, und Sie müssen hierfür die minimalen und maximalen Werte festlegen. Fälle mit Werten außerhalb dieser Grenzen werden von der Analyse ausgeschlossen.

Beispiel. Im Durchschnitt verbrauchen Personen in kühlen Ländern mehr Kalorien pro Tag als Bewohner der Tropen, und ein größerer Anteil der Personen in den kühlen Ländern sind Stadtbewohner. Ein Forscher möchte diese Informationen in einer Funktion zusammenfassen, um zu bestimmen, wie gut eine bestimmte Person diesen beiden Ländergruppen zugeordnet werden kann. Der Forscher nimmt an, dass auch die Bevölkerungsgröße und Wirtschaftsinformationen relevant sein könnten. Mit der Diskriminanzanalyse können Sie die Koeffizienten der linearen Diskriminanzfunktion schätzen, die im Prinzip genauso wie die rechte Seite einer Regressionsgleichung bei mehrfacher Regression aufgebaut ist. Unter Verwendung der Koeffizienten a, b, c und d lautet die Funktion also:


D = a * climate + b * urban + c * population + d * gross domestic product per capita

Wenn diese Variablen für die Unterscheidung zwischen den beiden Klimazonen relevant sind, müssen sich die Werte von D für tropische und kühlere Länder unterscheiden. Falls Sie eine schrittweise Methode für die Variablenauswahl verwenden, stellen Sie unter Umständen fest, dass nicht alle vier Variablen in die Funktion aufgenommen werden müssen.

Statistik. Für jede Variable: Mittelwerte, Standardabweichungen, univariate ANOVA. Für jede Analyse: Box-M, Korrelationsmatrix innerhalb der Gruppen, Kovarianzmatrix innerhalb der Gruppen, Kovarianzmatrix der einzelnen Gruppen, gesamte Kovarianzmatrix. Für jede kanonische Diskriminanzfunktion: Eigenwert, Prozentwert der Varianz, kanonische Korrelation, Wilks-Lambda, Chi-Quadrat. Für jeden Schritt: A-priori-Wahrscheinlichkeit, Funktionskoeffizienten nach Fisher, nicht standardisierte Funktionskoeffizienten, Wilks-Lambda für jede kanonische Funktion.

Erläuterungen der Daten für die Diskriminanzanalyse

Daten. Die Gruppierungsvariable muss über eine begrenzte Anzahl unterschiedener Kategorien verfügen, die als ganzzahlige Werte codiert werden. Unabhängige nominale Variablen müssen in Dummy- oder Kontrastvariablen umcodiert werden.

Annahmen. Die Fälle müssen unabhängig sein. Prädiktorvariablen müssen in multivariater Normalverteilung vorliegen, und die Varianz-Kovarianz-Matrizen innerhalb der Gruppen müssen zwischen den Gruppen gleich groß sein. Die Gruppenzugehörigkeit muss sich wechselseitig ausschließen (das heißt, kein Fall gehört zu mehreren Gruppen) und umfassend sein (das heißt, alle Fälle gehören zu einer Gruppe). Diese Prozedur ist am effektivsten, wenn die Gruppenzugehörigkeit eine rein kategoriale Variable ist. Wenn die Gruppenzugehörigkeit hingegen auf den Werten einer stetigen Variablen basiert (zum Beispiel bei einem Vergleich von IQ-Werten), sollten Sie die lineare Regression in Betracht ziehen, um von den reichhaltigeren Informationen zu profitieren, die in der stetigen Variablen selbst enthalten sind.

So lassen Sie eine Diskriminanzanalyse berechnen:

Für diese Funktion ist die Option "Statistics Base" erforderlich.

Wählen Sie in den Menüs Folgendes aus:
Analysieren > Klassifizieren > Diskriminanz ...

Hinweis: Die rot markierten Felder sind Pflichtfelder. Die Schaltflächen „Einfügen“ und „OK“ werden aktiviert, nachdem Sie gültige Werte in alle erforderlichen Felder eingegeben haben.
Wählen Sie eine Gruppierungsvariable mit ganzzahligen Werten aus und klicken Sie auf Bereich definieren, um die gewünschten Kategorien festzulegen.
Wählen Sie die unabhängigen Variablen oder Prädiktorvariablen aus. (Wenn die Gruppierungsvariable nicht ganzzahlig ist, können Sie eine Variable mit dieser Eigenschaft im Menü "Transformieren" mit dem Befehl "Automatisch umcodieren" erstellen.)
Wählen Sie die gewünschte Methode für die Eingabe der unabhängigen Variablen aus.
- Unabhängige Variablen zusammen aufnehmen. Nimmt alle unabhängigen Variablen, welche die Toleranzkriterien erfüllen, gleichzeitig auf.
- Schrittweise Methode verwenden. Verwendet eine schrittweise Analyse zur Steuerung von Variablenaufnahme und Variablenausschluss.
Wahlweise können Sie die Fälle auch mithilfe einer Auswahlvariablen auswählen.

Mit dieser Prozedur wird DISCRIMINANT -Befehlssyntax eingefügt.