Analyse fehlender Werte

Die Prozedur "Analyse fehlender Werte" dient primär drei Funktionen:

  • Beschreiben des Musters fehlender Daten. Wo befinden sich die fehlenden Daten? Welches Ausmaß weisen sie auf? Tendieren Variablenpaare dazu, fehlenden Werte in mehreren Fällen aufzuweisen? Sind die Datenwerte extrem? Fehlen wahllos Werte?
  • Schätzen der Mittelwerte, Standardabweichung, Kovarianzen und Korrelationen für verschiedene Methoden für fehlende Werte: listenweise Methode, paarweise Methode, Regressionsmethode oder EM-Methode (Maximierung des Erwartungswerts). Bei der paarweisen Methode werden auch die Häufigkeiten der paarweise vollständigen Fälle angezeigt.
  • Füllen (imputierter) fehlender Werte mit geschätzten Werten mithilfe von Regressions- oder EM-Methoden. Multiple Imputation wird in der Regel jedoch als Methode betrachtet, die die genaueren Ergebnisse liefert.

Die Analyse fehlender Werte unterstützt Sie beim Umgang mit Problemen, die durch unvollständige Daten verursacht werden. Wenn Fälle mit fehlenden Werten sich systematisch von Fällen ohne fehlende Werte unterscheiden, können die Ergebnisse irreführend sein. Fehlende Daten können außerdem die Genauigkeit der berechneten Statistiken beeinträchtigen, da weniger Informationen vorliegen als ursprünglich geplant. Ein weiteres Problem ist die Annahme hinter vielen statistischen Prozeduren, dass alle Fälle vollständig sind. Fehlende Werte können den erforderlichen theoretischen Ansatz verkomplizieren.

Beispiel: Bei der Auswertung einer Leukämiebehandlung werden verschiedene Variablen gemessen. Es sind jedoch nicht alle Messwerte für alle Patienten verfügbar. Die Muster der fehlenden Daten werden angezeigt, tabellarisch dargestellt und für zufällig befunden. Eine EM-Analyse wird für die Schätzung der Mittelwerte, Korrelationen und Kovarianzen verwendet. Sie dient außerdem dazu, um festzustellen, ob die Daten in völlig zufälliger Weise fehlen. Die fehlenden Werte werden dann durch abgeleitete (imputierte) Werte ersetzt und zur weiteren Analyse in einer neuen Datendatei gespeichert.

Statistiken. Univariate Statistiken, einschließlich der Anzahl nicht fehlender Werte, dem Mittelwert, der Standardabweichung, der Anzahl fehlender Werte und der Anzahl von Extremwerten. Geschätzte Mittelwerte, Kovarianz- und Korrelationsmatrix unter Verwendung der listenweisen, paarweisen, EM- oder Regressionsmethode. MCAR-Test nach Little mit EM-Ergebnissen. Auswertung der Mittelwerte nach verschiedenen Methoden. Für Gruppen, die durch fehlende Werte gegenüber nicht fehlenden Werten definiert sind: t-Tests. Für alle Variablen: Muster der fehlenden Werte angezeigt nach Fällen und Variablen.

Erläuterung der Daten

Daten. Die Daten können kategorial oder quantitativ (metrisch oder stetig) sein. Die Berechnung von Statistiken und das Imputieren (Vorschreiben) fehlender Daten ist jedoch nur für die quantitativen Variablen möglich. Bei allen Variablen müssen die fehlenden Werte, die nicht als systemdefiniert fehlend codiert sind, als benutzerdefiniert fehlend definiert werden. Wenn beispielsweise für eine Frage in einem Fragebogen die Antwort Ich weiß nicht als 5 codiert ist und Sie diese als fehlend behandeln möchten, muss für diese Frage 5 als benutzerdefinierter fehlender Wert codiert werden. Weitere Informationen finden Sie in Fehlende Werte.

Häufigkeitsgewichtungen. Häufigkeitsgewichtungen (Replikation) werden von dieser Prozedur berücksichtigt. Fälle mit einer negativen oder nullwertigen Replikationsgewichtung werden ignoriert. Nicht ganzzahligen Gewichtungen werden gekürzt.

Annahmen. Listenweisen, paarweisen und Regressionsschätzungen liegt die Annahme zugrunde, dass das Muster der fehlenden Werte nicht von den Datenwerten abhängt. Diese Bedingung ist als völlig zufällig fehlend oder MCAR (Missing Completely At Random) bekannt. Daher ergeben alle Schätzmethoden (einschließlich der EM-Methode) bei MCAR-Daten konsistente und unverzerrte Schätzungen der Korrelationen und Kovarianzen. Die Verletzung der MCAR-Annahme kann dazu führen, dass von der listenweisen, paarweisen bzw. Regressionsmethode verzerrte Schätzungen generiert werden. Wenn es sich nicht um MCAR-Daten handelt, muss die EM-Schätzung verwendet werden.

Der EM-Schätzung liegt die Annahme zugrunde, dass das Muster der fehlenden Daten nur mit den beobachteten Daten zusammenhängt. Diese Bedingung wird zufällig fehlend oder MAR ("missing at random") genannt. Aufgrund dieser Annahme können die Schätzungen unter Verwendung der verfügbaren Informationen korrigiert werden. So kann es beispielsweise in einer Studie über Bildung und Einkommen vorkommen, dass bei Personen mit niedrigerer Bildung eine höhere Anzahl fehlende Einkommenswerte vorliegt. In diesem Fall handelt es sich um MAR-Daten, nicht um MCAR-Daten. Anders ausgedrückt: Bei MAR hängt die Wahrscheinlichkeit, dass ein Einkommen angegeben wird, vom Bildungsniveau der betreffenden Person ab. Die Wahrscheinlichkeit kann abhängig von der Bildung, nicht jedoch abhängig vom Einkommen innerhalb des betreffenden Bildungsniveaus schwanken. Wenn die Wahrscheinlichkeit, dass ein Einkommen angegeben wird auch in Abhängigkeit vom Einkommen innerhalb der einzelnen Bildungsniveaus schwankt (wenn beispielsweise Personen mit hohem Einkommen ihr Einkommen nicht angeben), handelt es sich weder um MCAR-Daten noch um MAR-Daten. Dies ist eine ungewöhnliche Situation, bei deren Eintreten keine der Methoden angemessen ist.

Verwandte Prozeduren. Listenweise und paarweise Schätzungen können in vielen Prozeduren verwendet werden. Mit der linearen Regression und der Faktorenanalyse könne fehlende Werte durch die Mittelwerte ersetzt werden. Im Zusatzmodul "Forecasting" sind verschiedene Methoden verfügbar, um fehlende Werte in Zeitreihen zu ersetzen.

So berechnen Sie eine Analyse fehlender Werte:

Für diese Funktion ist die Option "Missing Values" erforderlich.

  1. Wählen Sie in den Menüs Folgendes aus:

    Analysieren > Analyse fehlender Werte...

  2. Wählen Sie mindestens eine quantitative (metrische) Variable zur Schätzung der Statistiken und der optionalen Imputation fehlender Werte aus.

Die folgenden Optionen sind verfügbar:

  • Wählen Sie kategoriale Variablen (numerisch oder Zeichenfolge) aus und geben Sie für die Anzahl der Kategorien eine Grenze (Maximalzahl der Kategorien) ein.
  • Klicken Sie auf Muster zur tabellarischen Darstellung der Muster fehlender Daten. Weitere Informationen finden Sie in Anzeigen von Mustern fehlender Werte.
  • Klicken Sie auf Deskriptive Statistik zur Anzeige deskriptiver Statistiken fehlender Werte. Weitere Informationen finden Sie in Anzeigen deskriptiver Statistiken für fehlende Werte.
  • Wählen Sie eine Methode zur Schätzung der Statistiken (Mittelwerte, Kovarianzen und Korrelationen) und optionalen Imputation fehlender Werte aus. Weitere Informationen finden Sie in Schätzen von Statistiken und Imputieren fehlender Werte.
  • Wenn Sie "EM" oder "Regression" auswählen, klicken Sie auf Variablen, um das Subset anzugeben, das für die Schätzung verwendet wird. Weitere Informationen finden Sie in Vorhergesagte Variablen und Prädiktorvariablen.
  • Wählen Sie eine Variable für die Fallbeschriftung aus. Diese Variable dient zur Beschriftung von Fällen in Mustertabellen, die einzelne Fälle anzeigen.