Multiple Imputation

Der Zweck der multiplen Imputation ist die Erzeugung möglicher Werte für fehlende Werte, um so verschiedene "vollständige" Sets an Daten zu erzeugen. Analyseverfahren, die mit Multiple-Imputation-Datasets arbeiten, erzeugen Ausgaben für jedes "vollständige" Dataset sowie eine gemeinsame Ausgabe, die schätzt, welche Ergebnisse entstanden wären, wenn das Originaldataset keine fehlenden Werte besitzen würde. Diese zusammengefassten Ergebnisse sind in der Regel genauer als die, die durch einfache Imputationsmethoden entstehen.

Multiple Imputation - Datenüberlegungen

Analysevariablen. Die Analysevariablen können wie folgt gestaltet sein:

  • Nominell. Eine Variable kann als nominal behandelt werden, wenn ihre Werte Kategorien darstellen, die sich nicht in eine natürliche Reihenfolge bringen lassen, z. B. die Firmenabteilung, in der eine Person arbeitet. Beispiele für nominale Variablen sind Region, Postleitzahl oder Religionszugehörigkeit.
  • Ordinal. Eine Variable kann als ordinal behandelt werden, wenn ihre Werte für Kategorien stehen, die eine natürliche Reihenfolge aufweisen (z. B. Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden). Ordinale Variablen treten beispielsweise bei Einstellungsmessungen (Zufriedenheit oder Vertrauen) und bei Präferenzbeurteilungen auf.
  • Nachkommastellen. Eine Variable kann als metrisch (stetig) behandelt werden, wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen, sodass man sinnvolle Aussagen über die Abstände zwischen den Werten machen kann. Metrische Variablen sind beispielsweise Alter (in Jahren) oder Einkommen (in Geldeinheiten).

    Bei der Prozedur wird davon ausgegangen, dass allen Variablen das richtige Messniveau zugewiesen wurde. Sie können das Messniveau für eine Variable jedoch vorübergehend ändern. Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellenvariablen und wählen Sie das gewünschte Messniveau im Popup-Menü aus. Wenn Sie das Messniveau für eine Variable dauerhaft ändern möchten, siehe Messniveau für Variablen .

Messniveau und Datentyp sind durch ein Symbol neben der jeweiligen Variablen in der Variablenliste gekennzeichnet:

Tabelle 1. Messniveausymbole
  Numerisch Zeichenfolge Datum Zeit
Metrisch (stetig)
Skalensymbol
nicht zutreffend
Symbol für Skalierungsdatum
Symbol für Skalierungszeit
Ordinalzahl
Ordinalsymbol
Symbol für ordinale Zeichenfolge
Symbol für ordinales Datum
Symbol für ordinale Zeit
Nominal
Nominales Symbol
Symbol für nominale Zeichenfolge
Symbol für nominales Datum
Symbol für nominale Zeit

Häufigkeitsgewichtungen. Häufigkeitsgewichtungen (Replikation) werden von dieser Prozedur berücksichtigt. Fälle mit einer negativen oder nullwertigen Replikationsgewichtung werden ignoriert. Nicht ganzzahlige Gewichtungen werden auf die nächste Ganzzahl gerundet.

Analysegewichtung. Analysegewichtungen (Regression oder Stichprobe) werden in Zusammenfassungen von fehlenden Werten und in passende Imputationsmodelle integriert. Fälle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen.

Komplexe Stichproben. Das Verfahren der multiplen Imputation ist nicht explizit für Schichten, Cluster oder andere komplexe Stichprobenstrukturen gedacht, es kann jedoch endgültige Stichprobengewichtungen in Form der Analysegewichtungsvariablen akzeptieren. Beachten Sie auch, dass Prozeduren für komplexe Stichproben nicht automatisch mehrere imputierte Datasets analysieren. Eine vollständige Liste der Prozeduren, die das Pooling unterstützen, finden Sie unter Analyse multipler Imputationsdaten.

Fehlende Werte. Sowohl benutzer- als auch systemdefiniert fehlende Werte werden als ungültige Werte behandelt. Beide Arten von fehlenden Werten werden ersetzt, wenn Werte imputiert werden, und beide Arten werden als ungültige Werte von als Einflussfaktoren in Imputationsmodellen verwendeten Variablen behandelt. Benutzer- und systemdefiniert fehlende Werte werden auch bei Fehlanalysen als fehlende Werte behandelt.

Replikation von Ergebnissen (Fehlende Datenwerte imputieren). Wenn Sie Ihre Imputation exakt reproduzieren möchten, müssen Sie nicht nur dieselben Einstellungen für die Prozedur, sondern auch denselben Initialisierungswert für den Zufallszahlengenerator, dieselbe Datenreihenfolge und dieselbe Variablenreihenfolge verwenden.

  • Generierung von Zufallszahlen. Die Prozedur verwendet Zufallszahlengenerierung bei der Berechnung der imputierten Werte. Um zu einem späteren Zeitpunkt dieselben randomisierten Ergebnisse zu reproduzieren, müssen Sie vor jeder Ausführung der Prozedur "Fehlende Datenwerte imputieren" denselben Initialisierungswert für den Zufallszahlengenerator verwenden. Weitere Informationen finden Sie im Thema Zufallszahlengeneratoren .
  • Fallreihenfolge. Werte werden in der Fallreihenfolge imputiert.
  • Reihenfolge der Variablen. Die Imputationsmethode der vollständig konditionalen Spezifikation imputiert Werte in der Reihenfolge der Liste der Analysevariablen.

Für multiple Imputation stehen zwei spezielle Dialogfelder zur Verfügung.

  • Muster analysieren stellt beschreibende Maße der Muster fehlender Werte in den Daten bereit und kann als Explorationsschritt vor der Imputation nützlich sein.
  • Fehlende Datenwerte imputieren wird zum Generieren mehrerer Imputationen verwendet. Die vollständigen Datasets können mit Prozeduren analysiert werden, die Multiple-Imputation-Datasets unterstützen. Siehe Zufallszahlengeneratoren für Informationen über die Analyse von Datensätzen mit Mehrfach-Imputation und eine Liste von Verfahren, die diese Daten unterstützen.

Diese Dialogfelder fügen MULTIPLE IMPUTATION -Befehlssyntax ein.