Deskriptive Statistik auswerten

Für dieses Beispiel enthält die Ausgabe Folgendes:

  • Univariate Statistiken
  • Tabelle der T -Tests mit separater Varianz, einschließlich der Mittelwerte der Untergruppe, wenn eine andere Variable vorhanden ist oder fehlt
  • Tabellen für jede kategoriale Variable mit Häufigkeiten fehlender Daten für jede Kategorie nach jeder quantitativen (metrischen) Variablen
Abb. 1. Univariate Statistiktabelle
Die von der Analyse fehlender Werte erzeugte Tabelle "Univariate Statistik".

Die univariaten Statistiken liefern Ihren ersten Blick, Variable für Variable, auf das Ausmaß der fehlenden Daten. Die Anzahl der nicht fehlenden Werte für jede Variable wird in der Spalte N und die Anzahl der fehlenden Werte in der Spalte Anzahl fehlender Werte angezeigt. Die Spalte Fehlend Prozent zeigt den Prozentsatz der Fälle mit fehlenden Werten an und stellt ein gutes Maß für den Vergleich des Umfangs der fehlenden Daten zwischen Variablen dar. Einkommen (Haushaltseinkommen in Tausend) hat die größte Anzahl von Fällen mit fehlenden Werten (17.9%), während Alter (Alter in Jahren) die geringste Anzahl (2.5%) aufweist. income hat auch die größte Anzahl von Extremwerten.

Abbildung 2: Tabelle für t-Tests mit separater Varianz
Die von der Analyse fehlender Werte erstellte Tabelle für t-Tests mit separater Varianz.

Die Tabelle der T -Tests mit separater Varianz kann dabei helfen, Variablen zu identifizieren, deren Muster fehlender Werte die quantitativen (metrischen) Variablen beeinflussen kann. Der T -Test wird mithilfe einer Indikatorvariablen berechnet, die angibt, ob eine Variable für einen einzelnen Fall vorhanden ist oder fehlt. Die Untergruppenmittel für die Indikatorvariable werden ebenfalls tabuliert. Beachten Sie, dass eine Indikatorvariable nur erstellt wird, wenn eine Variable in mindestens 5% der Fälle fehlende Werte aufweist.

Es scheint, dass ältere Befragte weniger wahrscheinlich sind, Einkommensniveaus zu berichten. Wenn Einkommen fehlt, beträgt das mittlere Alter 49.73im Vergleich zu 40.01 , wenn Einkommen nicht fehlt. Tatsächlich scheint das Fehlen von income die Mittelwerte mehrerer quantitativer (metrische) Variablen zu beeinflussen. Dies ist ein Hinweis darauf, dass die Daten möglicherweise nicht vollständig zufällig fehlen.

Abb. 3 Kreuztabelle für Familienstand [ehelich]
Kreuztabelle von MaritalStatus -Kategorien im Vergleich zu Indikatorvariablen

Die Kreuztabellen von kategorialen Variablen gegen Indikatorvariablen enthalten Informationen, die denen in der T -Testtabelle für separate Varianzen ähneln. Indikatorvariablen werden erneut erstellt, außer diesmal werden sie verwendet, um Häufigkeiten in jeder Kategorie für jede kategoriale Variable zu berechnen. Anhand der Werte können Sie feststellen, ob es Unterschiede zwischen den fehlenden Werten in den Kategorien gibt.

In der Tabelle für Familienstand (Familienstand)scheint die Anzahl fehlender Werte in den Indikatorvariablen zwischen Familienstand -Kategorien nicht sehr unterschiedlich zu sein. Ob jemand verheiratet oder ledig ist, wirkt sich nicht darauf aus, ob Daten für eine der quantitativen (metrischen) Variablen fehlen. Beispiel: Nicht verheiratete Personen meldeten Adresse (Jahre bei aktueller Adresse) 85.5% der Zeit und verheiratete Personen meldeten dieselbe Variable 83.4% der Zeit. Der Unterschied ist minimal und wahrscheinlich durch Zufall.

Abbildung 4. Kreuztabelle für Bildungsniveau [ed]
Kreuztabelle der Kategorien EducationalLevel im Vergleich zu Indikatorvariablen.

Betrachten Sie nun die Kreuztabelle für ed (Bildungsstand). Wenn ein Antwortender mindestens eine Hochschulausbildung hat, ist es wahrscheinlicher, dass eine Antwort auf den Familienstand fehlt. Mindestens 98.5% der Befragten ohne Hochschulausbildung gaben den Familienstand an. Auf der anderen Seite gaben nur 81.1% der Personen mit einem Hochschulabschluss den Familienstand an. Die Zahl ist noch niedriger für diejenigen mit einigen College-Ausbildung, aber kein Abschluss.

Abbildung 5. Kreuztabelle für 'Zurückgezogen [Zurückziehen]'
Kreuztabelle von RetirementStatus -Kategorien im Vergleich zu Indikatorvariablen

Ein drastischerer Unterschied ist in Zurückziehen (Zurückgezogen)zu sehen. Diejenigen, die im Ruhestand sind viel weniger wahrscheinlich zu berichten ihr Einkommen im Vergleich zu denen, die nicht im Ruhestand. Nur 46.3% der zurückgezogenen Kunden meldeten ein Einkommensniveau, während der Prozentsatz der Personen, die nicht in den Ruhestand gegangen sind, ein Einkommensniveau von 83.7aufwies.

Abbildung 6. Kreuztabelle für Geschlecht [Geschlecht]
Kreuztabelle der Geschlechtskategorien gegen Indikatorvariablen.

Eine weitere Abweichung ergibt sich für Geschlecht (Geschlecht). Adressinformationen fehlen bei Männern häufiger als bei Frauen. Obwohl diese Diskrepanzen auf Zufall zurückzuführen sein könnten, scheint es unwahrscheinlich. Die Daten scheinen nicht völlig zufällig zu fehlen.

Wir werden uns die Muster fehlender Daten ansehen, um dies weiter zu untersuchen.

Weiter