Überprüfen der Datenqualität
In den seltensten Fällen sind Daten perfekt. Tatsächlich weisen die meisten Daten Codierungsfehler, fehlende Werte oder andere Arten von Inkonsistenzen auf, die eine Analyse teilweise kompliziert machen. Um potenzielle Probleme zu vermeiden, können Sie vor der Modellierung eine gründliche Qualitätsanalyse durchführen.
Die Berichtstools in IBM® SPSS® Modeler (z. B. Data Audit-, Tabellen-und andere Ausgabeknoten) können Ihnen bei der Suche nach den folgenden Problemtypen helfen:
- Fehlende Daten umfassen Werte, die leer sind oder als Nichtantwort (wie z. B. $null$, ? oder 999) codiert sind.
- Datenfehler sind in der Regel typografische Fehler, die bei der Dateneingabe verursacht wurden.
- Zu Messfehlern gehören Daten, die zwar korrekt eingegeben wurden, aber auf einem falschen Messschema basieren.
- Codierungsinkonsistenzen umfassen in der Regel nicht standardmäßige Maßeinheiten oder Wertinkonsistenzen wie die gleichzeitige Verwendung von M und männlich für das Geschlecht.
- Zu ungültigen Metadaten gehören mangelnde Übereinstimmungen zwischen der offensichtlichen Bedeutung eines Felds und der in einem Feldnamen oder einer Felddefinition angegebenen Bedeutung.
Vergessen Sie nicht, sich solche Bedenken hinsichtlich der Qualität zu notieren. Weitere Informationen finden Sie im Thema Datenqualitätsbericht schreiben .