IBM SPSS Data Preparation bietet fortschrittliche Techniken zur Optimierung der Datenaufbereitung, damit Sie schneller genauere Datenanalyseergebnisse erhalten.
Dieses Modul ist in der SPSS Professional-Edition für On-Premise-Versionen und in der Base-Edition für Abonnementpläne enthalten.
Das Dialogfeld „Daten validieren“ dient zur Validierung Ihrer Daten. Die Registerkarte „Variablen“ zeigt die Variablen in Ihrer Datei an. Beginnen Sie mit der Auswahl der gewünschten Variablen und verschieben Sie diese in die Liste mit den Analysevariablen. Die Registerkarte „Variablen“ zeigt die Variablen in Ihrer Datei an. Wählen Sie zunächst die gewünschten Variablen aus und verschieben Sie sie in die Liste „Analysevariablen“.
Sie können grundlegende Prüfungen bestimmen, die auf Variablen und Fälle in Ihrer Datei angewendet werden sollen. Sie können zum Beispiel Berichte erstellen, die Variablen mit einem hohen Anteil an fehlenden Werten oder leeren Fällen aufzeigen.
Wenden Sie Regeln auf einzelne Variablen an, die ungültige Werte identifizieren – Werte außerhalb eines gültigen Bereichs oder fehlende Werte. Sie können auch eigene Regeln und Regeln für mehrere Variablen erstellen oder vordefinierte Regeln anwenden.
Die automatisierte Datenaufbereitung gibt Empfehlungen aus und ermöglicht es den Benutzern, die Empfehlungen genauer zu untersuchen.
Die manuelle Datenaufbereitung ist ein komplexer und zeitaufwändiger Prozess. Wenn Sie schnell Ergebnisse benötigen, hilft Ihnen das ADP-Verfahren, Qualitätsfehler zu erkennen und zu korrigieren und fehlende Werte in einem einzigen Schritt effizient zu ergänzen. Die ADP-Funktion erstellt einen leicht verständlichen Bericht mit umfassenden Empfehlungen und Visualisierungen, mit denen Sie die richtigen Daten für Ihre Analyse bestimmen können.
Führen Sie automatische Datenprüfungen durch und verabschieden Sie sich von zeitaufwändigen, mühsamen manuellen Prüfungen, indem Sie das Verfahren zur Datenvalidierung verwenden. Mit dieser Methode können Sie Regeln anwenden, um Datenprüfungen auf der Grundlage der Messgröße jeder Variable durchzuführen – egal ob kategorial oder fortlaufend. Bestimmen Sie dann die Gültigkeit der Daten und entfernen oder korrigieren Sie verdächtige Fälle nach eigenem Ermessen vor der Analyse.
IBM SPSS Data Preparation enthält Funktionen wie Datenvalidierung, automatisierte Datenaufbereitung, optimales Binning und Identifizierung von ungewöhnlichen Fällen.
Mit dem Verfahren zum optimalen Binning können Sie Algorithmen, die für nominale Attribute entwickelt wurden (wie z. B. Naive Bayes und Logit-Modelle) genauer verwenden. Optimales Binning ermöglicht es Ihnen, metrische Variablen in Klassen einzuteilen oder Trennwerte dafür festzulegen.
Wählen Sie eine dieser Arten des optimalen Binnings für die Vorverarbeitung von Daten vor der Modellerstellung:
1) Unüberwacht: Teilen Sie Variablen in gleicher Anzahl in Klassen ein.
2) Überwacht: Berücksichtigen Sie die Zielvariable bei der Festlegung der Trennwerte. Diese Methode ist genauer als die unüberwachte Methode. Allerdings ist es auch rechenintensiver.
3) Hybridansatz: Kombinieren Sie die unüberwachte mit der überwachten Methode. Diese Methode ist nützlich, wenn Sie eine große Anzahl unterschiedlicher Werte haben.