Prozeduren von "Data Preparation" (Datenaufbereitung) verwenden

Es hängt von Ihren Bedürfnissen ab, welche Prozeduren von "Data Preparation" (Datenaufbereitung) für Sie infrage kommen. Nachdem Sie die Daten geladen haben, könnte eine typische Vorgehensweise folgendermaßen aussehen:

  • Vorbereitung der Metadaten. Überprüfen Sie die Variablen in der Datendatei und bestimmen Sie die gültigen Werte, Beschriftungen und Messniveaus. Identifizieren Sie die Kombinationen von Variablenwerten, die zwar unmöglich, jedoch häufig falsch codiert sind. Definieren Sie auf der Grundlage dieser Informationen Validierungsregeln. Dies kann zeitraubend sein, ist jedoch den Aufwand wert, wenn Sie regelmäßig Datendateien mit ähnlichen Attributen validieren müssen.
  • Datenprüfung. Führen Sie grundlegende Prüfungen und Prüfungen mit definierten Validierungsregeln durch, um ungültige Fälle, Variablen und Datenwerte zu identifizieren. Wenn ungültige Daten gefunden werden, untersuchen und beseitigen Sie die Ursache. Dies macht möglicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich.
  • Vorbereitung des Modells. Verwenden Sie die automatisierte Datenvorbereitung, um Transformationen der ursprünglichen Felder zu erhalten, die die Modellerstellung verbessern. Identifizieren Sie potenzielle statistische Ausreißer, die in vielen Vorhersagemodellen Probleme verursachen können. Einige Ausreißer sind das Ergebnis von ungültigen Variablenwerten, die noch nicht identifiziert wurden. Dies macht möglicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich.

Sobald die Datendatei "sauber" ist, können Sie Modelle in anderen Zusatzmodulen erstellen.