Daten in Data Refinery validieren

Sobald Sie Daten auf Data Refinery eingegeben haben, können Sie diese jederzeit überprüfen. In der Regel sollten Sie dies an mehreren Stellen im Verfeinerungsprozess tun.

Gehen Sie wie folgt vor, um Ihre Daten zu validieren:

  1. Klicken Sie in Data Refinery auf die Registerkarte Profile.

  2. Überprüfen Sie die Metriken für jede Spalte, indem Sie auf ein Diagramm auf der Registerkarte Audit klicken.

  3. Führen Sie abhängig davon, was Sie erfahren, die in den folgenden Abschnitten beschriebenen Aktionen durch.

Frequenz

Bei nominalen Daten ist die Häufigkeit die Anzahl, wie oft ein Wert oder ein Wert in einem bestimmten Bereich auftritt. Die Häufigkeitsverteilung (Balken) zeigt die Anzahl eindeutiger Werte in der Spalte.

Prüfen Sie die Häufigkeitsverteilung, um Anomalien in Ihren Daten zu entdecken. Wenn Sie Ihre Daten von diesen Anomalien bereinigen wollen, entfernen Sie die Werte einfach.

Grundlagen der Statistik

Die Basisstatistik ist eine Sammlung quantitativer Daten. Für jede Spalte enthalten diese Statistiken das Minimum, das Maximum, den Mittelwert und andere Maße.

Je nach Datentyp einer Spalte sind die Statistiken für jede Spalte unterschiedlich. Die Statistiken für eine Spalte mit einem ganzzahligen Datentyp umfassen beispielsweise Minimum, Maximum, Median, Mittelwert, Summe, Modus und andere relevante Maße. Die Statistiken für eine Spalte mit einem String-Datentyp umfassen dagegen das Minimum, das Maximum, die Anzahl der eindeutigen Werte, den Modus und zusätzliche anwendbare Metriken.

Vertiefende Einblicke

Für Spalten mit numerischen Daten können Sie auch erweiterte Statistiken wie Perzentile, Standardabweichung, Kovarianz, Schiefe und andere Maße anzeigen.