Czyszczenie danych

Czyszczenie danych umożliwia dokładniejsze poznanie problemów występujących w danych wybranych do analizy. W rozwiązaniu IBM® SPSS Modeler dostępnych jest kilka sposobów czyszczenia danych za pomocą węzłów rekordów i operacji zmiennych.

Tabela 1. Czyszczenie danych
Problem związany z danymi Możliwe rozwiązanie
Brak danych Należy wykluczyć wiersze lub cechy. Opcjonalnie można uzupełnić puste wartości szacowaną wartością.
Błędy danych Posługując się logiką, należy wykryć błędy i je usunąć. Opcjonalnie można wykluczyć cechy.
Niespójności kodowania Należy wybrać jeden schemat kodowania, a następnie przeliczyć i zastąpić wartości.
Brak danych lub niepoprawne dane Należy ręcznie przeanalizować podejrzane zmienne i określić poprawne znaczenie.

Raport jakości danych przygotowywany podczas fazy zrozumienia danych zawiera szczegóły dotyczące typów problemów występujących w danych. Raport może stać się punktem wyjściowym do manipulowania danymi w rozwiązaniu IBM SPSS Modeler.