Walidacja danych
Okno dialogowe Walidacja danych umożliwia wykrywanie podejrzanych lub nieważnych obserwacji, zmiennych i wartości danych w aktywnym zbiorze danych.
Przykład. Analityk danych musi co miesiąc sporządzać raport o zadowoleniu klientów. Jakość danych wejściowych z każdego miesiąca musi być kontrolowana w celu wykrycia niekompletnych danych identyfikujących klientów, wartości zmiennych będących poza dozwolonym zakresem i kombinacji wartości zmiennych, które często wprowadzane są w wyniku pomyłki. W oknie dialogowym Walidacja danych analityk może określić zmienne, które jednoznacznie identyfikują klienta, zdefiniować reguły pojedynczej zmiennej wychwytujące wartości spoza dozwolonego zakresu i zdefiniować reguły wielu zmiennych wychwytujących niedozwolone kombinacje. Procedura zwraca raport z listą problematycznych obserwacji i zmiennych. Ponadto dane z każdego miesiąca zawierają te same elementy, dlatego analityk będzie mógł stosować te same reguły do danych z następnych miesięcy.
Statystyki. Procedura generuje listę zmiennych, obserwacji i wartości danych, które nie przeszły pomyślnie różnych kontroli, liczby naruszeń reguł pojedynczej zmiennej i wielu zmiennych, a także proste opisowe podsumowania analizowanych zmiennych.
Wagi. Procedura ignoruje specyfikację zmiennej ważącej i traktuje tę zmienną tak, jak pozostałe analizowane zmienne.
Przeprowadzanie walidacji danych
- Z menu wybierz:
- Wybierz co najmniej jedną analizowaną zmienną do walidacji przez zastosowanie prostych kontroli zmiennych lub reguł walidacji pojedynczej zmiennej.
Zamiast tego można:
- Kliknąć kartę Reguły wielu zmiennych i zastosować jedną lub więcej reguł wielu zmiennych.
Opcjonalnie można wykonać następujące czynności:
- Wybrać co najmniej jedną zmienną identyfikującą, aby wykryć ewentualne zduplikowane lub niekompletne dane identyfikacyjne. Zmienne identyfikujące obserwacje są także używane jako etykiety wyników generowanych obserwacjami. Jeśli określone są dwie lub większa liczba zmiennych identyfikujących obserwacje, to jako identyfikator obserwacji traktowana jest kombinacja ich wartości.
Zmienne z nieznanym poziomem pomiaru
Alert poziomu pomiaru wyświetla się, gdy poziom pomiaru dla jednej lub większej ilości zmiennych w zbiorze danych jest nieznany. Ponieważ poziom pomiaru wpływa na wyliczenie wyników dla tej procedury, wszystkie zmienne muszą mieć zdefiniowany poziom pomiaru.
Skanowanie danych. Odczytuje dane w aktywnym zbiorze danych i przypisuje domyślny poziom pomiaru do wszystkich zmiennych, które mają aktualnie nieznany poziom pomiaru. Jeśli zbiór danych jest duży, może to zająć trochę czasu.
Przypisz ręcznie. Otwiera okno dialogowe, które zestawia wszystkie zmienne z nieznanym poziomem pomiaru. Można użyć tego okna dialogowego do przypisania poziomu pomiaru do tych zmiennych. Można również przypisać poziom pomiaru w Widoku zmiennych Edytora danych.
Ponieważ poziom pomiaru jest ważny dla tej procedury, nie można wejść do tego okna dialogowego w celu uruchomienia tej procedury, dopóki wszystkie zmienne nie będą miały zdefiniowanego poziomu pomiaru.