Dopasowywanie rozkładu

Rozkład statystyczny to teoretyczna częstość wystąpienia wartości, jakie mogą istnieć dla zmiennej. W węźle Symulacje Dopasowanie zestaw rozkładów statystycznych jest porównywany z danymi każdej zmiennej. Rozkłady dostępne dla dopasowania zostały opisane w temacie Rozkłady. Parametry teoretycznego rozkładu są korygowane, tak aby zapewnić najlepsze dopasowanie do danych zgodnie z pomiarem dobroci dopasowania; stosowane jest kryterium Anderson-Darling lub kryterium Kolmogorov-Smirnov. Wyniki dopasowania rozkładu za pośrednictwem węzła Symulacje Dopasowanie pokazują, które rozkłady zostały dopasowane, najlepsze oszacowania parametrów dla poszczególnych rozkładów oraz stopień dopasowania każdego rozkładu do danych. W czasie dopasowywania rozkładu obliczane są również korelacje pomiędzy zmiennymi z liczbowym typem składowania oraz kontyngencje pomiędzy zmiennymi z rozkładem jakościowym. Wyniki dopasowywania rozkładu służą do utworzenia węzła Symulacje Generowanie.

Przed dopasowaniem rozkładów do danych w pierwszym 1000 rekordów przeprowadzane jest sprawdzenie, czy nie ma w nich braków danych. Jeśli braków danych jest zbyt wiele, dopasowanie rozkładu jest niemożliwe. W takiej sytuacji należy zdecydować, czy odpowiednie będzie użycie jednej z następujących opcji:
  • Użycie poprzedzającego węzła w celu usunięcia rekordów zawierających braki danych.
  • Użycie węzła poprzedzającego w celu wprowadzenia wartości do braków danych.
Podczas dopasowywania rozkładu braki danych nie są wykluczane. Jeśli w danych występują braki danych zdefiniowane przez użytkownika i wartości te mają zostać wykluczone z dopasowywania rozkładu, wówczas należy ustawić te wartości jako systemowe braki danych.

Podczas dopasowywania rozkładu rola zmiennej nie jest brana pod uwagę. Przykładowo zmienne z rolą przewidywana są traktowane tak samo, jak zmienne z rolami wejściowa, brak, oba elementy, podział, separacja, częstość i Id.

Zmienne traktowane są odmiennie w czasie dopasowywania rozkładu w zależności od ich typu składowania oraz poziomu pomiaru. Sposób traktowania zmiennych w czasie dopasowywania rozkładu został opisany w poniższej tabeli.

Tabela 1. Dopasowywanie rozkładu w zależności od typu składowania i poziomu pomiaru zmiennych
Typ składowania     Poziom pomiaru      
  Ilościowy Jakościowy Flaga Nominalny Porządkowy Nieokreślony
Łańcuch Niemożliwe   Jakościowy, dopasowywane są rozkłady Dice'a i stały      
Liczba całkowita            
Liczba rzeczywista            
Czas Dopasowywane są wszystkie rozkłady. Obliczane są korelacje i kontyngencje.   Dopasowywany jest rozkład jakościowy. Korelacje nie są obliczane.   Dopasowywane są rozkłady dwumianowy, ujemny dwumianowy oraz Poissona; obliczane są korelacje. Zmienna jest ignorowana i nie jest przekazywana do węzła Symulacje Generowanie.
Data            
Znacznik czasu            
Nieznane     Na podstawie danych określany jest odpowiedni typ składowania.      

Zmienne z porządkowym typem pomiaru są traktowane jak zmienne ilościowe i są uwzględniane w tabeli korelacji w węźle Symulacje Generowanie. Jeśli konieczne jest dopasowanie do zmiennej porządkowej rozkładu innego niż dwumianowy, ujemny dwumianowy lub Poissona, należy zmienić poziom pomiaru zmiennej na ilościowy. Jeśli wcześniej zdefiniowano etykietę dla każdej wartości zmiennej porządkowej, a następnie poziom pomiaru zostanie zmieniony na ilościowy, etykiety zostaną utracone.

Zmienne z pojedynczymi wartościami nie są podczas dopasowywania rozkładu traktowane inaczej niż zmienne z wieloma wartościami. Zmienne z typem składowania czas, data lub znacznik czasu są traktowane jako numeryczne.

Dopasowywanie rozkładów do zmiennych podziału

Jeśli dane zawierają zmienną podziału, a dopasowywanie rozkładu ma zostać wykonane osobno dla każdego podziału, konieczne jest przeprowadzenie transformacji danych za pomocą węzła Restrukturyzacja. Korzystając z węzła restrukturyzacji, należy wygenerować nową zmienną dla każdej wartości zmiennej podziału. Restrukturyzowane dane mogą być następnie użyte do dopasowywania rozkładu w węźle dopasowania symulacji.