Dopasowywanie rozkładu
Rozkład statystyczny to teoretyczna częstość wystąpienia wartości, jakie mogą istnieć dla zmiennej. W węźle Symulacje Dopasowanie zestaw rozkładów statystycznych jest porównywany z danymi każdej zmiennej. Rozkłady dostępne dla dopasowania zostały opisane w temacie Rozkłady. Parametry teoretycznego rozkładu są korygowane, tak aby zapewnić najlepsze dopasowanie do danych zgodnie z pomiarem dobroci dopasowania; stosowane jest kryterium Anderson-Darling lub kryterium Kolmogorov-Smirnov. Wyniki dopasowania rozkładu za pośrednictwem węzła Symulacje Dopasowanie pokazują, które rozkłady zostały dopasowane, najlepsze oszacowania parametrów dla poszczególnych rozkładów oraz stopień dopasowania każdego rozkładu do danych. W czasie dopasowywania rozkładu obliczane są również korelacje pomiędzy zmiennymi z liczbowym typem składowania oraz kontyngencje pomiędzy zmiennymi z rozkładem jakościowym. Wyniki dopasowywania rozkładu służą do utworzenia węzła Symulacje Generowanie.
- Użycie poprzedzającego węzła w celu usunięcia rekordów zawierających braki danych.
- Użycie węzła poprzedzającego w celu wprowadzenia wartości do braków danych.
Podczas dopasowywania rozkładu rola zmiennej nie jest brana pod uwagę. Przykładowo zmienne z rolą przewidywana są traktowane tak samo, jak zmienne z rolami wejściowa, brak, oba elementy, podział, separacja, częstość i Id.
Zmienne traktowane są odmiennie w czasie dopasowywania rozkładu w zależności od ich typu składowania oraz poziomu pomiaru. Sposób traktowania zmiennych w czasie dopasowywania rozkładu został opisany w poniższej tabeli.
| Typ składowania | Poziom pomiaru | |||||
|---|---|---|---|---|---|---|
| Ilościowy | Jakościowy | Flaga | Nominalny | Porządkowy | Nieokreślony | |
| Łańcuch | Niemożliwe | Jakościowy, dopasowywane są rozkłady Dice'a i stały | ||||
| Liczba całkowita | ||||||
| Liczba rzeczywista | ||||||
| Czas | Dopasowywane są wszystkie rozkłady. Obliczane są korelacje i kontyngencje. | Dopasowywany jest rozkład jakościowy. Korelacje nie są obliczane. | Dopasowywane są rozkłady dwumianowy, ujemny dwumianowy oraz Poissona; obliczane są korelacje. | Zmienna jest ignorowana i nie jest przekazywana do węzła Symulacje Generowanie. | ||
| Data | ||||||
| Znacznik czasu | ||||||
| Nieznane | Na podstawie danych określany jest odpowiedni typ składowania. |
Zmienne z porządkowym typem pomiaru są traktowane jak zmienne ilościowe i są uwzględniane w tabeli korelacji w węźle Symulacje Generowanie. Jeśli konieczne jest dopasowanie do zmiennej porządkowej rozkładu innego niż dwumianowy, ujemny dwumianowy lub Poissona, należy zmienić poziom pomiaru zmiennej na ilościowy. Jeśli wcześniej zdefiniowano etykietę dla każdej wartości zmiennej porządkowej, a następnie poziom pomiaru zostanie zmieniony na ilościowy, etykiety zostaną utracone.
Zmienne z pojedynczymi wartościami nie są podczas dopasowywania rozkładu traktowane inaczej niż zmienne z wieloma wartościami. Zmienne z typem składowania czas, data lub znacznik czasu są traktowane jako numeryczne.
Dopasowywanie rozkładów do zmiennych podziału
Jeśli dane zawierają zmienną podziału, a dopasowywanie rozkładu ma zostać wykonane osobno dla każdego podziału, konieczne jest przeprowadzenie transformacji danych za pomocą węzła Restrukturyzacja. Korzystając z węzła restrukturyzacji, należy wygenerować nową zmienną dla każdej wartości zmiennej podziału. Restrukturyzowane dane mogą być następnie użyte do dopasowywania rozkładu w węźle dopasowania symulacji.