Przewidywana (modele GLE)
Te ustawienia definiują zmienną przewidywaną, jej rozkład, a także jej relację z predyktorami przez funkcję łączenia.
Przewidywana Zmienna przewidywana jest wymagana. Może mieć dowolny poziom pomiaru, a poziom pomiaru zmiennej przewidywanej wpływa na to, które rozkłady i funkcje łączenia są odpowiednie.
- Użyj predefiniowanej zmiennej przewidywanej Wybierz tę opcję, aby wykorzystać ustawienia zmiennej przewidywanej z wcześniejszego węzła typu (lub z karty Typy wcześniejszego węzła źródłowego).
- Użyj zmiennej przewidywanej użytkownika Wybierz tę opcję, aby ręcznie przypisać zmienną przewidywaną.
- Użyj liczby prób jako mianownika Gdy odpowiedź jest liczbą zdarzeń występujących w zbiorze prób, zmienna przewidywana zawiera liczbę zdarzeń. Można wybrać dodatkową zmienną zawierającą liczbę prób. Na przykład podczas testowania nowego pestycydu można wystawiać mrówki na działanie pestycydu w różnych stężeniach, a następnie rejestrować liczbę mrówek zabitych i liczbę mrówek w każdej próbie. W tym przypadku zmienna rejestrująca liczbę mrówek zabitych powinna być określona jako zmienna przewidywana (zdarzenia), a zmienna rejestrująca liczbę mrówek w każdej próbie powinna być określona jako zmienna prób. Jeśli liczba mrówek jest taka sama dla każdej próby, wówczas liczba prób może być określona przy użyciu wartości stałej.
Liczba prób powinna być większa niż lub równa liczbie zdarzeń w każdym rekordzie. Zdarzenia powinny być nieujemnymi liczbami całkowitymi, a próby powinny być dodatnimi liczbami całkowitymi.
- Dostosuj kategorię odniesienia. W przypadku przewidywanej zmiennej jakościowej można wybrać kategorię odniesienia. To może wpłynąć na niektóre wyniki, takie jak oszacowania parametrów, ale nie powinno zmienić dopasowania modelu. Na przykład, jeśli zmienna przewidywana przyjmuje domyślnie wartości 0, 1 i 2, wówczas procedura ustawia ostatnią kategorię (o najwyższej wartości) — czyli 2 — jako kategorię odniesienia. W tej sytuacji oszacowania parametrów należy interpretować jako mające związek z wiarygodnością kategorii 0 lub 1 względem wiarygodności kategorii 2. W wypadku określenia kategorii użytkownika i obecności zdefiniowanych etykiet zmiennej przewidywanej można określić kategorię odniesienia, wybierając wartość z listy. To może być wygodne, jeśli podczas określania modelu użytkownik nie pamięta dokładnie sposobu zakodowania konkretnej zmiennej.
Rozkład zmiennej przewidywanej i powiązanie (Funkcja łączenia) z modelem liniowym Na podstawie wartości pedyktorów model oczekuje, że rozkład wartości zmiennej przewidywanej będzie zgodny z określonym kształtem, a w przypadku wartości zmiennej przewidywanej, że będą powiązane liniowo z predyktorami przez określoną funkcję łączenia. Dostępne są skróty dla kilku typowych modeli. Jeśli istnieje konkretna kombinacja rozkładu i funkcji łączenia, dla której użytkownik planuje znaleźć dopasowanie, a która nie jest dostępna na liście skrótów, wówczas można również wybrać ustawienie Użytkownika.
- Model liniowy Określa rozkład normalny z łączem tożsamości, które jest użyteczne, gdy zmienna przewidywana może zostać przewidziana z użyciem modelu regresji liniowej lub modelu ANOVA.
- Regresja gamma Określa rozkład gamma z logarytmiczną funkcją łączenia, który powinien być używany, gdy zmienna przewidywana zawiera wszystkie wartości dodatnie i wykazuje skośność w stronę wyższych wartości.
- Model logliniowy Określa rozkład Poissona z logarytmiczną funkcją łączenia, który powinien być używany, gdy zmienna przewidywana reprezentuje liczbę wystąpień w stałym okresie czasu.
- Ujemna regresja dwumianowa Określa rozkład ujemny dwumianowy z logarytmiczną funkcją łączenia, który powinien być używany, gdy zmienna przewidywana i mianownik reprezentują liczbę prób wymaganych do zaobserwowania k sukcesów.
- Regresja Tweedie'ego Określa rozkład Tweedie'ego z tożsamościową, logarytmiczną lub wykładniczą funkcją łączenia. Opcja użyteczna do modelowania odpowiedzi będących kombinacją zer i dodatnich wartości rzeczywistych. Rozkłady te nazywa się także rozkładami złożonymi Poissona, złożonymi gamma i Poissona-gamma.
- Wielomianowa regresja logistyczna Określa rozkład wielomianowy, który powinien być używany, gdy zmienna przewidywana jest odpowiedzią wielokategoryjną. Używa skumulowanej funkcji łączenia logit (wyniki porządkowe) lub uogólnionej funkcji łączenia logit (wielokategoryjne odpowiedzi nominalne).
- Binarna regresja logistyczna Określa rozkład dwumianowy z funkcją łączenia logit, który powinien być używany, gdy zmienna przewidywana jest odpowiedzią binarną przewidywaną przez model regresji logistycznej.
- Binarny probit Określa rozkład dwumianowy z funkcją łączenia probit, który powinien być używany, gdy zmienna przewidywana jest odpowiedzią binarną z bazowym rozkładem binarnym.
- Przeżycia obcięte przedziałowe Określa rozkład dwumianowy z funkcją łączenia komplementarny log-log, która jest użyteczna w analizie przeżycia, gdy niektóre obserwacje nie mają zdarzenia kończącego.
- Użytkownika Umożliwia użytkownikowi samodzielne określenie kombinacji rozkładu i funkcji łączenia.
Rozkład
Ten wybór określa Rozkład zmiennej przewidywanej. Możliwość określenia rozkładu innego niż normalny i nietożsamościowej funkcji łączenia jest istotnym ulepszeniem uogólnionego modelu liniowego w porównaniu do modelu liniowego. Istnieje wiele możliwych kombinacji rozkład-funkcja łączenia, a kilka z nich może być odpowiednich dla dowolnego zbioru danych, dlatego wybór może być zależny od rozważań teoretycznych apriori lub tego, która kombinacja wydaje się zapewniać najlepsze dopasowanie.
- Automatycznie Jeśli nie wiesz, którego rozkładu użyć, wybierz tę opcję; węzeł przeanalizuje dane do oszacowania i zastosuje najlepszą metodę rozkładu.
- Dwumianowy Ten rozkład jest odpowiedni tylko dla zmiennej przewidywanej, która reprezentuje odpowiedź binarną lub liczbę zdarzeń.
- Gamma Ten rozkład jest odpowiedni dla zmiennej przewidywanej z wartościami w skali dodatniej, które wykazują skośność w stronę większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
- Odwrócony Gaussa Ten rozkład jest odpowiedni dla zmiennej przewidywanej z wartościami w skali dodatniej, które wykazują skośność w stronę większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
- Wielomianowy Ten rozkład jest odpowiedni dla zmiennej przewidywanej, która reprezentuje odpowiedź wielokategoryjną. Forma modelu będzie zależna od poziomu pomiaru zmiennej przewidywanej.
Wynikiem dla nominalnej zmiennej przewidywanej będzie nominalny model wielomianowy, w którym szacowany jest osobny zestaw parametrów modelu dla każdej kategorii zmiennej przewidywanej (z wyjątkiem kategorii odniesienia). Oszacowania parametrów dla konkretnego predyktora przedstawiają związek między predyktorem a wiarygodnością dla każdej kategorii zmiennej przewidywanej, względem kategorii odniesienia.
Wynikiem dla porządkowej zmiennej przewidywanej będzie porządkowy model wielomianowy, w którym tradycyjny składnik stałej jest zastępowany przez zestaw parametrów progowych, które odnoszą się do prawdopodobieństwo skumulowanego kategorii zmiennej przewidywanej.
- Ujemny dwumianowy W regresji ujemnej dwumianowej używany jest ujemny rozkład dwumianowy z logarytmiczną funkcją łączenia, który powinien być używany, gdy zmienna przewidywana reprezentuje liczbę wystąpień o wysokiej wariancji.
- Normalny Jest odpowiedni w przypadku ilościowej zmiennej przewidywanej, której wartości przyjmują symetryczny rozkład w kształcie dzwona, z centralną wartością średnią.
- Poissona Ten rozkład może być traktowany jako seria wystąpień zdarzenia będącego przedmiotem zainteresowania w ustalonym okresie i jest odpowiedni dla zmiennych o nieujemnych liczbach całkowitych. Jeśli wartość danych nie jest liczbą całkowitą, jest mniejsza od 0 lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie.
- Tweedie Ten rozkład jest odpowiedni dla zmiennych, które mogą być reprezentowane przez poissonowsko mieszane rozkłady gamma; rozkład ten jest mieszany, to znaczy że łączy właściwości rozkładu ciągłego (nieujemne wartości rzeczywiste) i dyskretnego (prawdopodobieństwo dodatnie dla pojedynczej wartości, 0). Zmienna zależna musi być liczbowa, z wartościami danych większymi niż lub równymi zero. Jeśli wartość danych jest mniejsza niż zero lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie. Wartość stała parametru rozkładu Tweedie'go może być dowolną liczbą większą niż jeden i mniejszą niż dwa.
Funkcje łączenia
Funkcja łączenia to transformacja zmiennej przewidywanej, która umożliwia estymację modelu. Dostępne są następujące funkcje:
- Automatycznie Jeśli nie wiesz, której funkcji łączenia użyć, wybierz tę opcję; węzeł przeanalizuje dane do oszacowania i zastosuje najlepszą funkcję łączenia.
- Tożsamość f(x)=x. Zmienna przewidywana nie jest transformowana. Ta funkcja łączenia może być używana z dowolnym rozkładem, z wyjątkiem rozkładu wielomianowego.
- Komplementarny log-log f(x)=log(−log(1−x)). Jest odpowiednia tylko w przypadku rozkładu dwumianowego i wielomianowego.
- Cauchit f(x) = tan(π (x − 0.5)). Jest odpowiednia tylko w przypadku rozkładu dwumianowego i wielomianowego.
- Logarytm f(x)=log(x). Ta funkcja łączenia może być używana z dowolnym rozkładem, z wyjątkiem rozkładu wielomianowego.
- Komplementarny log f(x)=log(1−x). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
- Logit f(x)=log(x / (1−x)). Jest odpowiednia tylko w przypadku rozkładu dwumianowego i wielomianowego.
- Ujemny log-log f(x)=−log(−log(x)). Jest odpowiednia tylko w przypadku rozkładu dwumianowego i wielomianowego.
- Probit f(x)=Φ−1(x), gdzie Φ−1 jest odwrotnością funkcji skumulowanego rozkładu standardowego normalnego. Jest odpowiednia tylko w przypadku rozkładu dwumianowego i wielomianowego.
- Wykładnik f(x)=x α, jeśli α ≠ 0. f(x)=log(x), jeśli α=0. α jest wymaganą specyfikacją liczbową i musi być liczbą rzeczywistą. Ta funkcja łączenia może być używana z dowolnym rozkładem, z wyjątkiem rozkładu wielomianowego.
Parametr dla rozkładu Tweedie'ego Opcja dostępna tylko w przypadku wybrania przycisku opcji Regresja Tweedie'ego lub metody Tweedie w polu Rozkład. Wybierz wartość w zakresie od 1 do 2.