uogólnione modele liniowe

Uogólniony model liniowy rozszerza ogólny model liniowy w taki sposób, że zmienna zależna jest liniowo powiązana z czynnikami i współzmiennymi za pośrednictwem określonej funkcji łączenia. Model pozwala ponadto, aby zmienna zależna nie miała rozkładu normalnego. Dzięki bardzo ogólnej postaci wzoru modelu obejmuje on wiele modeli statystycznych, takich jak regresja liniowa dla odpowiedzi o rozkładzie normalnym, modele logistyczne dla danych binarnych, modele logarytmiczno-liniowe dla danych o liczebności i wiele innych modeli statystycznych.

Przykłady. Uogólnionych modeli liniowych może używać firma transportowa, aby dopasować regresję Poissona w celu obliczenia szkód poniesionych na skutek eksploatacji kilku typów statków wyprodukowanych w różnych okresach, a model wynikowy może ułatwić ustalenie, które typy statków są najbardziej podatne na uszkodzenia.

Uogólnionych modeli liniowych może używać firma sprzedająca ubezpieczenia komunikacyjne, aby dopasować regresję gamma do żądań odszkodowań za samochody, a model wynikowy może ułatwić określenie czynników, które przyczyniają się najbardziej do wartości roszczenia.

Uogólnionych modeli liniowych mogą używać badacze medyczni, aby dopasować komplementarną regresję log-log do przedziałowo cenzurowanych danych dotyczących przeżycia, aby oszacować czas do nawrotu choroby.

Wymagania dotyczące danych dla uogólnionych modeli liniowych

Dane. Odpowiedź może być zmienną ilościową, liczebnościową, binarną lub określającą zdarzenia w próbach. Zakłada się, że czynniki są jakościowe. Przyjmuje się, że współzmienne, waga parametru skali i przesunięcie są ilościowe.

Założenia. Zakłada się, że wszystkie obserwacje są niezależne.

Otrzymywanie uogólnionego modelu liniowego

Ta funkcja wymaga Custom Tables and Advanced Statistics.

Z menu wybierz:

Analiza > Uogólnione modele liniowe > Generalized Modele liniowe ...

  1. Określ rozkład i funkcję łączenia (szczegółowe informacje na temat różnych opcji są dostępne poniżej).
  2. Na karcie Odpowiedź wybierz zmienną zależną.
  3. Na karcie Predyktory wybierz czynniki i współzmienne, które mają być używane w predykatach zmiennej zależnej.
  4. Na karcie Model określ efekty modelu, korzystając z wybranych czynników i współzmiennych.

Na karcie Typ modelu można określić rozkład i funkcję łączenia dla modelu, przy wykorzystaniu skrótów do kilku typowych modeli, które są sklasyfikowane według typu odpowiedzi.

Typy modeli

Ilościowa zależna. Dostępne są następujące opcje:

  • Liniowy. Określa Normalny jako rozkład i Tożsamość jako funkcję łączenia.
  • Gamma wiązany logarytmicznie. Określa Gamma jako rozkład i Log jako funkcję łączenia.

Porządkowa zależna. Dostępne są następujące opcje:

  • Porządkowy logistyczny. Określa Wielomianowy (porządkowy) jako rozkład i Logit Skumulowane jako funkcję łączenia.
  • Porządkowy probit. Określa Wielomianowy (porządkowy) jako rozkład i Probit Skumulowane jako funkcję łączenia.

. Dostępne są następujące opcje:

  • Poissona logliniowy. Określa Poissona jako rozkład i Log jako funkcję łączenia.
  • Ujemny dwumianowy wiązany logarytmicznie. Określa Ujemny dwumianowy (z wartością 1 dla parametru dodatkowego) jako rozkład i Log jako funkcję łączenia. Aby procedura oszacowała wartość parametru dodatkowego, należy podać model niestandardowy z rozkładem ujemnym dwumianowym, a następnie wybrać opcję Szacuj wartość w grupie Parametr.

Binarna zależna lub dane ze zdarzeń/prób. Dostępne są następujące opcje:

  • Binarny logistyczny. Określa Dwumianowy jako rozkład i Logit jako funkcję łączenia.
  • Binarny probit. Określa Dwumianowy jako rozkład i Probit jako funkcję łączenia.
  • Przeżycia obcięte przedziałowe. Określa Dwumianowy jako rozkład i Komplementarny Log-log jako funkcję łączenia.

Mieszanina. Dostępne są następujące opcje:

  • Tweediego wiązany logarytmicznie. Określa Tweediego jako rozkład i Log jako funkcję łączenia.
  • Tweediego wiązany tożsamościowo. Określa Tweediego jako rozkład i Tożsamość jako funkcję łączenia.

Niestandardowe. Umożliwia określenie własnej kombinacji funkcji rozkładu i łączenia.

Rozkład

Ten wybór określa rozkład zmiennej zależnej. Możliwość określenia rozkładu innego niż normalny i nietożsamościowej funkcji łączenia jest istotnym ulepszeniem uogólnionego modelu liniowego w porównaniu do ogólnego modelu liniowego. Istnieje wiele możliwych kombinacji rozkład-funkcja łączenia, a kilka z nich może być odpowiednich dla dowolnego zbioru danych, dlatego wybór może być zależny od rozważań teoretycznych apriori lub tego, która kombinacja wydaje się zapewniać najlepsze dopasowanie.

  • Dwumianowy. Ten rozkład jest odpowiedni tylko dla zmiennych, które reprezentują zmienne dychotomiczne lub liczbę zdarzeń.
  • Gamma. Ten rozkład jest odpowiedni dla zmiennych z dodatnimi wartościami skali, które są skośne w kierunku większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Odwrócony Gaussa. Ten rozkład jest odpowiedni dla zmiennych z dodatnimi wartościami skali, które są skośne w kierunku większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Ujemny dwumianowy. Ten rozkład może być traktowany jako seria prób wymaganych do zaobserwowania k sukcesów i jest odpowiedni dla zmiennych z nieujemnymi liczbami całkowitymi. Jeśli wartość danych nie jest liczbą całkowitą, jest mniejsza od 0 lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie. Wartość parametru dodatkowego ujemnego rozkładu dwumianowego może być dowolną liczbą większą niż lub równą 0; można ustawić ją jako wartość stałą lub zezwolić na jej oszacowanie w czasie trwania procedury. Jeśli parametr dodatkowy jest ustawiony na 0, użycie tego rozkładu da takie same efekty, jak użycie rozkładu Poissona.
  • Normalny. Ten rozkład jest odpowiedni dla zmiennych ilościowych, których wartości rozkładają się symetrycznie, w kształcie dzwonu, wokół wartości centralnej (średniej). Zmienna zależna musi być typu liczbowego.
  • Poissona. Ten rozkład można traktować jako liczbę wystąpień zdarzenia badanego w ustalonym okresie i jest odpowiedni dla zmiennych o nieujemnych wartościach całkowitych. Jeśli wartość danych nie jest liczbą całkowitą, jest mniejsza od 0 lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Tweedie. Ten rozkład jest odpowiedni dla zmiennych, które mogą być reprezentowane przez poissonowsko mieszane rozkłady gamma; rozkład ten jest mieszany, to znaczy że łączy właściwości rozkładu ciągłego (nieujemne wartości rzeczywiste) i dyskretnego (prawdopodobieństwo dodatnie dla pojedynczej wartości, 0). Zmienna zależna musi być liczbowa, z wartościami danych większymi niż lub równymi zero. Jeśli wartość danych jest mniejsza niż zero lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie. Wartość stała parametru rozkładu Tweedie'go może być dowolną liczbą większą niż jeden i mniejszą niż dwa.
  • Multinomial. Ten rozkład jest odpowiedni dla zmiennych, które reprezentują odpowiedzi porządkowe. Zmienna zależna może być liniowa lub łańcuchowa i musi zawierać co najmniej dwie różniące się poprawne wartości danych.

Funkcje łączenia

Funkcja łączenia to przekształcenie zmiennej zależnej, które umożliwia estymację modelu. Dostępne są następujące funkcje:

  • Tożsamość. f(x) =x. Zmienna zależna nie jest przekształcana. To połączenie może być używane dla dowolnego rozkładu.
  • Komplementarny log-log. f(x) =log (−log (1−x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Skumulowany Cauchit. f(x) = tan(π (x – 0,5)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany logarytmiczno-logarytmiczny dopełnienia. f(x)=ln(−ln(1−x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany logit. f(x)=ln(x / (1−x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany ujemny logarytmiczno-logarytmiczny. f(x)=−ln(−ln(x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany probit. f(x)=Φ−1(x); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi, gdzie Φ−1 jest odwrotnością funkcji skumulowanego rozkładu standardowego normalnego. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Zaloguj. f(x) = log (x). To połączenie może być używane dla dowolnego rozkładu.
  • Logarytmiczny dopełnienia. f(x) =log (1−x). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Logit. f(x) = log (x /(1−x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Ujemny dwumianowy. f(x) = log (x /(x+k −1)), gdzie k jest parametrem pomocniczym dla ujemnego rozkładu dwumianowego. Ma zastosowanie tylko w przypadku ujemnego rozkładu dwumianowego.
  • Ujemny log-log. f(x) = −log (−log (x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Nieparzysty potęgowy. f(x) = [ (x/(1−x))α− 1 ]/α, jeśli α ≠ 0. f(x) = log (x), jeśli α=0. α jest wymaganą specyfikacją numeru i musi być liczbą rzeczywistą. Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Probit. f(x)=Φ−1(x), gdzie Φ−1 jest odwrotnością funkcji skumulowanego rozkładu standardowego normalnego. Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Power. f(x)=x α, jeśli α ≠ 0. f(x)=log(x), jeśli α=0. α jest wymaganą specyfikacją numeru i musi być liczbą rzeczywistą. To połączenie może być używane dla dowolnego rozkładu.

Ta procedura służy do wkleiania składni komendy GENLIN .