Opcje zaawansowane węzła Modele uogólnione

Użytkownikom dysponującym gruntowną wiedzą na temat uogólnionych modeli liniowych opcje zaawansowane umożliwiają precyzyjne dostosowanie procesu uczenia. W celu uzyskania dostępu do opcji zaawansowanych należy ustawić opcję Tryb na wartość Zaawansowany na karcie Zaawansowany.

Rozkład zmiennej przewidywanej i funkcja łączenia

Rozkład.

Ten wybór określa rozkład zmiennej zależnej. Możliwość określenia rozkładu innego niż normalny i nietożsamościowej funkcji łączenia jest istotnym ulepszeniem uogólnionego modelu liniowego w porównaniu do ogólnego modelu liniowego. Istnieje wiele możliwych kombinacji rozkład-funkcja łączenia, a kilka z nich może być odpowiednich dla dowolnego zbioru danych, dlatego wybór może być zależny od rozważań teoretycznych apriori lub tego, która kombinacja wydaje się zapewniać najlepsze dopasowanie.

  • Dwumianowy. Ten rozkład jest odpowiedni tylko dla zmiennych, które reprezentują zmienne dychotomiczne lub liczbę zdarzeń.
  • Gamma. Ten rozkład jest odpowiedni dla zmiennych z dodatnimi wartościami skali, które są skośne w kierunku większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Odwrócony Gaussa. Ten rozkład jest odpowiedni dla zmiennych z dodatnimi wartościami skali, które są skośne w kierunku większych wartości dodatnich. Jeśli wartość danych jest mniejsza niż lub równa 0 lub występuje brak wartości, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Ujemny dwumianowy. Ten rozkład może być traktowany jako seria prób wymaganych do zaobserwowania k sukcesów i jest odpowiedni dla zmiennych z nieujemnymi liczbami całkowitymi. Jeśli wartość danych nie jest liczbą całkowitą, jest mniejsza od 0 lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie. Wartość stała parametru dodatkowego ujemnego rozkładu dwumianowego może być dowolną liczbą większą niż lub równą 0. Jeśli parametr dodatkowy jest ustawiony na 0, użycie tego rozkładu da takie same efekty, jak użycie rozkładu Poissona.
  • Normalny. Ten rozkład jest odpowiedni dla zmiennych ilościowych, których wartości rozkładają się symetrycznie, w kształcie dzwonu, wokół wartości centralnej (średniej). Zmienna zależna musi być typu liczbowego.
  • Poissona. Ten rozkład można traktować jako liczbę wystąpień zdarzenia badanego w ustalonym okresie i jest odpowiedni dla zmiennych o nieujemnych wartościach całkowitych. Jeśli wartość danych nie jest liczbą całkowitą, jest mniejsza od 0 lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie.
  • Tweedie'go. Ten rozkład jest odpowiedni dla zmiennych, które mogą być reprezentowane przez poissonowsko mieszane rozkłady gamma; rozkład ten jest mieszany, to znaczy że łączy właściwości rozkładu ciągłego (nieujemne wartości rzeczywiste) i dyskretnego (prawdopodobieństwo dodatnie dla pojedynczej wartości, 0). Zmienna zależna musi być liczbowa, z wartościami danych większymi niż lub równymi zero. Jeśli wartość danych jest mniejsza niż zero lub występuje brak danych, wówczas dana obserwacja nie jest wykorzystywana w analizie. Wartość stała parametru rozkładu Tweedie'go może być dowolną liczbą większą niż jeden i mniejszą niż dwa.
  • Wielomianowy. Ten rozkład jest odpowiedni dla zmiennych, które reprezentują odpowiedzi porządkowe. Zmienna zależna może być liniowa lub łańcuchowa i musi zawierać co najmniej dwie różniące się poprawne wartości danych.

Funkcje łączenia.

Funkcja łączenia to przekształcenie zmiennej zależnej, które umożliwia estymację modelu. Dostępne są następujące funkcje:

  • Tożsamość. f(x)=x. Zmienna zależna nie jest przekształcana. To połączenie może być używane dla dowolnego rozkładu.
  • Komplementarny log-log. f(x)=log(−log(1−x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Skumulowany Cauchit. f(x) = tan(π (x – 0,5)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany logarytmiczno-logarytmiczny dopełnienia. f(x)=ln(−ln(1−x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany logit. f(x)=ln(x / (1−x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany ujemny logarytmiczno-logarytmiczny. f(x)=−ln(−ln(x)); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Skumulowany probit. f(x)=Φ−1(x); ma zastosowanie do skumulowanego prawdopodobieństwa dla każdej kategorii odpowiedzi, gdzie Φ−1 jest odwrotnością funkcji skumulowanego rozkładu standardowego normalnego. Ma zastosowanie tylko w przypadku rozkładu wielomianowego.
  • Logarytm. f(x)=log(x). To połączenie może być używane dla dowolnego rozkładu.
  • Logarytmiczny dopełnienia. f(x)=log(1−x). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Logit. f(x)=log(x / (1−x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Ujemny dwumianowy. f(x)=log(x / (x+k −1)), gdzie k to parametr dodatkowy ujemnego rozkładu dwumianowego. Ma zastosowanie tylko w przypadku ujemnego rozkładu dwumianowego.
  • Ujemny log-log. f(x)=−log(−log(x)). Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Nieparzysty potęgowy. f(x)=[(x/(1−x))α−1]/α, jeśli α ≠ 0. f(x)=log(x), jeśli α=0. α jest wymaganą specyfikacją liczbową i musi być liczbą rzeczywistą. Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Probit. f(x)=Φ−1(x), gdzie Φ−1 jest odwrotnością funkcji skumulowanego rozkładu standardowego normalnego. Ma zastosowanie tylko w przypadku rozkładu dwumianowego.
  • Potęgowy. f(x)=x α, jeśli α ≠ 0. f(x)=log(x), jeśli α=0. α jest wymaganą specyfikacją liczbową i musi być liczbą rzeczywistą. To połączenie może być używane dla dowolnego rozkładu.

Parametry. Elementy sterujące w tej grupie pozwalają na określenie wartości parametrów po wybraniu określonych opcji rozkładu.

  • Parametry dla ujemnego dwumianowego. W przypadku ujemnego rozkładu dwumianowego można wybrać, czy wartość ma zostać określona, czy też system ma wprowadzić wartość oszacowaną.
  • Parametry dla Tweedie'go. W przypadku rozkładu Tweedie'go należy wybrać wartość z zakresu od 1,0 do 2,0 dla wartości stałej.

    Estymacja parametru. Elementy sterujące w tej grupie pozwalają na określenie metod estymacji i udostępniają wartości początkowe dla oszacowania parametrów.

    • Metoda. Można wybrać metodę estymacji parametru. Można wybrać metodę oceny Newtona-Raphsona, Fishera lub metodę hybrydową, w której interakcje oceny Fishera są wykonywane przed przejściem do metody Newtona-Raphsona. Jeśli zbieżność zostanie osiągnięta w fazie oceny Fishera metodą hybrydową przed wykonaniem maksymalnej liczby iteracji Fishera, algorytm będzie kontynuował działanie, stosując metodę Newtona-Raphsona.
    • Metoda parametru skali. Można wybrać metodę parametru skali. Metoda maksymalnej wiarygodności umożliwia oszacowanie parametru skali wraz z efektami modelu; należy zauważyć, że ta opcja nie jest odpowiednia, jeśli odpowiedź jest w rozkładzie ujemnym dwumianowym, Poissona lub rozkładzie dwumianowym . Opcje odchylenia i chi-kwadratu Pearsona pozwalają oszacować parametr skali na podstawie wartości tych statystyk. Alternatywnie można określić wartość stałą parametru skali.
  • Macierz kowariancji. Dla uogólnionej odwrotności macierzy Hessego estymator oparty na modelu ma wartość ujemną. Estymator odporny (zwany również estymatorem Hubera/White'a/kanapkowym) to „skorygowany” estymator oparty na modelu, który zapewnia zgodne oszacowanie kowariancji, nawet jeśli specyfikacja wariancji i funkcji łączenia jest niepoprawna.

Iteracje. Te opcje umożliwiają sterowanie parametrami zbieżności modelu. Więcej informacji można znaleźć w temacie Iteracje uogólnionych modeli liniowych.

Wynik. Te opcje umożliwiają zażądanie dodatkowych statystyk, które będą wyświetlane w zaawansowanych wynikach modelu użytkowego budowanego przez węzeł. Więcej informacji można znaleźć w temacie Zaawansowane wyniki uogólnionych modeli liniowych.

Tolerancja osobliwości. Macierze osobliwe (lub nieodwracalne) zawierają liniowo zależne kolumny, które mogą powodować problemy z algorytmem estymacji. Nawet macierze prawie osobliwe mogą powodować uzyskiwanie słabych wyników, dlatego procedura będzie traktować macierze, których wyznacznik jest mniejszy zakres tolerancji, jako osobliwe. Należy podać wartość dodatnią.