Regresja liniowa grzbietowa

Liniowa Grzbiet wykorzystuje klasę Python sklearn.linear_model.Ridge do oszacowania L2 lub kwadratu, regulowanych liniowych modeli regresji dla zmiennej zależnej w jednej lub większej liczby zmiennych niezależnych, a także zawiera opcjonalne tryby do wyświetlania wykresów śledzenia oraz do wybierania wartości parametru hyperparameter alfa na podstawie walidacji krzyżowej. Po dopasowaniu pojedynczego modelu lub w celu sprawdzenia, czy do wyboru jest alpha, można użyć partycji danych holdout w celu oszacowania wydajności pojedyńczego.

Oprócz dopasowania modelu o określonej wartości parametru regulacji alfa, liniowa grzbiet może wyświetlać wykres śledzenia grzbietu wartości współczynników dla zakresu wartości alfa lub ułatwić wybór wartości nadparametrycznej poprzez interwalidację k-krotnie w określonych siatkach wartości. Jeśli pojedynczy model jest dopasowany lub wybierany jest wybór alfa poprzez walidację krzyżową, ostateczny model może być zastosowany do danych wstrzymanych, które są tworzone przez partycję danych wejściowych w celu uzyskania poprawnego oszacowania wydajności pozapróbowej modelu.

Uzyskiwanie analizy regresji metodą liniowej regresji grzbietowej

  1. Z menu wybierz:

    Analiza > Regresja > Liniowe alternatywy dla OLS > Grzbiet

    Okno dialogowe Zmienne umożliwia określenie zmiennej, która przypisuje każdą obserwację w aktywnym zbiorze danych do próby szkoleniowej lub holdout.

  2. Wybierz liczbową zmienną przewidywaną. Do uruchomienia analizy wymagana jest tylko jedna zmienna przewidywana.
  3. Określ wartość liczbową zależną.
  4. Określ co najmniej jedną zmienną kategoryczną lub zmienną współzmiennej liczbowej.

Opcjonalnie Partycja umożliwia utworzenie holdout lub podzbioru testowego danych wejściowych w celu oszacowania wydajności poza próbką określonego modelu lub wybranego modelu. Wszystkie partycjonowanie wykonywane jest po listowym usunięciu wszystkich obserwacji z niepoprawnymi danymi dla dowolnej zmiennej użytej w procedurze. Należy pamiętać, że w przypadku walidacji krzyżowej dane treningowe są tworzone w języku Python. Dane wstrzymane, które są tworzone przez partycję, nie są używane w estymacji, niezależnie od tego, jaki tryb jest stosowany.

Partycję można zdefiniować, określając współczynnik obserwacji losowo przypisanych do każdej próbki (w sekcji Partycje szkoleniowe i wstrzymane) lub przez zmienną, która przypisuje każdą obserwację do ucznia lub próby holdout. Nie można określić zarówno szkolenia, jak i zmiennych. Jeśli partycja nie zostanie określona, zostanie utworzona próbka wstrzymana, która wynosi około 30% danych wejściowych.

Wartość Szkolenia% określa względną liczbę obserwacji w aktywnym zbiorze danych, które losowo przypisują do próby ucznia. Szkolenie domyślne to 70%.

Ta procedura służy do wkleiania składni komendy LINEAR_RIDGE .