Regresja liniowa sieci elastycznej

Liniowa Sieć Elastyczna wykorzystuje klasę Python sklearn.linear_model.ElasticNet do szacowania stałych modeli regresji liniowej dla zmiennej zależnej w jednej lub większej liczby zmiennych niezależnych. Regularizacja łączy w sobie kary L1 (Lasso) i L2 (Ridge). Rozszerzenie obejmuje opcjonalne tryby wyświetlania wykresów śledzenia dla różnych wartości alfa dla danego współczynnika L1 , a także wybranie współczynnika L1 i wartości hiperparametru alfa w oparciu o krzyżowanie. Po dopasowaniu pojedynczego modelu lub w celu sprawdzenia, czy walidacja krzyżowa jest używana do wyboru współczynnika kar i (lub) alfa, do oszacowania wydajności poza próbką można użyć partycji danych wstrzymanych.

Oprócz dopasowania modelu o określonych wartościach współczynnika kary L1 i parametru regulacji alfa, elastyczna sieć liniowa może wyświetlać wykres śledzenia wartości współczynnika dla zakresu wartości alfa dla danego współczynnika lub ułatwić wybór wartości parametrów hiperparametrów poprzez interwalidację k-krotnie w określonych siatkach wartości. Jeśli pojedynczy model jest dopasowany lub stosowany jest stosunek i/lub wybór alfa poprzez walidację krzyżową, ostateczny model może być zastosowany do danych wstrzymanych, które są tworzone przez partycję danych wejściowych w celu uzyskania poprawnego oszacowania wydajności pozapróbowej modelu.

Uzyskiwanie analizy regresji metodą elastycznej sieci liniowej

  1. Z menu wybierz:

    Analiza > Regresja > Liniowe alternatywy dla OLS > siatka elastyczna

    Okno dialogowe Zmienne umożliwia określenie zmiennej, która przypisuje każdą obserwację w aktywnym zbiorze danych do próby szkoleniowej lub holdout.

  2. Wybierz liczbową zmienną przewidywaną. Do uruchomienia analizy wymagana jest tylko jedna zmienna przewidywana.
  3. Określ wartość liczbową zależną.
  4. Określ co najmniej jedną zmienną kategoryczną lub zmienną współzmiennej liczbowej.

Opcjonalnie Partycja umożliwia utworzenie holdout lub podzbioru testowego danych wejściowych w celu oszacowania wydajności poza próbką określonego modelu lub wybranego modelu. Wszystkie partycjonowanie wykonywane jest po listowym usunięciu wszystkich obserwacji z niepoprawnymi danymi dla dowolnej zmiennej użytej w procedurze. Należy pamiętać, że w przypadku walidacji krzyżowej dane treningowe są tworzone w języku Python. Dane wstrzymane, które są tworzone przez partycję, nie są używane w estymacji, niezależnie od tego, jaki tryb jest stosowany.

Partycję można zdefiniować, określając współczynnik obserwacji losowo przypisanych do każdej próbki (w sekcji Partycje szkoleniowe i wstrzymane) lub przez zmienną, która przypisuje każdą obserwację do ucznia lub próby holdout. Nie można określić zarówno szkolenia, jak i zmiennych. Jeśli partycja nie zostanie określona, zostanie utworzona próbka wstrzymana, która wynosi około 30% danych wejściowych.

Wartość Szkolenia% określa względną liczbę obserwacji w aktywnym zbiorze danych, które losowo przypisują do próby ucznia. Szkolenie domyślne to 70%.

Ta procedura służy do wkleiania składni komendy LINEAR_ELASTIC_NET .