Regresja liniowa sieci elastycznej
Liniowa Sieć Elastyczna wykorzystuje klasę Python sklearn.linear_model.ElasticNet do szacowania stałych modeli regresji liniowej dla zmiennej zależnej w jednej lub większej liczby zmiennych niezależnych. Regularizacja łączy w sobie kary L1 (Lasso) i L2 (Ridge). Rozszerzenie obejmuje opcjonalne tryby wyświetlania wykresów śledzenia dla różnych wartości alfa dla danego współczynnika L1 , a także wybranie współczynnika L1 i wartości hiperparametru alfa w oparciu o krzyżowanie. Po dopasowaniu pojedynczego modelu lub w celu sprawdzenia, czy walidacja krzyżowa jest używana do wyboru współczynnika kar i (lub) alfa, do oszacowania wydajności poza próbką można użyć partycji danych wstrzymanych.
Oprócz dopasowania modelu o określonych wartościach współczynnika kary L1 i parametru regulacji alfa, elastyczna sieć liniowa może wyświetlać wykres śledzenia wartości współczynnika dla zakresu wartości alfa dla danego współczynnika lub ułatwić wybór wartości parametrów hiperparametrów poprzez interwalidację k-krotnie w określonych siatkach wartości. Jeśli pojedynczy model jest dopasowany lub stosowany jest stosunek i/lub wybór alfa poprzez walidację krzyżową, ostateczny model może być zastosowany do danych wstrzymanych, które są tworzone przez partycję danych wejściowych w celu uzyskania poprawnego oszacowania wydajności pozapróbowej modelu.
Uzyskiwanie analizy regresji metodą elastycznej sieci liniowej
- Z menu wybierz:
Okno dialogowe Zmienne umożliwia określenie zmiennej, która przypisuje każdą obserwację w aktywnym zbiorze danych do próby szkoleniowej lub holdout.
- Wybierz liczbową zmienną przewidywaną. Do uruchomienia analizy wymagana jest tylko jedna zmienna przewidywana.
- Określ wartość liczbową zależną.
- Określ co najmniej jedną zmienną kategoryczną lub zmienną współzmiennej liczbowej.
Opcjonalnie Partycja umożliwia utworzenie holdout lub podzbioru testowego danych wejściowych w celu oszacowania wydajności poza próbką określonego modelu lub wybranego modelu. Wszystkie partycjonowanie wykonywane jest po listowym usunięciu wszystkich obserwacji z niepoprawnymi danymi dla dowolnej zmiennej użytej w procedurze. Należy pamiętać, że w przypadku walidacji krzyżowej dane treningowe są tworzone w języku Python. Dane wstrzymane, które są tworzone przez partycję, nie są używane w estymacji, niezależnie od tego, jaki tryb jest stosowany.
Partycję można zdefiniować, określając współczynnik obserwacji losowo przypisanych do każdej próbki (w sekcji Partycje szkoleniowe i wstrzymane) lub przez zmienną, która przypisuje każdą obserwację do ucznia lub próby holdout. Nie można określić zarówno szkolenia, jak i zmiennych. Jeśli partycja nie zostanie określona, zostanie utworzona próbka wstrzymana, która wynosi około 30% danych wejściowych.
Wartość Szkolenia% określa względną liczbę obserwacji w aktywnym zbiorze danych, które losowo przypisują do próby ucznia. Szkolenie domyślne to 70%.
Ta procedura służy do wkleiania składni komendy LINEAR_ELASTIC_NET .