Regresión lineal de Lasso

Lasso lineal utiliza la clase Python sklearn.linear_model.Lasso para estimar los modelos de regresión lineal regularizada por pérdida L1 para una variable dependiente en una o más variables independientes, e incluye modalidades opcionales para visualizar gráficos de rastreo y para seleccionar el valor de hiperparámetro alfa basado en la validación cruzada. Cuando se ajusta un único modelo o se utiliza la validación cruzada para seleccionar alfa, se puede utilizar una partición de datos reservados para estimar el rendimiento fuera de la muestra.

Además de ajustar un modelo con un valor especificado del parámetro de regularización alfa, el lazo lineal puede mostrar un trazo de valores de coeficiente para un rango de valores alfa, o facilitar la elección del valor de hiperparámetro a través de la validación cruzada de k-fold en cuadrículas especificadas de valores. Si se ajusta un único modelo o se realiza una selección alfa mediante validación cruzada, el modelo final se puede aplicar a los datos retenidos que se crean mediante una partición de los datos de entrada para obtener una estimación válida del rendimiento fuera de la muestra del modelo.

Obtención de un análisis de regresión de lazo lineal

  1. En los menús seleccione:

    Analizar > Regresión > Alternativas OLS lineales > Lasso

    El diálogo Variables le permite especificar una variable que asigna cada caso del conjunto de datos activo a la muestra de entrenamiento o reservada.

    Nota: Los campos resaltados en rojo son obligatorios. Los botones Pegar y Aceptar se activan después de introducir valores válidos en todos los campos obligatorios.
  2. Seleccione una variable objetivo numérica. Sólo se necesita una variable objetivo para ejecutar un análisis.
  3. Especifique un dependiente numérico.
  4. Especifique al menos una variable de factor categórico o una variable de covariable numérica.

Opcionalmente, Partición proporciona una forma de crear una reserva o un subconjunto de prueba de los datos de entrada para la estimación del rendimiento fuera de muestra del modelo especificado o elegido. Todo el particionamiento se realiza después de la supresión por lista de los casos con datos no válidos para cualquier variable utilizada por el procedimiento. Tenga en cuenta que para la validación cruzada, se crean pliegues o particiones de los datos de entrenamiento en Python. Los datos reservados creados por la partición no se utilizan en la estimación, independientemente de la modalidad en vigor.

La partición se puede definir especificando la proporción de casos asignados aleatoriamente a cada muestra (bajo Particiones de entrenamiento y retención), o mediante una variable que asigna cada caso a la muestra de entrenamiento o reserva. No puede especificar tanto el entrenamiento como las variables. Si no se especifica la partición, se crea una muestra reservada de aproximadamente el 30% de los datos de entrada.

El % de entrenamiento especifica el número relativo de casos en el conjunto de datos activo que se asignará aleatoriamente a la muestra de entrenamiento. El entrenamiento predeterminado es 70%.

Este procedimiento pega la sintaxis del comando LINEAR LASSO REGRESSION .