Regresión lineal Ridge

Linear Ridge utiliza la clase Python sklearn.linear_model.Ridge para estimar L2 o modelos de regresión lineal regularizada por pérdida cuadrada para una variable dependiente en una o más variables independientes, e incluye modalidades opcionales para visualizar gráficos de rastreo y para seleccionar el valor de hiperparámetro alfa basado en la validación cruzada. Cuando se ajusta un único modelo o se utiliza la validación cruzada para seleccionar alfa, se puede utilizar una partición de datos reservados para estimar el rendimiento fuera de la muestra.

Ademas de ajustar un modelo con un valor especificado del parametro de regularizacion alfa, el reborde lineal puede presentar un trazado de reborde de valores de coeficiente para un rango de valores alfa, o facilitar la eleccion del valor de hiperparametro a traves de la validacion cruzada de k-fold en cuadrículas especificadas de valores. Si se ajusta un único modelo o se realiza una selección alfa mediante validación cruzada, el modelo final se puede aplicar a los datos retenidos que se crean mediante una partición de los datos de entrada para obtener una estimación válida del rendimiento fuera de la muestra del modelo.

Obtención de un análisis de regresión de cresta lineal

  1. En los menús seleccione:

    Analizar > Regresión > Alternativas OLS lineales > Ridge

    El diálogo Variables le permite especificar una variable que asigna cada caso del conjunto de datos activo a la muestra de entrenamiento o reservada.

  2. Seleccione una variable objetivo numérica. Sólo se necesita una variable objetivo para ejecutar un análisis.
  3. Especifique un dependiente numérico.
  4. Especifique al menos una variable de factor categórico o una variable de covariable numérica.

Opcionalmente, Partición proporciona una forma de crear una reserva o un subconjunto de prueba de los datos de entrada para la estimación del rendimiento fuera de muestra del modelo especificado o elegido. Todo el particionamiento se realiza después de la supresión por lista de los casos con datos no válidos para cualquier variable utilizada por el procedimiento. Tenga en cuenta que para la validación cruzada, se crean pliegues o particiones de los datos de entrenamiento en Python. Los datos reservados creados por la partición no se utilizan en la estimación, independientemente de la modalidad en vigor.

La partición se puede definir especificando la proporción de casos que se asignan aleatoriamente a cada muestra (bajo Particiones de entrenamiento y retención), o mediante una variable que asigna cada caso a la muestra de entrenamiento o reserva. No puede especificar tanto el entrenamiento como las variables. Si no se especifica la partición, se crea una muestra reservada de aproximadamente el 30% de los datos de entrada.

El % de entrenamiento especifica el número relativo de casos en el conjunto de datos activo que se asignará aleatoriamente a la muestra de entrenamiento. El entrenamiento predeterminado es 70%.

Este procedimiento pega la sintaxis del comando LINEAR_RIDGE .