Qué es la regresión Lasso?

La regresión Lasso es una técnica de regularización que aplica una penalización para evitar el sobreajuste y mejorar la precisión de los modelos estadísticos.

La regresión Lasso, también conocida como regularización L1, es una forma de regularización para modelos de regresión lineal. La regularización es un método estadístico para reducir los errores causados por el sobreajuste en los datos de entrenamiento. Este enfoque se puede reflejar con esta fórmula:

w-hat = argmin_w MSE(W ) + ||w||₁

Los conceptos detrás de la técnica Lasso se remontan a un documento de investigación de geofísica de 1986 (enlace externo a ibm.com) de Santosa y Symes¹, que empleó la penalización L1 para los coeficientes. Sin embargo, en 1996, el estadístico Robert Tibshirani desarrolló y popularizó de forma independiente el término²(enlace externo a ibm.com), "lazo", basado en el trabajo de garrote no negativo de Breiman³(enlace externo a ibm.com).

Lasso es una sigla que corresponde a operador de selección y contracción mínima absoluta [Least Absolute Shrinkage and Selection Operator]. Se utiliza con frecuencia en el machine learning para manejar datos de alta dimensión, ya que facilita la selección automática de características con su aplicación. Para ello, agrega un término de penalización a la suma residual de cuadrados (RSS), que luego se multiplica por el parámetro de regularización (lambda o λ). Este parámetro de regularización controla la cantidad de regularización aplicada. Los valores más grandes de lambda aumentan la penalización, reduciendo más los coeficientes hacia cero; posteriormente, esto reduce la importancia de algunas de las características del modelo (o las elimina por completo), lo que da como resultado una selección automática de características. Por el contrario, los valores más pequeños de lambda reducen el efecto de la penalización, conservando más características dentro del modelo.

Esta penalización promueve la dispersión dentro del modelo, lo que puede ayudar a evitar problemas de multicolinealidad y sobreajuste dentro de los conjuntos de datos. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados se generalizarán de manera deficiente a nuevos datos, lo que disminuirá por completo su valor. Al reducir los coeficientes de regresión a cero, la regresión Lasso puede eliminar de manera eficaz las variables independientes del modelo, eludiendo estos posibles problemas dentro del proceso de modelado. La dispersión del modelo también puede mejorar la interpretabilidad del modelo en comparación con otras técnicas de regularización, como la regresión Ridge (también conocida como regularización L2).

Como nota, este artículo se centra en la regularización de modelos de regresión lineal, pero vale la pena señalar que la regresión Lasso también se puede aplicar en la regresión logística.

Compensación entre sesgo y varianza

La compensación de sesgo y varianza es una propiedad bien conocida de los modelos predictivos. En este contexto, el sesgo mide la diferencia promedio entre los valores previstos y los valores verdaderos; la varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menor precisión otros conjuntos de datos. Por lo tanto, el sesgo y la varianza miden la precisión del modelo en los conjuntos de entrenamiento y prueba respectivamente. Reducir simultáneamente el sesgo y la varianza no siempre es factible, de ahí la necesidad de utilizar técnicas de regularización, como la regresión Lasso

En la regresión Lasso, el hiperparámetro lambda (λ), también conocido como penalización L1, equilibra la compensación entre el sesgo y la varianza en los coeficientes resultantes. A medida que λ aumenta, el sesgo aumenta y la varianza disminuye, lo que lleva a un modelo más simple con menos parámetros. Por el contrario, a medida que λ disminuye, la varianza aumenta, lo que lleva a un modelo más complejo con más parámetros. Si λ es cero, entonces el resultado es una función OLS, es decir, un modelo de regresión lineal estándar sin ninguna regularización.

Relación de modelado gráfico entre MSE, vías, varianza y término de penalización lambda

¿Cómo funciona la regresión Lasso?

En esta sección se resume cómo aplicar la regresión Lasso y se destacan los casos de uso comunes dentro de la ciencia de datos.

Realizar un análisis exploratorio de datos

Antes de aplicar un algoritmo de regresión lineal a su conjunto de datos, explore los datos para comprender los posibles problemas subyacentes que puedan existir. Es importante entender si:

faltan datos
hay un número elevado de características
la distribución de las variables continuas se centra en la media con desviaciones estándar equivalentes
alguno de los predictores se correlaciona entre sí

Es importante comprender esto, ya que los conjuntos de datos con alta dimensionalidad y variables correlacionadas pueden ser propensos al sobreajuste. Los datos que no están centrados en la media con una desviación estándar de 1 también necesitarán un reescalado para limitar el impacto de las grandes escalas en el modelo. Si las características no se reescalan, esto puede afectar negativamente a la función de costo, lo que a su vez afecta los coeficientes beta. En pocas palabras, las características que no se escalen pueden dar lugar a la aplicación de penalizaciones involuntarias en la regresión Lasso debido a las diferencias en las unidades.

Divida los datos y reescale los predictores continuos

Una vez que realizamos un análisis exploratorio de datos, dividiremos los datos en un conjunto de entrenamiento y un conjunto de prueba. Luego de dividir los datos, se aplica el reescalado a los datos según sea necesario. El escalado de la puntuación Z es un enfoque común de escalado de características, que vuelve a escalar las características para compartir una desviación estándar de 1 y una media de 0.

Ajuste el modelo Lasso y elija un valor para λ

Ajuste el modelo de regresión Lasso en los datos de entrenamiento y elija un valor para λ con el objetivo de minimizar el error cuadrático medio (MSE). El error cuadrático medio (MSE) puede ayudar a determinar un valor λ adecuado. MSE es un medio para medir la diferencia, en promedio, entre los valores previstos y verdaderos de la variable dependiente. La regresión Lasso minimiza el error cuadrático medio (MSE) mientras equilibra los factores opuestos de sesgo y varianza para construir el modelo predictivo más preciso. Esto se logra agregando un término de penalización a la suma residual de cuadrados (RSS) igual a la suma de los valores absolutos de los coeficientes multiplicados por un parámetro λ.

Optimización de λ con validación cruzada

El valor óptimo de λ se puede determinar con técnicas de validación cruzada, como la validación cruzada k-fold; este enfoque encuentra el valor de λ que minimiza el error cuadrático medio u otras métricas de rendimiento.

Como se señaló anteriormente, un valor de λ más alto aplica más regularización. A medida que λ aumenta, el sesgo del modelo aumenta mientras que la varianza disminuye. Esto se debe a que a medida que λ aumenta, más coeficientes 𝛽 se reducen a cero.

Evalúe el rendimiento de su modelo

Generalmente, podríamos imprimir algunos valores para comprender el rendimiento del modelo, específicamente R² y MSE. R² nos dice la proporción de varianza en nuestra variable dependiente (o variable de respuesta) que es explicada por las variables independientes. Al comparar los valores de MSE para diferentes valores de λ, verá si el modelo se optimizó de manera eficaz para el mínimo global.

Cuándo usar la regresión Lasso

La regresión Lasso es ideal para problemas predictivos; su capacidad para realizar la selección automática de variables puede simplificar los modelos y mejorar la precisión de la predicción. Dicho esto, la regresión Ridge puede superar a la regresión Lasso debido a la cantidad de sesgo que introduce la regresión Lasso al reducir los coeficientes hacia cero. También tiene sus limitaciones con características correlacionadas en los datos ya que elige de manera arbitraria una característica para incluir en el modelo.

Aplicaciones comunes

La regresión Lasso puede ser ideal en estos escenarios.

Manejo de conjuntos de datos de alta dimensión

Un conjunto de datos se considera de alta dimensión cuando el número de variables de predicción es mucho mayor que el número de observaciones. La regresión Lasso puede ayudar a reducir la dimensionalidad dentro de un conjunto de datos al reducir los parámetros de peso a cero, eliminando características menos importantes del modelo.

Obtenga más información sobre la reducción de la dimensionalidad

Automatización de la selección de características

El sesgo introducido por la penalización L1 reducirá artificialmente los coeficientes hacia cero. Algunas variables se reducirán exactamente a cero, dejando el modelo con un subconjunto de las variables más importantes para hacer predicciones.

Limitaciones de la regresión Lasso

La regresión Lasso puede manejar cierta multicolinealidad sin afectar negativamente la interpretabilidad del modelo, pero no puede superar la multicolinealidad severa⁴. Si las covariables están altamente correlacionadas, la regresión Lasso eliminará arbitrariamente una de las características del modelo. La regularización de Elastic Net es una buena alternativa en esta situación.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Implementación de la regresión Lasso en Python o R

Tanto Python como R se utilizan ampliamente en la ciencia de datos. Python es flexible y puede manejar un amplio espectro de tareas. Por otro lado, R está diseñado específicamente para el cálculo estadístico y la visualización de datos, incluyendo ricas opciones gráficas para gráficos y diagramas.

La regresión Lasso se puede implementar en Python utilizando bibliotecas como sklearn (enlace externo a ibm.com) que proporciona la clase Lasso para este propósito. R es una gran opción, ya que el paquete glmnet se puede utilizar para una validación cruzada eficiente para la selección de λ y proporciona la flexibilidad para establecer α en diferentes valores. R también destaca por sus capacidades de visualización, que desempeñan un papel crucial en la comprensión e interpretación del modelo de regresión Lasso.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Qué es la regresión Lasso?