La regresión Lasso es una técnica de regularización que aplica una penalización para evitar el sobreajuste y mejorar la precisión de los modelos estadísticos.
La regresión Lasso, también conocida como regularización L1, es una forma de regularización para modelos de regresión lineal . La regularización es un método estadístico para reducir los errores causados por el sobreajuste de los datos de entrenamiento. Este enfoque puede reflejarse con esta fórmula:
w-hat = argminw MSE(W ) + ||w||1
Los conceptos que subyacen a la técnica Lasso se remontan a un artículo de investigación geofísica de 1986 (enlace externo a ibm.com) de Santosa y Symes1, que utilizaron la penalización L1 para los coeficientes. Sin embargo, en 1996, el estadístico Robert Tibshirani desarrolló y popularizó de forma independiente el término2 (enlace externo a ibm.com), "Lasso", basado en el trabajo de garrote no negativo de Breiman3 (enlace externo a ibm.com).
Lasso son las siglas de Least Absolute Shrinkage and Selection Operator. Se utiliza con frecuencia en el machine learning para gestionar datos de alta dimensión, ya que facilita la selección automática de funciones con su aplicación. Lo hace añadiendo un término de penalización a la suma residual de cuadrados (RSS) y, a continuación, se multiplica por el parámetro de regularización (lambda o λ). Este parámetro de regularización controla la cantidad de regularización aplicado. Los valores más altos de lambda aumentan la penalización y reducen más coeficientes hasta cero; esto reduce la importancia (o elimina por completo) de algunas de las funciones del modelo, lo que resulta en la selección automática de funciones. Por el contrario, los valores más pequeños de lambda reducen el efecto de la penalización y conservan más funciones del modelo.
Esta penalización promueve la dispersión dentro del modelo, lo que puede ayudar a evitar problemas de multicolinealidad y sobreajuste en los conjuntos de datos. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados generalizarán mal los nuevos datos, lo que disminuirá totalmente su valor. Al reducir los coeficientes de regresión a cero, la regresión Lasso puede eliminar de manera eficaz las variables independientes del modelo, lo que permite eludir estos posibles problemas dentro del proceso de modelado. La dispersión de modelos también puede mejorar la interpretabilidad del modelo en comparación con otras técnicas de regularización, como la regresión (también conocida como regularización L2).
Como nota, este artículo se centra en la regularización de modelos de regresión lineal, pero vale la pena señalar que la regresión Lasso también se puede aplicar en la regresión logística.
La compensación sesgo-varianza es una propiedad bien conocida de los modelos predictivos. En este contexto, el sesgo mide la diferencia media entre los valores predichos y los valores reales; La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menos precisión en otros conjuntos de datos. El sesgo y la varianza miden la precisión del modelo en conjuntos de entrenamiento y prueba respectivamente. No siempre es factible reducir simultáneamente el sesgo y la varianza, de ahí la necesidad de técnicas de regularización, como la regresión Lasso.
En la regresión Lasso, el hiperparámetro lambda (λ), también conocido como penalización L1, equilibra la compensación entre sesgo y varianza en los coeficientes resultantes. A medida que λ aumenta, el sesgo aumenta y la varianza disminuye, lo que lleva a un modelo más simple con menos parámetros. Por el contrario, a medida que λ disminuye, la varianza aumenta, lo que lleva a un modelo más complejo con más parámetros. Si λ es cero, nos queda una función OLS, es decir, un modelo de regresión lineal estándar sin ninguna regularización.
En esta sección se resume cómo aplicar la regresión y se indican casos de uso comunes dentro de la ciencia de datos.
Antes de aplicar un algoritmo de regresión lineal a su conjunto de datos, explore los datos para comprender los posibles problemas subyacentes que puedan existir. Es importante entender si:
faltan datos
hay un gran número de características
la distribución de las variables continuas centradas en la media con desviaciones estándar equivalentes
cualquiera de los predictores se correlaciona entre sí
Es importante entenderlos, ya que los conjuntos de datos con alta dimensionalidad y las variables correlacionadas pueden ser propensos al sobreajuste. Los datos que no estén centrados en la media con una desviación estándar de 1 también necesitarán un reescalado para limitar el impacto de las grandes escalas en el modelo. Si las características no se reescalan, esto puede afectar negativamente a la función de coste, lo que a su vez afecta a los coeficientes beta. En pocas palabras, las características no escaladas pueden dar lugar a la aplicación de penalizaciones involuntarias en la regresión Lasso debido a las diferencias en las unidades.
Cuando hayamos realizado un análisis exploratorio de datos, dividiremos los datos en un conjunto de entrenamiento y un conjunto de prueba. Después de dividir los datos, se aplica el reescalado a los datos según sea necesario. El escalado de puntuación Z es un enfoque común de escalado de características, que vuelve a escalar las características para compartir una desviación estándar de 1 y una media de 0.
Ajuste el modelo de regresión Lasso en los datos de entrenamiento y elija un valor para λ con el objetivo de minimizar el error cuadrático medio (MSE). El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. MSE es un medio para medir la diferencia, en promedio, entre los valores predichos y verdaderos de la variable dependiente. La regresión Lasso minimiza el error cuadrático medio (MSE) al tiempo que equilibra los factores opuestos de sesgo y varianza para construir el modelo predictivo más preciso. Lo consigue añadiendo un término de penalización a la suma residual de cuadrados (RSS) igual a la suma de los valores absolutos de los coeficientes multiplicados por un parámetro λ.
El valor óptimo de λ puede determinarse con técnicas de validación cruzada, como la validación cruzada k-fold; este enfoque encuentra el valor de λ que minimiza el error cuadrático medio u otras métricas de rendimiento.
Como ya se ha indicado, un valor λ más alto aplica más regularización. A medida que aumenta λ, aumenta el sesgo del modelo mientras que disminuye la varianza. Esto se debe a que a medida que λ aumenta, más coeficientes 𝛽 se reducen a cero.
En general, podríamos imprimir algunos valores para comprender el rendimiento del modelo, específicamente R2 y MSE. R2 nos dice la proporción de varianza en nuestra variable dependiente (o variable de respuesta) que se explica por variables independientes. Al comparar los valores de MSE para diferentes valores de λ, verá si el modelo se ha optimizado eficazmente para el mínimo global.
La regresión Lasso es ideal para problemas predictivos; su capacidad para realizar la selección automática de variables puede simplificar los modelos y mejorar la precisión de la predicción. Dicho esto, la regresión de cresta puede superar a la regresión Lasso debido a la cantidad de sesgo que introduce la regresión Lasso al reducir los coeficientes hacia cero. También tiene sus limitaciones con las características correlacionadas en los datos, ya que elige arbitrariamente una característica para incluirla en el modelo.
La regresión Lasso puede ser ideal en estos escenarios.
Un conjunto de datos se considera de alta dimensión cuando el número de variables predictoras es mucho mayor que el número de observaciones. La regresión Lasso puede ayudar a reducir la dimensionalidad dentro de un conjunto de datos al reducir los parámetros de ponderación a cero, eliminando las características menos importantes del modelo.
El sesgo introducido por la penalización L1 reducirá artificialmente los coeficientes hacia cero. Algunas variables se reducirán exactamente a cero, dejando el modelo con un subconjunto de las variables más importantes para hacer predicciones.
La regresión Lasso puede gestionar cierta multicolinealidad sin afectar negativamente a la interpretabilidad del modelo, pero no puede superar la multicolinealidad grave4. Si las covariables están altamente correlacionadas, la regresión Lasso eliminará arbitrariamente una de las características del modelo. La regularización Elastic Net es una buena alternativa en esta situación.
Tanto Python como R se utilizan ampliamente en la ciencia de datos. Python es flexible y puede gestionar un amplio espectro de tareas. Por otro lado, R está diseñado específicamente para la computación estadística y la visualización de datos, incluidas opciones gráficas enriquecidas para gráficos y gráficos.
La regresión Lasso se puede implementar en Python mediante bibliotecas como sklearn (enlace externo a ibm.com), que proporciona la clase Lasso para este fin. R es una gran opción, ya que el paquete glmnet se puede utilizar para una validación cruzada eficiente para la selección de λ y proporciona la flexibilidad para establecer α en diferentes valores. R también destaca por sus capacidades de visualización, que desempeñan un papel crucial en la comprensión e interpretación del modelo de regresión Lasso.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.
Explore enfoques de aprendizaje supervisado, como las máquinas de vectores de soporte y los clasificadores probabilísticos.
Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Linear Inversion of Band-Limited Reflection Seismograms (enlace externo a ibm.com), Society for Industrial and Applied Mathematics, 1986
2 Regression Shrinkage and Selection via the Lasso (enlace externo a ibm.com), Revista de la Royal Statistical Society, 1996
3 Better Subset Regression Using the Nonnegative Garrote (enlace externo a ibm.com), Technometrics, 2012
4 Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (enlace externo a ibm.com), International Journal of Statistics and Applications, 2018