La regresión Lasso es una técnica de regularización que aplica una penalización para evitar el sobreajuste y mejorar la precisión de los modelos estadísticos.
La regresión Lasso, también conocida como regularización L1, es una forma de regularización para modelos de regresión lineal. La regularización es un método estadístico para reducir los errores causados por el sobreajuste en los datos de entrenamiento. Este enfoque se puede reflejar con esta fórmula:
w-hat = argminw MSE(W ) + ||w||1
Los conceptos detrás de la técnica Lasso se remontan a un documento de investigación de geofísica de 1986 (enlace externo a ibm.com) de Santosa y Symes1, que empleó la penalización L1 para los coeficientes. Sin embargo, en 1996, el estadístico Robert Tibshirani desarrolló y popularizó de forma independiente el término2 (enlace externo a ibm.com), “Lasso”, basado en el trabajo de garrote no negativo de Breiman3 (enlace externo a ibm.com).
Lasso es una sigla que corresponde a operador de selección y contracción mínima absoluta [Least Absolute Shrinkage and Selection Operator]. Se utiliza con frecuencia en el machine learning para manejar datos de alta dimensión, ya que facilita la selección automática de características con su aplicación. Para ello, agrega un término de penalización a la suma residual de cuadrados (RSS), que luego se multiplica por el parámetro de regularización (lambda o λ). Este parámetro de regularización controla la cantidad de regularización aplicada. Los valores más grandes de lambda aumentan la penalización, reduciendo más los coeficientes hacia cero; posteriormente, esto reduce la importancia de algunas de las características del modelo (o las elimina por completo), lo que da como resultado una selección automática de características. Por el contrario, los valores más pequeños de lambda reducen el efecto de la penalización, conservando más características dentro del modelo.
Esta penalización promueve la dispersión dentro del modelo, lo que puede ayudar a evitar problemas de multicolinealidad y sobreajuste dentro de los conjuntos de datos. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados se generalizarán de manera deficiente a nuevos datos, lo que disminuirá por completo su valor. Al reducir los coeficientes de regresión a cero, la regresión Lasso puede eliminar de manera eficaz las variables independientes del modelo, eludiendo estos posibles problemas dentro del proceso de modelado. La dispersión del modelo también puede mejorar la interpretabilidad del modelo en comparación con otras técnicas de regularización, como la regresión Ridge (también conocida como regularización L2).
Como nota, este artículo se centra en la regularización de modelos de regresión lineal, pero vale la pena señalar que la regresión Lasso también se puede aplicar en la regresión logística.
La compensación de sesgo y varianza es una propiedad bien conocida de los modelos predictivos. En este contexto, el sesgo mide la diferencia promedio entre los valores previstos y los valores verdaderos; la varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menor precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menor precisión otros conjuntos de datos. Por lo tanto, el sesgo y la varianza miden la precisión del modelo en los conjuntos de entrenamiento y prueba respectivamente. Reducir simultáneamente el sesgo y la varianza no siempre es factible, de ahí la necesidad de utilizar técnicas de regularización, como la regresión Lasso
En la regresión Lasso, el hiperparámetro lambda (λ), también conocido como penalización L1, equilibra la compensación entre el sesgo y la varianza en los coeficientes resultantes. A medida que λ aumenta, el sesgo aumenta y la varianza disminuye, lo que lleva a un modelo más simple con menos parámetros. Por el contrario, a medida que λ disminuye, la varianza aumenta, lo que lleva a un modelo más complejo con más parámetros. Si λ es cero, entonces el resultado es una función OLS, es decir, un modelo de regresión lineal estándar sin ninguna regularización.
En esta sección se resume cómo aplicar la regresión Lasso y se destacan los casos de uso comunes dentro de la ciencia de datos.
Antes de aplicar un algoritmo de regresión lineal a su conjunto de datos, explore los datos para comprender los posibles problemas subyacentes que puedan existir. Es importante entender si:
faltan datos
hay un número elevado de características
la distribución de las variables continuas se centra en la media con desviaciones estándar equivalentes
alguno de los predictores se correlaciona entre sí
Es importante comprender esto, ya que los conjuntos de datos con alta dimensionalidad y variables correlacionadas pueden ser propensos al sobreajuste. Los datos que no están centrados en la media con una desviación estándar de 1 también necesitarán un reescalado para limitar el impacto de las grandes escalas en el modelo. Si las características no se reescalan, esto puede afectar negativamente a la función de costo, lo que a su vez afecta los coeficientes beta. En pocas palabras, las características que no se escalen pueden dar lugar a la aplicación de penalizaciones involuntarias en la regresión Lasso debido a las diferencias en las unidades.
Una vez que realizamos un análisis exploratorio de datos, dividiremos los datos en un conjunto de entrenamiento y un conjunto de prueba. Luego de dividir los datos, se aplica el reescalado a los datos según sea necesario. El escalado de la puntuación Z es un enfoque común de escalado de características, que vuelve a escalar las características para compartir una desviación estándar de 1 y una media de 0.
Ajuste el modelo de regresión Lasso en los datos de entrenamiento y elija un valor para λ con el objetivo de minimizar el error cuadrático medio (MSE). El error cuadrático medio (MSE) puede ayudar a determinar un valor λ adecuado. MSE es un medio para medir la diferencia, en promedio, entre los valores previstos y verdaderos de la variable dependiente. La regresión Lasso minimiza el error cuadrático medio (MSE) mientras equilibra los factores opuestos de sesgo y varianza para construir el modelo predictivo más preciso. Esto se logra agregando un término de penalización a la suma residual de cuadrados (RSS) igual a la suma de los valores absolutos de los coeficientes multiplicados por un parámetro λ.
El valor óptimo de λ se puede determinar con técnicas de validación cruzada, como la validación cruzada k-fold; este enfoque encuentra el valor de λ que minimiza el error cuadrático medio u otras métricas de rendimiento.
Como se señaló anteriormente, un valor de λ más alto aplica más regularización. A medida que λ aumenta, el sesgo del modelo aumenta mientras que la varianza disminuye. Esto se debe a que a medida que λ aumenta, más coeficientes 𝛽 se reducen a cero.
Generalmente, podríamos imprimir algunos valores para comprender el rendimiento del modelo, específicamente R2 y MSE. R2 nos dice la proporción de varianza en nuestra variable dependiente (o variable de respuesta) que es explicada por las variables independientes. Al comparar los valores de MSE para diferentes valores de λ, verá si el modelo se optimizó de manera eficaz para el mínimo global.
La regresión Lasso es ideal para problemas predictivos; su capacidad para realizar la selección automática de variables puede simplificar los modelos y mejorar la precisión de la predicción. Dicho esto, la regresión Ridge puede superar a la regresión Lasso debido a la cantidad de sesgo que introduce la regresión Lasso al reducir los coeficientes hacia cero. También tiene sus limitaciones con características correlacionadas en los datos ya que elige de manera arbitraria una característica para incluir en el modelo.
La regresión Lasso puede ser ideal en estos escenarios.
Un conjunto de datos se considera de alta dimensión cuando el número de variables de predicción es mucho mayor que el número de observaciones. La regresión Lasso puede ayudar a reducir la dimensionalidad dentro de un conjunto de datos al reducir los parámetros de peso a cero, eliminando características menos importantes del modelo.
El sesgo introducido por la penalización L1 reducirá artificialmente los coeficientes hacia cero. Algunas variables se reducirán exactamente a cero, dejando el modelo con un subconjunto de las variables más importantes para hacer predicciones.
La regresión Lasso puede manejar cierta multicolinealidad sin afectar negativamente la interpretabilidad del modelo, pero no puede superar la multicolinealidad severa4. Si las covariables están altamente correlacionadas, la regresión Lasso eliminará arbitrariamente una de las características del modelo. La regularización de Elastic Net es una buena alternativa en esta situación.
Tanto Python como R se utilizan ampliamente en la ciencia de datos. Python es flexible y puede manejar un amplio espectro de tareas. Por otro lado, R está diseñado específicamente para el cálculo estadístico y la visualización de datos, incluyendo ricas opciones gráficas para gráficos y diagramas.
La regresión Lasso se puede implementar en Python utilizando bibliotecas como sklearn (enlace externo a ibm.com) que proporciona la clase Lasso para este propósito. R es una gran opción, ya que el paquete glmnet se puede utilizar para una validación cruzada eficiente para la selección de λ y proporciona la flexibilidad para establecer α en diferentes valores. R también destaca por sus capacidades de visualización, que desempeñan un papel crucial en la comprensión e interpretación del modelo de regresión Lasso.
IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
Explore algunos enfoques de aprendizaje supervisado, como las máquinas de vectores soporte y los clasificadores probabilísticos.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 Linear Inversion of Band-Limited Reflection Seismograms (enlace externo a ibm.com), Society for Industrial and Applied Mathematics, 1986
2 Regression Shrinkage and Selection via the Lasso (enlace externo a ibm.com), Revista de la Royal Statistical Society, 1996
3 Better Subset Regression Using the Nonnegative Garrote (enlace externo a ibm.com), Technometrics, 2012
4 Regularized Multiple Regression Methods to Deal with Severe Multicolinearity (enlace externo a ibm.com), International Journal of Statistics and Applications, 2018