Mi IBM

Inicie sesión

Suscríbase

Qué es la regresión Lasso

18 de enero de 2024

La regresión Lasso es una técnica de regularización que aplica una penalización para evitar el sobreajuste y mejorar la precisión de los modelos estadísticos.

La regresión Lasso, también conocida como regularización L1, es una forma de regularización para modelos de regresión lineal . La regularización es un método estadístico para reducir los errores causados por el sobreajuste de los datos de entrenamiento. Este enfoque puede reflejarse con esta fórmula:

w-hat = argmin_w MSE(W ) + ||w||₁

Los conceptos que subyacen a la técnica Lasso se remontan a un artículo de investigación geofísica de 1986 (enlace externo a ibm.com) de Santosa y Symes¹, que utilizaron la penalización L1 para los coeficientes. Sin embargo, en 1996, el estadístico Robert Tibshirani desarrolló y popularizó de forma independiente el término²(enlace externo a ibm.com), "Lasso", basado en el trabajo de garrote no negativo de Breiman³(enlace externo a ibm.com).

Lasso son las siglas de Least Absolute Shrinkage and Selection Operator. Se utiliza con frecuencia en el machine learning para gestionar datos de alta dimensión, ya que facilita la selección automática de funciones con su aplicación. Lo hace añadiendo un término de penalización a la suma residual de cuadrados (RSS) y, a continuación, se multiplica por el parámetro de regularización (lambda o λ). Este parámetro de regularización controla la cantidad de regularización aplicado. Los valores más altos de lambda aumentan la penalización y reducen más coeficientes hasta cero; esto reduce la importancia (o elimina por completo) de algunas de las funciones del modelo, lo que resulta en la selección automática de funciones. Por el contrario, los valores más pequeños de lambda reducen el efecto de la penalización y conservan más funciones del modelo.

Esta penalización promueve la dispersión dentro del modelo, lo que puede ayudar a evitar problemas de multicolinealidad y sobreajuste en los conjuntos de datos. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados generalizarán mal los nuevos datos, lo que disminuirá totalmente su valor. Al reducir los coeficientes de regresión a cero, la regresión Lasso puede eliminar de manera eficaz las variables independientes del modelo, lo que permite eludir estos posibles problemas dentro del proceso de modelado. La dispersión de modelos también puede mejorar la interpretabilidad del modelo en comparación con otras técnicas de regularización, como la regresión (también conocida como regularización L2).

Como nota, este artículo se centra en la regularización de modelos de regresión lineal, pero vale la pena señalar que la regresión Lasso también se puede aplicar en la regresión logística.

Equilibrio entre sesgo y varianza

La compensación sesgo-varianza es una propiedad bien conocida de los modelos predictivos. En este contexto, el sesgo mide la diferencia media entre los valores predichos y los valores reales; La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. A medida que aumenta la varianza, un modelo predice con menos precisión en otros conjuntos de datos. El sesgo y la varianza miden la precisión del modelo en conjuntos de entrenamiento y prueba respectivamente. No siempre es factible reducir simultáneamente el sesgo y la varianza, de ahí la necesidad de técnicas de regularización, como la regresión Lasso.

En la regresión Lasso, el hiperparámetro lambda (λ), también conocido como penalización L1, equilibra la compensación entre sesgo y varianza en los coeficientes resultantes. A medida que λ aumenta, el sesgo aumenta y la varianza disminuye, lo que lleva a un modelo más simple con menos parámetros. Por el contrario, a medida que λ disminuye, la varianza aumenta, lo que lleva a un modelo más complejo con más parámetros. Si λ es cero, nos queda una función OLS, es decir, un modelo de regresión lineal estándar sin ninguna regularización.

¿Cómo funciona la regresión Lasso?

En esta sección se resume cómo aplicar la regresión y se indican casos de uso comunes dentro de la ciencia de datos.

Realice un análisis exploratorio de datos

Antes de aplicar un algoritmo de regresión lineal a su conjunto de datos, explore los datos para comprender los posibles problemas subyacentes que puedan existir. Es importante entender si:

faltan datos
hay un gran número de características
la distribución de las variables continuas centradas en la media con desviaciones estándar equivalentes
cualquiera de los predictores se correlaciona entre sí

Es importante entenderlos, ya que los conjuntos de datos con alta dimensionalidad y las variables correlacionadas pueden ser propensos al sobreajuste. Los datos que no estén centrados en la media con una desviación estándar de 1 también necesitarán un reescalado para limitar el impacto de las grandes escalas en el modelo. Si las características no se reescalan, esto puede afectar negativamente a la función de coste, lo que a su vez afecta a los coeficientes beta. En pocas palabras, las características no escaladas pueden dar lugar a la aplicación de penalizaciones involuntarias en la regresión Lasso debido a las diferencias en las unidades.

Divida los datos y cambie la escala de los predictores continuos

Cuando hayamos realizado un análisis exploratorio de datos, dividiremos los datos en un conjunto de entrenamiento y un conjunto de prueba. Después de dividir los datos, se aplica el reescalado a los datos según sea necesario. El escalado de puntuación Z es un enfoque común de escalado de características, que vuelve a escalar las características para compartir una desviación estándar de 1 y una media de 0.

Ajuste el modelo Lasso y elija un valor para λ

Ajuste el modelo de regresión Lasso en los datos de entrenamiento y elija un valor para λ con el objetivo de minimizar el error cuadrático medio (MSE). El error cuadrático medio (MSE) puede ayudar a determinar un valor de λ adecuado. MSE es un medio para medir la diferencia, en promedio, entre los valores predichos y verdaderos de la variable dependiente. La regresión Lasso minimiza el error cuadrático medio (MSE) al tiempo que equilibra los factores opuestos de sesgo y varianza para construir el modelo predictivo más preciso. Lo consigue añadiendo un término de penalización a la suma residual de cuadrados (RSS) igual a la suma de los valores absolutos de los coeficientes multiplicados por un parámetro λ.

Optimice para λ con validación cruzada

El valor óptimo de λ puede determinarse con técnicas de validación cruzada, como la validación cruzada k-fold; este enfoque encuentra el valor de λ que minimiza el error cuadrático medio u otras métricas de rendimiento.

Como ya se ha indicado, un valor λ más alto aplica más regularización. A medida que aumenta λ, aumenta el sesgo del modelo mientras que disminuye la varianza. Esto se debe a que a medida que λ aumenta, más coeficientes 𝛽 se reducen a cero.

Evalúe el rendimiento de su modelo

En general, podríamos imprimir algunos valores para comprender el rendimiento del modelo, específicamente R² y MSE. R² nos dice la proporción de varianza en nuestra variable dependiente (o variable de respuesta) que se explica por variables independientes. Al comparar los valores de MSE para diferentes valores de λ, verá si el modelo se ha optimizado eficazmente para el mínimo global.

Cuándo utilizar la regresión Lasso

La regresión Lasso es ideal para problemas predictivos; su capacidad para realizar la selección automática de variables puede simplificar los modelos y mejorar la precisión de la predicción. Dicho esto, la regresión de cresta puede superar a la regresión Lasso debido a la cantidad de sesgo que introduce la regresión Lasso al reducir los coeficientes hacia cero. También tiene sus limitaciones con las características correlacionadas en los datos, ya que elige arbitrariamente una característica para incluirla en el modelo.

Aplicaciones comunes

La regresión Lasso puede ser ideal en estos escenarios.

Gestión de conjuntos de datos de alta dimensión

Un conjunto de datos se considera de alta dimensión cuando el número de variables predictoras es mucho mayor que el número de observaciones. La regresión Lasso puede ayudar a reducir la dimensionalidad dentro de un conjunto de datos al reducir los parámetros de ponderación a cero, eliminando las características menos importantes del modelo.

Más información sobre la reducción de la dimensionalidad

Automatización de la selección de características

El sesgo introducido por la penalización L1 reducirá artificialmente los coeficientes hacia cero. Algunas variables se reducirán exactamente a cero, dejando el modelo con un subconjunto de las variables más importantes para hacer predicciones.

Limitaciones de la regresión Lasso

La regresión Lasso puede gestionar cierta multicolinealidad sin afectar negativamente a la interpretabilidad del modelo, pero no puede superar la multicolinealidad grave⁴. Si las covariables están altamente correlacionadas, la regresión Lasso eliminará arbitrariamente una de las características del modelo. La regularización Elastic Net es una buena alternativa en esta situación.

Implementación de la regresión Lasso en Python o R

Tanto Python como R se utilizan ampliamente en la ciencia de datos. Python es flexible y puede gestionar un amplio espectro de tareas. Por otro lado, R está diseñado específicamente para la computación estadística y la visualización de datos, incluidas opciones gráficas enriquecidas para gráficos y gráficos.

La regresión Lasso se puede implementar en Python mediante bibliotecas como sklearn (enlace externo a ibm.com), que proporciona la clase Lasso para este fin. R es una gran opción, ya que el paquete glmnet se puede utilizar para una validación cruzada eficiente para la selección de λ y proporciona la flexibilidad para establecer α en diferentes valores. R también destaca por sus capacidades de visualización, que desempeñan un papel crucial en la comprensión e interpretación del modelo de regresión Lasso.

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

Suscríbase hoy

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Ver los episodios

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Recursos

Explore IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.

IA en Acción 2024

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

Modelos de aprendizaje supervisado

Explore enfoques de aprendizaje supervisado, como las máquinas de vectores de soporte y los clasificadores probabilísticos.

Manos a la obra con la IA generativa

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página

¹Linear Inversion of Band-Limited Reflection Seismograms (enlace externo a ibm.com), Society for Industrial and Applied Mathematics, 1986

²Regression Shrinkage and Selection via the Lasso (enlace externo a ibm.com), Revista de la Royal Statistical Society, 1996

³Better Subset Regression Using the Nonnegative Garrote (enlace externo a ibm.com), Technometrics, 2012

⁴Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (enlace externo a ibm.com), International Journal of Statistics and Applications, 2018