La regresión Lasso, también conocida como regularización L1, es una forma de regularización para modelos de regresión lineal. La regularización es un método estadístico para reducir los errores causados por el sobreajuste en los datos de entrenamiento. Este enfoque se puede reflejar con esta fórmula:
w-hat = argminw MSE(W ) + ||w||1
Los conceptos detrás de la técnica Lasso se remontan a un documento de investigación de geofísica de 1986 (enlace externo a ibm.com) de Santosa y Symes1, que empleó la penalización L1 para los coeficientes. Sin embargo, en 1996, el estadístico Robert Tibshirani desarrolló y popularizó de forma independiente el término2 (enlace externo a ibm.com), "lazo", basado en el trabajo de garrote no negativo de Breiman3 (enlace externo a ibm.com).
Lasso es una sigla que corresponde a operador de selección y contracción mínima absoluta [Least Absolute Shrinkage and Selection Operator]. Se utiliza con frecuencia en el machine learning para manejar datos de alta dimensión, ya que facilita la selección automática de características con su aplicación. Para ello, agrega un término de penalización a la suma residual de cuadrados (RSS), que luego se multiplica por el parámetro de regularización (lambda o λ). Este parámetro de regularización controla la cantidad de regularización aplicada. Los valores más grandes de lambda aumentan la penalización, reduciendo más los coeficientes hacia cero; posteriormente, esto reduce la importancia de algunas de las características del modelo (o las elimina por completo), lo que da como resultado una selección automática de características. Por el contrario, los valores más pequeños de lambda reducen el efecto de la penalización, conservando más características dentro del modelo.
Esta penalización promueve la dispersión dentro del modelo, lo que puede ayudar a evitar problemas de multicolinealidad y sobreajuste dentro de los conjuntos de datos. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados se generalizarán de manera deficiente a nuevos datos, lo que disminuirá por completo su valor. Al reducir los coeficientes de regresión a cero, la regresión Lasso puede eliminar de manera eficaz las variables independientes del modelo, eludiendo estos posibles problemas dentro del proceso de modelado. La dispersión del modelo también puede mejorar la interpretabilidad del modelo en comparación con otras técnicas de regularización, como la regresión Ridge (también conocida como regularización L2).
Como nota, este artículo se centra en la regularización de modelos de regresión lineal, pero vale la pena señalar que la regresión Lasso también se puede aplicar en la regresión logística.