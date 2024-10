A regressão Lasso (também conhecida como regularização L1) é uma forma de regularização para modelos de regressão linear . A regularização é um método estatístico para reduzir erros causados por overfitting em dados de treinamento. Essa abordagem pode ser refletida com essa fórmula:

w-hat = argmin w MSE(W ) + ||w|| 1

Os conceitos por trás da técnica Lasso podem ser rastreados até um artigo de pesquisa geofísica de 1986 (link externo a ibm.com) de Santosa e Symes1, que usou a penalidade de L1 para coeficientes. No entanto, em 1996, o estatístico Robert Tibshirani desenvolveu e popularizou de forma independente o termo2 (link externo a ibm.com), "Lasso", com base no trabalho de garrote não negativo de Breiman3 (link externo a ibm.com).

Lasso significa Operador de Seleção e Encolhimento Mínimo Absoluto (Least Absolute Shrinkage and Selection Operator). É usado com frequência no aprendizado de máquina para lidar com dados de alta dimensão, pois facilita a seleção automática de funcionalidades com sua aplicação. Ele faz isso adicionando um termo de penalidade à soma residual de quadrados (RSS), que é então multiplicada pelo parâmetro de regularização (lambda ou λ). Esse parâmetro de regularização controla a quantidade de regularização aplicada. Valores maiores de lambda aumentam a penalidade, reduzindo mais coeficientes para zero; isso reduz a importância de (ou elimina completamente) algumas das funcionalidades do modelo, resultando na seleção automática de funcionalidades. Por outro lado, valores menores de lambda reduzem o efeito da penalidade, retendo mais funcionalidades no modelo.

Essa penalidade promove a dispersão dentro do modelo, o que pode ajudar a evitar problemas de multicolinearidade e problemas de overfitting dentro dos conjuntos de dados. A multicolinearidade ocorre quando duas ou mais variáveis independentes são altamente correlacionadas entre si, o que pode ser problemático para a modelagem causal. Os modelos de overfitting generalizarão mal para novos dados, diminuindo completamente seu valor. Ao reduzir os coeficientes de regressão a zero, a regressão Lasso pode efetivamente eliminar variáveis independentes do modelo, evitando esses possíveis problemas no processo de modelagem. A dispersão do modelo também pode melhorar a interpretabilidade do modelo em comparação com outras técnicas de regularização, como regressão Ridge (também conhecida como regularização L2).

Como nota, este artigo se concentra na regularização de modelos de regressão linear, mas é importante notar que a regressão Lasso também pode ser aplicada na regressão logística.