O que é regressão Lasso?

18 de janeiro de 2024

A regressão Lasso é uma técnica de regularização que aplica uma penalidade para prevenir o overfitting e melhorar a precisão de modelos estatísticos.

A regressão Lasso (também conhecida como regularização L1) é uma forma de regularização para modelos de regressão linear . A regularização é um método estatístico para reduzir erros causados por overfitting nos dados de treinamento. Essa abordagem pode ser representada pela seguinte fórmula:

w-hat = argminw MSE(W ) + ||w||1

Os conceitos por trás da técnica Lasso podem ser rastreados até um artigo de pesquisa em geofísica (link fora de ibm.com) de 1986, por Santosa e Symes1, que utilizava a penalização L1 para coeficientes. No entanto, em 1996, o estatístico Robert Tibshirani desenvolveu e popularizou independentemente o termo(link fora de ibm.com) "lasso", baseado no trabalho de Breiman sobre o garrote não negativo(link fora de ibm.com).

Lasso significa Operador de Seleção e Encolhimento Mínimo Absoluto (Least Absolute Shrinkage and Selection Operator). É usado com frequência no aprendizado de máquina para lidar com dados de alta dimensão, pois facilita a seleção automática de funcionalidades com sua aplicação. Ele faz isso adicionando um termo de penalidade à soma residual de quadrados (RSS), que é então multiplicada pelo parâmetro de regularização (lambda ou λ). Esse parâmetro de regularização controla a quantidade de regularização aplicada. Valores maiores de lambda aumentam a penalidade, reduzindo mais coeficientes para zero; isso reduz a importância de (ou elimina completamente) algumas das funcionalidades do modelo, resultando na seleção automática de funcionalidades. Por outro lado, valores menores de lambda reduzem o efeito da penalidade, retendo mais funcionalidades no modelo.

Essa penalidade promove a parcimônia dentro do modelo, o que pode ajudar a evitar problemas de multicolinearidade e overfitting nos conjuntos de dados. A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si, o que pode ser problemático para modelagem causal. Os modelos de overfitting terão baixa generalização para novos dados, diminuindo seu valor. Ao reduzir coeficientes de regressão a zero, a regressão Lasso pode eliminar efetivamente variáveis independentes do modelo, contornando esses potenciais problemas no processo de modelagem. A parcimônia do modelo também pode melhorar sua interpretabilidade em comparação com outras técnicas de regularização, como a regressão ridge (também conhecida como regularização L2).

Nota: este artigo foca na regularização de modelos de regressão linear, mas vale notar que a regressão Lasso também pode ser aplicada em modelos de regressão logística.

Troca de viés-variância

A troca de viés-variância é uma propriedade bem conhecida dos modelos preditivos. Nesse contexto, o viés mede a diferença média entre os valores previstos e os valores reais; a variância mede a diferença entre previsões em várias realizações de um determinado modelo. À medida que o viés aumenta, um modelo prevê com menos precisão em um conjunto de dados de treinamento. Por outro lado, conforme a variância aumenta, o modelo se torna menos preciso em outros conjuntos de dados. Portanto, o viés e a variância medem a precisão do modelo nos conjuntos de treinamento e teste, respectivamente. Reduzir simultaneamente o viés e a variância nem sempre é viável, daí a necessidade de técnicas de regularização, como a regressão Lasso.

Na regressão Lasso, o hiperparâmetro lambda (λ), também conhecido como penalidade L1, equilibra a troca entre o viés e a variância nos coeficientes resultantes. À medida que λ aumenta, o viés aumenta e a variância diminui, levando a um modelo mais simples com menos parâmetros. Por outro lado, à medida que λ diminui, a variância aumenta, levando a um modelo mais complexo com mais parâmetros. Se λ for zero, fica com uma função OLS, ou seja, um modelo de regressão linear padrão sem qualquer regularização.

Como funciona a regressão Lasso?

Esta seção resume como aplicar a regressão Lasso e destaca os casos de uso comuns na ciência de dados.

Realize uma análise exploratória de dados

Antes de aplicar um algoritmo de regressão linear a seu conjunto de dados, explore os dados para entender possíveis problemas subjacentes que possam existir. É importante entender se:

  • há algum dado ausente

  • há um grande número de funcionalidades

  • a distribuição das variáveis contínuas centradas na média com desvios padrão equivalentes

  • quaisquer dos preditores se correlacionam entre si

É importante entender isso, pois conjuntos de dados com alta dimensionalidade e variáveis correlacionadas podem estar sujeitos a overfitting. Os dados que não estão centralizados na média com um desvio padrão de 1 também precisarão ser redimensionados para limitar o impacto de grandes escalas no modelo. Se as funcionalidades não forem redimensionadas, isso pode afetar adversamente a função de custo, o que, por sua vez, afeta os coeficientes beta. Simplificando, funcionalidades não dimensionadas podem resultar na aplicação de penalidades não intencionais na regressão Lasso devido às diferenças nas unidades.

Divida os dados e redimensione os preditores contínuos

Depois de realizarmos uma análise exploratória de dados, dividiremos os dados em um conjunto de treinamento e um conjunto de teste. Depois de dividir os dados, o redimensionamento é aplicado aos dados conforme a necessidade. O dimensionamento do Z-score é uma abordagem comum de dimensionamento de funcionalidades, que redimensiona as funcionalidades para compartilhar um desvio padrão de 1 e uma média de 0.

Ajuste o modelo Lasso e escolha um valor para λ

Ajuste o modelo de regressão Lasso nos dados de treinamento e escolha um valor para λ com o objetivo de minimizar o erro médio quadrático (MSE). O erro médio quadrático (MSE) pode ajudar a determinar um valor de λ adequado. O MSE é um meio de medir a diferença, em média, entre os valores previstos e os valores reais da variável dependente. A regressão Lasso minimiza o erro médio quadrático (MSE) e, ao mesmo tempo, equilibra os fatores opostos de viés e variância para criar o modelo preditivo mais preciso. Ela consegue isso adicionando um termo de penalidade à soma residual dos quadrados (RSS) igual à soma dos valores absolutos dos coeficientes multiplicados por um parâmetro λ.

Otimize para λ com validação cruzada

O valor ideal de λ pode ser determinado com técnicas de validação cruzada, como a validação cruzada k-fold; essa abordagem encontra o valor de λ que minimiza o erro quadrático médio ou outras métricas de desempenho.

Conforme observado anteriormente, um valor de λ maior aplica mais regularização. Conforme λ aumenta, o viés do modelo aumenta enquanto a variância diminui. Isso ocorre porque, à medida que λ se torna maior, mais coeficientes 𝛽 diminuem para zero.

Avalie o desempenho de seu modelo

Geralmente, podemos imprimir alguns valores para entender o desempenho do modelo, especificamente R2 e MSE. R2 nos diz a proporção de variância em nossa variável dependente (ou variável de resposta), que é explicada por variáveis independentes. Ao comparar valores de MSE para diferentes valores de λ, você verá se o modelo foi efetivamente otimizado para o mínimo global.

Quando usar regressão Lasso

A regressão Lasso é ideal para problemas preditivos; sua capacidade de realizar a seleção automática de variáveis pode simplificar os modelos e melhorar a precisão da previsão. Dito isso, a regressão Ridge pode superar a regressão Lasso devido à quantidade de viesses que a regressão Lasso introduz ao reduzir os coeficientes em direção a zero. Ela também tem suas limitações com funcionalidades correlacionadas nos dados, pois escolhe arbitrariamente uma funcionalidade para incluir no modelo.

Aplicações comuns

A regressão Lasso pode ser ideal nesses cenários.

Tratamento de conjuntos de dados de alta dimensão

Um conjunto de dados é considerado de alta dimensão quando o número de variáveis do preditor é muito maior do que o número de observações. A regressão Lasso pode ajudar a reduzir a dimensionalidade dentro de um conjunto de dados, ao reduzir os parâmetros de peso para zero, eliminando funcionalidades menos importantes do modelo.

Saiba mais sobre redução da dimensionalidade
Automatização da seleção de funcionalidades

O viés introduzido pela penalidade de L1 reduzirá artificialmente os coeficientes para zero. Algumas variáveis diminuirão exatamente para zero, deixando o modelo com um subconjunto das variáveis mais importantes para fazer previsões.

Limitações da regressão Lasso

A regressão Lasso pode lidar com alguma multicolinearidade sem impactar negativamente a interpretabilidade do modelo, mas não pode superar multicolinearidade severa4. Se as covariáveis forem altamente correlacionadas, a regressão Lasso eliminará arbitrariamente uma das funcionalidades do modelo. A regularização líquida elástica é uma boa alternativa nessa situação.

Implementação da regressão Lasso no Python ou R

Tanto o Python quanto o R são amplamente usados em ciência de dados. O Python é flexível e pode lidar com um amplo espectro de tarefas. Por outro lado, o R é projetado especificamente para computação estatística e visualização de dados, incluindo opções gráficas avançadas para diagramas e gráficos.

A regressão Lasso pode ser implementada em Python usando bibliotecas como sklearn (link fora de ibm.com), que fornece a classe Lasso para esse propósito. O R é uma excelente escolha, já que o pacote glmnet pode ser utilizado para validação cruzada eficiente na seleção de λ, além de oferecer flexibilidade para ajustar α a diferentes valores. O R também se destaca em seus recursos de visualização, que desempenham um papel crucial na compreensão e interpretação do modelo de regressão Lasso.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

Linear Inversion of Band-Limited Reflection Seismograms (link externo a ibm.com), Society for Industrial and Applied Mathematics, 1986

Regression Shrinkage and Selection via the Lasso (link externo a ibm.com), Journal of the Royal Statistical Society, 1996

Better Subset Regression Using the Nonnegative Garrote (link externo a ibm.com), Technometrics, 2012

Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (link externo a ibm.com), International Journal of Statistics and Applications, 2018