Minha IBM Efetue login Inscreva-se

O que é a regressão ridge?

21 de novembro de 2023

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

O que é a regressão ridge?

A regressão ridge é uma técnica de regularização estatística. Ele corrige o overfitting em dados de treinamento em modelos de aprendizado de máquina.

A regressão de Ridge, também conhecida como regularização L2, é um dos vários tipos de regularizações para modelos de regressão linear. Regularização é um método estatístico para reduzir erros causados por overfitting nos dados de treinamento. Especificamente, a regressão de Ridge corrige a multicolinearidade em análises de regressão. Isso é útil ao desenvolver modelos de aprendizado de máquina que têm um grande número de parâmetros, especialmente quando esses parâmetros têm pesos elevados. Embora este artigo foque na regularização de modelos de regressão linear, observe que a regressão de Ridge também pode ser aplicada em regressão logística.

O problema: multicolinearidade

Uma equação de regressão linear padrão com múltiplas variáveis é:

Aqui, Y é o valor previsto (variável dependente), X é qualquer preditor (variável independente), B é o coeficiente de regressão associado a essa variável independente, e X0 é o valor da variável dependente quando a variável independente é igual a zero (também chamado de intercepto em Y). Observe como os coeficientes indicam a relação entre a variável dependente e um determinado preditor.

A multicolinearidade indica quando dois ou mais preditores possuem uma relação quase linear. Montgomery et al. apresentam um exemplo pertinente: imagine que analisamos um conjunto de dados de entregas na cadeia de suprimentos, no qual entregas de longa distância frequentemente contêm um grande número de itens, enquanto entregas de curta distância apresentam inventários menores. Nesse caso, a distância de entrega e a quantidade de itens estão correlacionadas linearmente, conforme mostrado na Figura 1. Isso gera problemas ao utilizar essas variáveis como independentes em um único modelo preditivo.

Esse é apenas um exemplo de multicolinearidade, e sua solução é relativamente simples: coletar dados mais diversificados (por exemplo, dados sobre entregas de curta distância com grandes inventários). No entanto, coletar mais dados nem sempre é uma solução viável, especialmente quando a multicolinearidade é intrínseca ao conjunto de dados estudado. Outras opções para corrigir a multicolinearidade incluem aumentar o tamanho da amostra, reduzir o número de variáveis independentes ou simplesmente utilizar um modelo diferente. No entanto, essas soluções nem sempre eliminam a multicolinearidade, e a regressão Ridge pode ser usada como um método adicional de regularização do modelo para lidar com esse problema.1

Como funciona a regressão ridge: o algoritmo de regularização

Ao desenvolver modelos preditivos, muitas vezes precisamos calcular coeficientes, já que eles não estão explicitamente disponíveis nos dados de treinamento. Para estimar os coeficientes, podemos usar um estimador de coeficientes de matriz de mínimos quadrados ordinários (OLS) padrão:

Entender o funcionamento desta fórmula requer familiaridade com notação matricial. Basta dizer que esta fórmula tem como objetivo encontrar a reta que melhor se ajusta a um conjunto de dados, calculando coeficientes para cada variável independente que, em conjunto, resultam na menor soma dos quadrados dos resíduos (também chamada de soma dos erros quadráticos).2

O somatório residual de quadrados (RSS) mede o quão bem um modelo de regressão linear se ajusta aos dados de treinamento. Ele é representado pela fórmula:

Essa fórmula mede a precisão das previsões do modelo para os valores reais nos dados de treinamento. Se RSS = 0, o modelo prevê perfeitamente as variáveis dependentes. No entanto, uma pontuação zero nem sempre é desejável, pois pode indicar um overfitting dos dados de treinamento, especialmente se o conjunto de dados de treinamento for pequeno. A multicolinearidade pode ser uma das causas disso.

Estimativas elevadas de coeficientes podem frequentemente ser indicativas de overfitting.3 Se duas ou mais variáveis compartilham uma alta correlação linear, o OLS pode retornar coeficientes com valores erroneamente altos. Quando um ou mais coeficientes são excessivamente altos, a saída do modelo torna-se sensível a pequenas alterações nos dados de input. Em outras palavras, o modelo se ajustou excessivamente a um conjunto de treinamento específico e não consegue generalizar com precisão em novos conjuntos de teste. Tal modelo é considerado instável.4

A regressão ridge modifica o OLS ao calcular coeficientes que consideram preditores potencialmente correlacionados. Especificamente, a regressão ridge corrige coeficientes com valores elevados ao introduzir um termo de regularização (frequentemente denominado termo de penalidade) na função RSS. Esse termo de penalidade é a soma dos quadrados dos coeficientes do modelo.Ele é representado na seguinte formulação:

O termo de penalidade L2 é inserido no final da função RSS, resultando em uma nova formulação, o estimador de regressão ridge. Seu efeito no modelo é controlado pelo hiperparâmetro lambda (λ).

Lembre-se de que os coeficientes indicam o efeito de um determinado preditor (ou seja, variável independente) sobre o valor previsto (variável dependente). Uma vez incorporado à fórmula do RSS, o termo de penalidade L2 contrabalança coeficientes especialmente altos, reduzindo todos os seus valores. Na estatística, isso é denominado encolhimento dos coeficientes. Assim, o estimador ridge acima calcula novos coeficientes de regressão que diminuem o RSS do modelo. Isso minimiza o impacto de cada preditor e reduz o overfitting nos dados de treinamento.6

Observe que a regressão de ridge não reduz todos os coeficientes pelo mesmo valor. Em vez disso, os coeficientes são reduzidos proporcionalmente ao seu tamanho inicial. À medida que λ aumenta, coeficientes de alto valor encolhem a uma taxa maior do que coeficientes de baixo valor.7 Assim, coeficientes de alto valor são mais penalizados do que coeficientes de baixo valor.

Regressão ridge vs. regressão Lasso

Observe que a penalização L2 reduz os coeficientes em direção a zero, mas nunca os torna exatamente zero; embora os pesos das funcionalidades do modelo possam se tornar insignificantes, eles nunca serão exatamente zero na regressão Ridge. Reduzir um coeficiente a zero efetivamente remove o preditor correspondente do modelo. Isso é chamado de seleção de funcionalidades, que é outra maneira de corrigir a multicolinearidade.8 Como a regressão Ridge não reduz os coeficientes de regressão a zero, ela não realiza seleção de funcionalidades.9 Isso é frequentemente citado como uma desvantagem da regressão Ridge. Além disso, outra desvantagem frequentemente mencionada é a incapacidade da regressão Ridge de separar os efeitos dos preditores na presença de multicolinearidade severa.10

A regressão Lasso, também chamada de regularização L1, é um dos diversos métodos de regularização em regressão linear. A regularização L1 atua reduzindo os coeficientes a zero, eliminando essencialmente essas variáveis independentes do modelo. Tanto a regressão Lasso quanto a regressão ridge reduzem a complexidade do modelo, embora por meios distintos. A regressão Lasso diminui o número de variáveis independentes que afetam o resultado, enquanto a regressão ridge reduz o peso que cada variável independente exerce sobre o resultado.

Outras técnicas de regularização de regression

A rede elástica é uma forma adicional de regularização. Enquanto a regressão de Ridge obtém seu parâmetro de regularização a partir da soma dos erros quadráticos e a regressão de Lasso obtém o seu a partir da soma dos valores absolutos dos erros, a rede elástica incorpora ambos os parâmetros de regularização na função de custo de RSS.11

A regressão por componentes principais (PCR) também pode atuar como um procedimento de regularização. Embora o PCR possa resolver a multicolinearidade, ele não o faz impondo uma penalidade na função RSS, como ocorre na regressão ridge e lasso. Em vez disso, o PCR gera combinações lineares de preditores correlacionados, a partir das quais se cria um novo modelo de mínimos quadrados.12

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Regressão ridge em aprendizado de máquina

Complexidade do modelo

Em machine learning, a regressão ridge ajuda a reduzir o overfitting decorrente da complexidade do modelo. A complexidade do modelo pode ser devida a:

  • Um modelo com muitas funcionalidades. Funcionalidades são os preditores do modelo e podem também ser chamadas de “parâmetros” em aprendizado de máquina. Tutoriais online frequentemente recomendam que o número de funcionalidades seja inferior ao número de instâncias nos conjuntos de dados de treinamento. Contudo, isso nem sempre é viável.
  • Funcionalidades com peso excessivo. O peso de uma funcionalidade refere-se ao impacto de um determinado preditor na saída do modelo. Um peso elevado equivale a um coeficiente de alto valor.

Modelos mais simples não necessariamente têm melhor desempenho do que modelos complexos. No entanto, um alto grau de complexidade pode prejudicar a capacidade de um modelo de se generalizar para novos dados fora do conjunto de treinamento.

Como a regressão ridge não realiza a seleção de funcionalidades, ela não pode reduzir a complexidade do modelo eliminando funcionalidades. No entanto, se uma ou mais funcionalidades afetarem demasiadamente a saída do modelo, a regressão ridge pode reduzir os pesos elevados dessas funcionalidades (isto é, os coeficientes) em todo o modelo por meio do termo de penalidade L2. Isso diminui a complexidade do modelo e torna as previsões menos dependentes de forma errática de qualquer funcionalidade.

Troca de viés-variância

Em termos de aprendizado de máquina, a regressão ridge equivale a adicionar viés a um modelo com o objetivo de diminuir sua variância. O tradeoff entre viés e variância é um problema bem conhecido em aprendizado de máquina. Contudo, para compreender esse tradeoff, é necessário primeiro saber o que “viés” e “variância” significam, respectivamente, na pesquisa em aprendizado de máquina.

Resumindo: o viés mede a diferença média entre os valores previstos e os valores reais; a variância mede a variação entre as previsões em diversas execuções de um determinado modelo. À medida que o viés aumenta, o modelo prevê com menor precisão no conjunto de treinamento. Quando a variância aumenta, o modelo tem desempenho inferior em outros conjuntos de dados. Assim, viés e variância medem, respectivamente, a acurácia do modelo nos conjuntos de treinamento e de teste. Obviamente, os desenvolvedores buscam reduzir tanto o viés quanto a variância. Contudo, a redução simultânea dos dois nem sempre é viável, o que justifica a necessidade de técnicas de regularização, como a regressão ridge.

Como mencionado, a regularização pela regressão ridge introduz viés adicional em troca de uma redução na variância. Em outras palavras, modelos regularizados por meio da regressão ridge apresentam previsões menos precisas nos dados de treinamento (maior viés), mas previsões mais precisas nos dados de teste (menor variância). Isso caracteriza o tradeoff entre viés e variância. Por meio da regressão ridge, os usuários determinam uma perda aceitável na acurácia do treinamento (maior viés) para aumentar a generalização do modelo (menor variância).13 Dessa forma, o aumento do viés pode ajudar a melhorar o desempenho global do modelo.

A intensidade da penalidade L2, e portanto o tradeoff entre viés e variância do modelo, é determinada pelo valor λ na equação da função de perda do estimador ridge. Se λ for zero, resta uma função de mínimos quadrados ordinários, criando assim um modelo de regressão linear padrão sem qualquer regularização. Por outro lado, um valor de λ mais alto implica em maior regularização. À medida que λ aumenta, o viés do modelo cresce enquanto a variância diminui. Portanto, quando λ é zero, o modelo se ajusta excessivamente aos dados de treinamento, mas quando λ é muito alto, o modelo subajusta em todos os dados.14

O erro quadrático médio (MSE) pode ajudar a determinar um valor adequado para λ. O MSE está intimamente relacionado ao RSS e mede a diferença média entre valores previstos e valores reais. Quanto menor o MSE de um modelo, mais precisas são suas previsões. No entanto, o MSE aumenta à medida que λ aumenta. Ainda assim, argumenta-se que sempre existe um valor de λ maior que zero em que o MSE obtido por meio da regressão Ridge é menor do que aquele obtido pelos mínimos quadrados ordinários (OLS).15 Um método para determinar um valor adequado de λ é encontrar o maior valor de λ que não aumente o MSE, conforme ilustrado na Figura 2. Técnicas adicionais de validação cruzada podem ajudar os usuários a selecionar os valores ideais de λ para ajuste do modelo.16

Exemplos de casos de uso

Modelos de regressão ridge são mais indicados quando se trabalha com conjuntos de dados que possuem duas ou mais funcionalidades correlacionadas. Além disso, muitos setores utilizam a regressão ridge para lidar com modelos que apresentam um número maior de preditores e conjuntos de dados de treinamento pequenos.17 Tais situações podem ser bastante comuns ao lidar com uma variedade de dados.

Bioestatística

A biologia computacional e os estudos genéticos frequentemente lidam com modelos nos quais o número de preditores supera em muito o tamanho das amostras dos conjuntos de dados, especialmente ao investigar a expressão genética. A regressão ridge fornece um meio de abordar essa complexidade do modelo, ao reduzir o peso total dessas inúmeras funcionalidades, comprimindo o alcance preditivo do modelo.

Imóvel

Uma miríade de preditores determina o preço final de venda de uma casa, e muitos deles são correlacionados, como o número de quartos e banheiros. Funcionalidades altamente correlacionadas resultam em coeficientes de regressão elevados e overfitting nos dados de treinamento. A regressão ridge corrige essa forma de complexidade do modelo ao reduzir o peso total das funcionalidades no valor final previsto pelo modelo.

Esses são apenas dois exemplos dentro do campo da ciência de dados. Mas, como esses dois casos ilustram, a regressão ridge é mais eficaz em situações em que você possui mais características no modelo do que amostras de dados, ou quando seu modelo possui duas ou mais características altamente correlacionadas.

Pesquisa recente

Pesquisas recentes exploram uma variante modificada da regressão ridge para realizar a seleção de funcionalidades.18 Essa forma modificada da regressão ridge utiliza diferentes parâmetros de regularização em cada coeficiente. Dessa forma, pode-se penalizar individualmente os pesos das características, possibilitando, assim, a implementação da seleção de funcionalidades por meio da regressão ridge.19

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Soluções relacionadas

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real
Notas de rodapé

Douglas C. Montgomery, Elizabeth A. Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.

Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

A. K. Md. Ehsanes Saleh, Mohammad Arashi e B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.

Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.

Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh e Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.

Douglas C. Montgomery, Elizabeth A. Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.

11 Hui Zou e Trevor Hastie, “Regularization and Variable Selection via the Elastic Net,” Journal of the Royal Statistical Society, Vol. 67, No. 2, 2005, págs. 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482

12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.

13 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao e Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.

15 Arthur E. Hoerl e Robert W. Kennard, “Ridge Regression: Biased Estimation for Nonorthogonal Problems,” Technometrics, Vol. 12, No. 1, Feb. 1970, págs. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.

18 Yichao Wu, “Can’t Ridge Regression Perform Variable Selection?” Technometrics, Vol. 63, No. 2, 2021, págs. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

19 Danielle C. Tucker, Yichao Wu e Hans-Georg Müller, “Variable Selection for Global Fréchet Regression,” Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240