O que é a regressão ridge?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

O que é a regressão ridge?

A regressão de Ridge é uma técnica de regularização estatística. Ela corrige o overfitting em dados de treinamento em modelos de aprendizado de máquina.

A regressão de Ridge, também conhecida como regularização L2, é um dos vários tipos de regularizações para modelos de regressão linear. Regularização é um método estatístico para reduzir erros causados por overfitting nos dados de treinamento. Especificamente, a regressão de Ridge corrige a multicolinearidade em análises de regressão. Isso é útil ao desenvolver modelos de aprendizado de máquina que têm um grande número de parâmetros, especialmente quando esses parâmetros têm pesos elevados. Embora este artigo foque na regularização de modelos de regressão linear, observe que a regressão de Ridge também pode ser aplicada em regressão logística.

O problema: multicolinearidade

Uma equação de regressão linear padrão com múltiplas variáveis é:

Fórmula de regression linear multivariada padrão

Aqui, Y é o valor previsto (variável dependente), X é qualquer preditor (variável independente), B é o coeficiente de regressão vinculado àquela variável independente, e X0 é o valor da variável dependente quando a variável independente é igual a zero (também chamado de intercepto no eixo Y). Note como os coeficientes marcam a relação entre a variável dependente e uma determinada variável independente.

Multicolinearidade ocorre quando dois ou mais preditores têm uma relação quase linear. Montgomery et al. oferecem um exemplo apropriado: imagine que analisamos um conjunto de dados de entrega de uma cadeia de suprimentos, em que as entregas de longa distância contêm regularmente um grande número de itens, enquanto entregas de curta distância contêm sempre inventários menores. Neste caso, a distância da entrega e a quantidade de itens estão linearmente correlacionadas, como mostrado na Figura 1. Isso cria problemas ao usar essas variáveis como independentes em um único modelo preditivo.

Gráfico de dispersão mostrando a correlação linear entre variáveis independentes, como distância do pedido e tamanho.

Este é apenas um exemplo de multicolinearidade, e sua correção é relativamente simples: coletar dados mais diversificados (por exemplo, dados para entregas de curta distância com grandes estoques). No entanto, coletar mais dados nem sempre é uma solução viável, como quando a multicolinearidade é intrínseca aos dados estudados. Outras opções para corrigir a multicolinearidade incluem aumentar o tamanho da amostra, reduzir o número de variáveis independentes ou simplesmente usar um modelo diferente. No entanto, essas correções nem sempre eliminam a multicolinearidade, e a regressão de Ridge é outro método para regularizar um modelo para lidar com a multicolinearidade.1

Como funciona a regressão ridge: o algoritmo de regularização

Ao desenvolver modelos preditivos, muitas vezes precisamos calcular coeficientes, já que eles não estão explicitamente disponíveis nos dados de treinamento. Para estimar os coeficientes, podemos usar um estimador de coeficientes de matriz de mínimos quadrados ordinários (OLS) padrão:

Estimador de coeficiente da matriz de mínimos quadrados ordinários

Entender o funcionamento dessa fórmula requer familiaridade com a notação matricial. Basta dizer que essa fórmula tem como objetivo encontrar a linha que mais bem se ajusta a um conjunto de dados, ao calcular coeficientes para cada variável independente que resultem no menor somatório residual de quadrados (também chamado de soma dos erros quadráticos).2

O somatório residual de quadrados (RSS) mede o quão bem um modelo de regressão linear se ajusta aos dados de treinamento. Ele é representado pela fórmula:

Fórmula de somatório residual de quadrados

Essa fórmula mede a precisão das previsões do modelo para os valores reais nos dados de treinamento. Se RSS = 0, o modelo prevê perfeitamente as variáveis dependentes. No entanto, uma pontuação zero nem sempre é desejável, pois pode indicar um overfitting dos dados de treinamento, especialmente se o conjunto de dados de treinamento for pequeno. A multicolinearidade pode ser uma das causas disso.

Estimar coeficientes muito altos pode ser um sintoma de overfitting.3 Se duas ou mais variáveis compartilharem uma alta correlação linear, o OLS pode retornar coeficientes erroneamente altos. Quando um ou mais coeficientes são muito elevados, a saída do modelo torna-se sensível a pequenas alterações nos dados de entrada. Em outras palavras, o modelo teve um overfitting de um conjunto de treinamento específico e não conseguiu generalizar com precisão em novos conjuntos de teste. Um modelo assim é considerado instável.4

A regressão de Ridge modifica o OLS ao calcular coeficientes que levam em consideração preditores potencialmente correlacionados. Especificamente, a regressão de Ridge corrige os coeficientes altos ao introduzir um termo de regularização (muitas vezes chamado de termo de penalidade) na função RSS. Esse termo de penalidade é a soma dos quadrados dos coeficientes do modelo.É representado pela fórmula:

Formulação do termo de penalidade L2

O termo de penalidade L2 é inserido no final da função RSS, resultando em uma nova formulação, o estimador de regressão ridge. Seu efeito no modelo é controlado pelo hiperparâmetro lambda (λ).

Fórmula de regressão ridge, ou fórmula RSS com o termo de penalidade L2

Lembre-se de que os coeficientes marcam o efeito de um determinado preditor (ou seja, variável independente) no valor previsto (ou seja, variável dependente). Uma vez inserido na fórmula do RSS, o termo de penalidade L2 contrabalança coeficientes especialmente altos, reduzindo todos os valores dos coeficientes. Em estatística, isso é chamado de "encolhimento de coeficientes". O estimador de Ridge acima calcula novos coeficientes de regressão que reduzem o RSS do modelo. Isso minimiza o efeito de cada preditor e reduz o overfitting nos dados de treinamento.6

Note que a regressão de Ridge não reduz todos os coeficientes pelo mesmo valor. Em vez disso, os coeficientes são reduzidos em proporção ao seu tamanho inicial. À medida que λ aumenta, coeficientes de alto valor encolhem em uma taxa maior do que os de baixo valor.7 Assim, os coeficientes de alto valor são penalizados mais fortemente do que os de baixo valor.

Regressão ridge vs. regressão Lasso

Observe que a penalidade de L2 diminui os coeficientes em direção a zero, mas nunca ao zero absoluto; embora os pesos das funcionalidades do modelo possam se tornar insignificantemente pequenos, eles nunca são iguais a zero na regressão de Ridge. Reduzir um coeficiente para zero efetivamente remove o preditor emparelhado do modelo. Isso é chamado de seleção de funcionalidades, que é outro meio de corrigir a multicolinearidade.8 Como a regressão de Ridge não reduz os coeficientes de regressão a zero, ela não executa a seleção de funcionalidades.9 Isso é frequentemente citado como uma desvantagem da regressão de Ridge. Além disso, outra desvantagem frequentemente citada é a incapacidade da regressão de Ridge de separar os efeitos do preditor diante de uma multicolinearidade severa.10

A regressão Lasso, também chamada de regularização L1, é outra técnica de regularização em modelos de regressão linear. A regularização L1 funciona reduzindo coeficientes a zero, eliminando essencialmente essas variáveis independentes do modelo. Tanto a regressão lasso quanto a de ridge reduzem a complexidade do modelo, mas por meios diferentes. A regressão lasso reduz o número de variáveis independentes que afetam o resultado. A regressão ridge reduz o peso que cada variável independente tem no resultado.

Outras técnicas de regularização de regression

A rede elástica é uma forma adicional de regularização. Enquanto a regressão de Ridge obtém seu parâmetro de regularização a partir da soma dos erros quadráticos e a regressão de Lasso obtém o seu a partir da soma dos valores absolutos dos erros, a rede elástica incorpora ambos os parâmetros de regularização na função de custo de RSS.11

A regressão por componentes principais (PCR) também pode atuar como um procedimento de regularização. Embora a PCR possa resolver a multicolinearidade, ela não o faz impondo uma penalidade na função RSS, como nas regressões de Ridge e Lasso. Em vez disso, a PCR gera combinações lineares de preditores correlacionados para criar um novo modelo de mínimos quadrados.12

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Regressão ridge em aprendizado de máquina

Complexidade do modelo

Em aprendizado de máquina, a regressão ridge ajuda a reduzir o sobreajuste que resulta da complexidade do modelo. A complexidade do modelo pode ser causada por:

  • Um modelo com muitos recursos. Recursos são os preditores do modelo e também podem ser chamados de "parâmetros" em aprendizado de máquina. Muitos tutoriais on-line recomendam manter o número de recursos abaixo do número de instâncias nos conjuntos de dados de treinamento. No entanto, isso nem sempre é possível.
  • Características que possuem muito peso. O peso de um recurso refere-se ao impacto que um preditor tem no resultado do modelo. Um peso elevado é equivalente a um coeficiente de valor alto.

Modelos mais simples não necessariamente têm melhor desempenho do que modelos complexos. No entanto, um alto grau de complexidade pode prejudicar a capacidade de um modelo de se generalizar para novos dados fora do conjunto de treinamento.

Como a regressão de Ridge não realiza a seleção de funcionalidade, ela não reduz a complexidade do modelo ao eliminar recursos. Mas se um ou mais recursos afetarem muito a saída de um modelo, a regressão de Ridge poderá reduzir pesos (ou seja, coeficientes) de funcionalidades altas em todo o modelo de acordo com o termo de penalidade L2. Isso reduz a complexidade do modelo e ajuda a tornar as previsões menos dependentes de uma ou mais funcionalidades específicas.

Troca de viés-variância

Em termos de aprendizado de máquina, a regressão de Ridge adiciona um viés ao modelo para diminuir sua variância. O dilema entre viés e variância é um problema bem conhecido no aprendizado de máquina. Mas, para entender o dilema entre viés e variância, é necessário primeiro conhecer o significado de "viés" e "variância", respectivamente, na pesquisa de aprendizado de máquina.

Resumidamente: o viés mede a diferença média entre os valores previstos e os valores reais; a variância mede a diferença entre as previsões em várias execuções de um modelo. À medida que o viés aumenta, um modelo prevê com menos precisão em um conjunto de dados de treinamento. Por outro lado, conforme a variância aumenta, o modelo se torna menos preciso em outros conjuntos de dados. Portanto, o viés e a variância medem a precisão do modelo nos conjuntos de treinamento e teste, respectivamente. Desenvolvedores naturalmente buscam reduzir tanto o viés quanto a variância do modelo. Entretanto, a redução simultânea de ambos nem sempre é viável, daí a necessidade de técnicas de regularização, como a regressão ridge.

Conforme mencionado, a regularização da regressão de Ridge introduz viés adicional com o objetivo de diminuir a variância. Ou seja, modelos regularizados pela regressão de Ridge produzem previsões menos precisas nos dados de treinamento (maior viés), mas previsões mais precisas nos dados de teste (menor variância). Esse é o dilema entre viés e variância. Por meio da regressão de Ridge, os usuários podem aceitar uma perda de precisão no treinamento (maior viés) para aumentar a capacidade de generalização do modelo (menor variância).13 Dessa forma, aumentar o viés pode ajudar a melhorar o desempenho geral do modelo.

A força da penalidade L2 e, assim, o dilema entre viés e variância, é determinada pelo valor de λ na equação da função de perda do estimador de Ridge. Se λ for zero, o modelo será equivalente a uma função de mínimos quadrados ordinários. Isso resulta em um modelo de regressão linear padrão sem regularização. Por outro lado, um valor de λ maior significa mais regularização. Conforme λ aumenta, o viés do modelo aumenta, enquanto a variância diminui. Assim, quando λ é igual a zero, o modelo causa overfitting nos dados de treinamento, mas quando λ é muito alto, o modelo causa underfitting em todos os dados.14

O erro quadrático médio (MSE) pode ajudar a determinar um valor adequado de λ. O MSE está intimamente relacionado ao RSS e é uma forma de medir a diferença, em média, entre os valores previstos e os valores reais. Quanto menor o MSE do modelo, mais precisas são suas previsões. Mas o MSE aumenta à medida que λ aumenta. No entanto, argumenta-se que sempre existe um valor de λ maior que zero, de modo que o MSE obtido por meio da regressão de Ridge é menor do que o obtido por meio do OLS.15 Um método para deduzir um valor de λ adequado é encontrar o valor mais alto para λ que não aumenta o MSE, conforme ilustrado na Figura 2. Técnicas adicionais de validação cruzada podem ajudar os usuários a selecionar valores de λ ideais para ajustar seu modelo.16

Gráfico modelando a relação entre MSE, viés, variância e o termo de penalidade lambda

Exemplos de casos de uso

Os modelos de regressão de Ridge são mais bem utilizados ao lidar com conjuntos de dados que possuem duas ou mais funcionalidades correlacionadas. Além disso, muitos campos usam a regressão de Ridge para lidar com modelos com um número maior de preditores e conjuntos de dados de treinamento pequenos.17 Essas situações podem ser bastante comuns quando se lida com uma variedade de dados.

Bioestatística

A biologia computacional e estudos genéticos frequentemente lidam com modelos nos quais o número de preditores supera em muito o tamanho da amostra, especialmente ao investigar a expressão genética. A regressão ridge oferece um meio de lidar com essa complexidade reduzindo o peso total dessas inúmeras características, comprimindo a faixa preditiva do modelo.

Imóvel

Uma infinidade de preditores determina o preço final de venda de uma casa e muitos estão correlacionados, como o número de quartos e banheiros. Características altamente correlacionadas levam a altos coeficientes de regressão e ao sobreajuste nos dados de treinamento. A regressão ridge corrige essa forma de complexidade do modelo ao reduzir o peso total das características no valor final previsto pelo modelo.

Esses são apenas dois exemplos dentro do campo da ciência de dados. Mas, como esses dois casos ilustram, a regressão ridge é mais eficaz em situações em que você possui mais características no modelo do que amostras de dados, ou quando seu modelo possui duas ou mais características altamente correlacionadas.

AI Academy

Coloque a IA para trabalhar no serviço ao cliente

Veja como a IA generativa pode encantar os clientes com uma experiência mais integrada e aumentar a produtividade da organização nessas três áreas importantes: autoatendimento, agentes humanos e operações da central de contato.

Pesquisa recente

Pesquisas recentes exploram uma variante modificada da regressão de Ridge para realizar a seleção de funcionalidades.18 Essa forma modificada da regressão de Ridge utiliza diferentes parâmetros de regularização em cada coeficiente. Dessa forma, pode-se penalizar individualmente os pesos das funcionalidades, possibilitando, assim, a implementação da seleção de funcionalidades por meio da regressão de Ridge.19

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real