O que é regularização?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

O que é regularização?

A regularização é um conjunto de métodos para reduzir o overfitting em modelos de aprendizado de máquina. Normalmente, a regularização troca uma diminuição marginal na precisão do treinamento por um aumento na generalização.

A regularização engloba uma série de técnicas para corrigir o overfitting em modelos de aprendizado de máquina. Dessa forma, a regularização é um método para aumentar a generalização de um modelo — ou seja, sua capacidade de produzir previsões precisas em novos conjuntos de dados.1 A regularização fornece essa maior generalização em detrimento de um aumento no erro de treinamento. Em outras palavras, os métodos de regularização normalmente levam a previsões menos precisas nos dados de treinamento, mas a previsões mais precisas nos dados de teste.

A regularização difere da otimização. Essencialmente, a regularização aumenta a generalização do modelo, enquanto a otimização aumenta a precisão do treinamento do modelo. Ambos são conceitos importantes em aprendizado de máquina e ciência de dados.

Existem muitas formas de regularização. Qualquer coisa que se aproxime de um guia completo requer um tratamento muito mais longo, do tamanho de um livro. No entanto, este artigo fornece uma visão geral da teoria necessária para entender o propósito da regularização no aprendizado de máquina, bem como uma pesquisa de várias técnicas populares de regularização.

Troca de viés-variância

Essa concessão de aumento do erro de treinamento em troca da diminuição do erro de teste é conhecida como dilema entre viés e variância. O dilema entre viés e variância é um problema bem conhecido no aprendizado de máquina. É necessário primeiro definir "viés" e "variância". Resumindo:

  • O viés mede a diferença média entre os valores previstos e os valores reais. À medida que o viés aumenta, um modelo prevê com menos precisão em um conjunto de dados de treinamento. Alto viés refere-se a alto erro no treinamento.

  • A variância mede a diferença entre as previsões em várias realizações de um determinado modelo. À medida que a variância aumenta, um modelo prevê com menos precisão em dados não vistos. Alta variância se refere a alto erro durante os testes e a validação.

Viés e variância, portanto, representam inversamente a precisão do modelo nos conjuntos de treinamento e teste, respectivamente.2 Obviamente, os desenvolvedores visam reduzir tanto o viés quanto a variância do modelo. A redução simultânea em ambos nem sempre é possível, resultando na necessidade de regularização. A regularização diminui a variância do modelo ao custo de aumento do viés.

Ajustes do modelo de regression

Ao aumentar o viés e diminuir a variância, a regularização resolve o overfitting do modelo. O overfitting ocorre quando o erro nos dados de treinamento diminui, enquanto o erro nos dados de teste para de diminuir ou começa a aumentar.3 Em outras palavras, o overfitting descreve modelos com baixo viés e alta variância. No entanto, se a regularização introduzir muito viés, o modelo terá underfitting.

Apesar do nome, o underfitting não denota o oposto do overfitting. Em vez disso, o underfitting descreve modelos caracterizados por alto viés e alta variância. Um modelo com underfitting produz previsões errôneas insatisfatórias durante o treinamento e o teste. Isso geralmente resulta de dados ou parâmetros de treinamento insuficientes.

A regularização, no entanto, também pode levar ao underfitting do modelo. Se muito viés for introduzido pela regularização, a variância do modelo pode deixar de diminuir e até aumentar. A regularização pode ter esse efeito particularmente em modelos simples, ou seja, modelos com poucos parâmetros. Ao determinar o tipo e o grau de regularização a ser implementado, deve-se considerar a complexidade do modelo, o conjunto de dados e assim por diante.4

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Tipos de regularização com modelos lineares

A regressão linear e a regressão logística são modelos preditivos que sustentam o aprendizado de máquina. A regressão linear (ou mínimos quadrados ordinários) tem como objetivo medir e prever o impacto de um ou mais preditores em uma determinada saída, ao encontrar a linha de melhor ajuste nos pontos de dados fornecidos (ou seja, dados de treinamento). A regressão logística visa determinar as probabilidades de classes por meio de uma produção binária, dada uma variedade de preditores. Em outras palavras, a regressão linear faz previsões quantitativas contínuas, enquanto a regressão logística produz previsões categóricas discretas.5

É claro que, à medida que o número de preditores aumenta em qualquer modelo de regression, a relação entrada-saída nem sempre é direta e requer manipulação da fórmula de regression. Entra a regularização. Existem três formas principais de regularização para modelos de regression. Observe que esta lista é apenas uma breve pesquisa. A aplicação dessas técnicas de regularização na regression linear ou logística varia minimamente.

  • A regressão de Lasso (ou regularização L1) é uma técnica de regularização que penaliza coeficientes de alto valor e correlacionados. Ela introduz um termo de regularização (também chamado de termo de penalidade) na função de perda de soma dos erros quadrados (SSE) do modelo. Esse termo de penalidade é o valor absoluto da soma dos coeficientes. Controlado por sua vez pelo hiperparâmetro lambda (λ), ele reduz os pesos de recursos selecionados para zero. A regression de Lasso, portanto, remove completamente as funcionalidades multicolineares do modelo.

  • A regressão de Ridge (ou regularização L2) é uma técnica de regularização que penaliza de forma semelhante coeficientes de alto valor, ao introduzir um termo de penalidade na função de perda SSE. No entanto, ela difere da regressão de Lasso. Primeiro, o termo de penalidade na regressão de Ridge é a soma quadrada dos coeficientes, em vez do valor absoluto dos coeficientes. Segundo, a regressão de Ridge não realiza seleção de funcionalidades. Enquanto o termo de penalidade da regressão de Lasso pode remover funcionalidades do modelo ao reduzir os valores dos coeficientes para zero, a regressão de Ridge apenas reduz os pesos das funcionalidades em direção a zero, mas nunca para zero.

  • A regularização de rede elástica essencialmente combina as regressões de Ridge e Lasso, mas inserindo os termos de penalidade L1 e L2 na função de perda SSE. L2 e L1 derivam seu valor de termo de penalidade, respectivamente, elevando ao quadrado ou tomando o valor absoluto da soma dos pesos das funcionalidades. A rede elástica insere ambos os valores de penalidade na equação da função de custo (SSE). Dessa forma, a rede elástica lida com a multicolinearidade e também permite a seleção de funcionalidades.6

Em estatística, esses métodos também são chamados de "encolhimento de coeficientes", pois reduzem os valores dos coeficientes preditores no modelo preditivo. Em todas as três técnicas, a força do termo de penalidade é controlada por lambda, que pode ser calculado usando várias técnicas de validação cruzada.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de regularização em aprendizado de máquina

Conjunto de dados

O aumento de dados é uma técnica de regularização que modifica os dados de treinamento do modelo. Ele expande o tamanho do conjunto de treinamento ao criar amostras de dados artificiais derivadas de dados de treinamento preexistentes. Adicionar mais amostras ao conjunto de treinamento, particularmente de instâncias raras em dados do mundo real, expõe um modelo a uma maior quantidade e diversidade de dados dos quais ele aprende. A pesquisa em aprendizado de máquina explorou recentemente o aumento de dados para classificadores, particularmente como um meio de resolver conjuntos de dados desequilibrados.7 Entretanto, o aumento de dados difere dos dados sintéticos. Este último envolve a criação de novos dados artificiais, enquanto o primeiro produz duplicatas modificadas de dados preexistentes para diversificar e ampliar o conjunto de dados.

Visualização de técnicas de modificação para diversificar conjuntos de imagens

Treinamento de modelo

A parada antecipada é talvez a técnica de regularização mais facilmente implementada. Em resumo, ela limita o número de iterações durante o treinamento do modelo. Aqui, um modelo passa continuamente pelos dados de treinamento, parando quando não há mais melhoria (e talvez até deterioração) na precisão do treinamento e da validação. O objetivo é treinar um modelo até que ele atinja o menor erro de treinamento possível antes de um platô ou aumento no erro de validação.8

Muitos pacotes Python de aprendizado de máquina fornecem opções de comando de treinamento para parada antecipada. Na verdade, em alguns, a parada antecipada é uma configuração padrão de treinamento.

Visualização gráfica da parada precoce em relação à precisão do treinamento e da validação

Neural networks

As redes neurais são modelos complexos de aprendizado de máquina que impulsionam muitas aplicações e serviços de inteligência artificial. As redes neurais são compostas por uma camada de entrada, uma ou mais camadas ocultas e uma camada de saída, sendo cada camada, por sua vez, composta por vários nós.

O dropout regulariza as redes neurais, ao descartar aleatoriamente nós, juntamente com suas conexões de entrada e saída, da rede durante o treinamento. O dropout treina várias variações de uma arquitetura de tamanho fixo, com cada variação tendo diferentes nós aleatórios deixados de fora da arquitetura. Uma única rede neural sem dropout é usada para testes, empregando um método de média aproximada derivado das arquiteturas de treinamento modificadas aleatoriamente. Dessa forma, o dropout se aproxima do treinamento de uma grande quantidade de redes neurais com uma infinidade de arquiteturas diversificadas.9

Diagrama de comparação de rede neural e rede com dropout

O decaimento de peso é outra forma de regularização usada para redes neurais profundas. Ele reduz a soma dos pesos quadrados da rede por meio de um parâmetro de regularização, muito parecido com a regularização L2 em modelos lineares.10 Mas quando empregada em redes neurais, essa redução tem um efeito semelhante à regularização L1: pesos de neurônios selecionados diminuem para zero.11 Isso efetivamente remove nós da rede, reduzindo a complexidade da rede por meio da dispersão.12

Embora o decaimento de peso possa parecer superficialmente semelhante ao dropout em redes neurais profundas, as duas técnicas diferem. Uma diferença primária é que, no dropout, o valor da penalidade cresce exponencialmente na profundidade da rede em alguns casos, enquanto o valor da penalidade do decaimento de peso cresce linearmente. Alguns acreditam que isso permite que o dropout penalize a complexidade da rede de forma mais significativa do que o decaimento de peso.13

Muitos artigos e tutoriais online confundem incorretamente a regularização L2 e o decaimento de peso. De fato, os estudos são inconsistentes — alguns distinguem entre L2 e decaimento de peso,14 alguns os igualam,15 enquanto outros são inconsistentes na descrição da relação entre eles.16 Resolver essas inconsistências na terminologia é uma área necessária, mas negligenciada, para estudos futuros.

Notas de rodapé

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al. 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023 

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Além disso, Regressão: Modelos, Métodos e Aplicações, Fahrmeir, Ludwig, et al. 2ª edição, Springer, 2021

[7]Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012

[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.

[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, janeiro de 2023

[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988 

[13] “Surprising properties of dropout in deep networks,” Helmbold, David e Long, Philip, JMLR, 2018

[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

 
Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real