A regularização é um conjunto de métodos para reduzir o overfitting em modelos de aprendizado de máquina. Normalmente, a regularização troca uma leve redução na precisão do treinamento por um aumento na capacidade de generalização.
A regularização abrange uma série de técnicas para corrigir o overfitting em modelos de aprendizado de máquina. Assim, a regularização é um método para aumentar a capacidade de generalização de um modelo, ou seja, sua capacidade de produzir previsões precisas em novos conjuntos de dados.1 A regularização melhora essa capacidade de generalização à custa de um aumento no erro de treinamento. Em outras palavras, os métodos de regularização geralmente resultam em previsões menos precisas nos dados de treinamento, mas mais precisas nos dados de teste.
A regularização difere da otimização. Essencialmente, a primeira aumenta a capacidade de generalização do modelo, enquanto a segunda aprimora a acurácia durante o treinamento. Ambos são conceitos importantes em machine learning e data science.
Existem muitas formas de regularização. Um guia completo sobre o tema exigiria um tratamento mais extenso. No entanto, este artigo fornece uma visão geral da teoria necessária para compreender o propósito da regularização no aprendizado de máquina, além de um panorama de algumas das técnicas mais utilizadas.
Essa concessão de maior erro no treinamento para reduzir o erro nos testes é conhecida como compromisso entre viés e variância. Esse é um problema bem conhecido no aprendizado de máquina. Para compreendê-lo, é necessário primeiro definir "viés" e "variância". Em resumo:
- O viés mede a diferença média entre os valores previstos e os valores reais. À medida que o viés aumenta, um modelo se torna menos preciso no conjunto de dados de treinamento. Um viés elevado indica alto erro no treinamento.
- Variância mede a diferença entre as previsões em diversas execuções de um determinado modelo. À medida que a variância aumenta, o modelo prevê com menor precisão em dados não vistos. Alta variância indica um erro elevado durante os testes e validação.
Viés e variância, portanto, representam inversamente a precisão do modelo nos conjuntos de treinamento e teste, respectivamente.2 Obviamente, os desenvolvedores visam reduzir tanto o viés quanto a variância do modelo. A redução simultânea em ambos nem sempre é possível, resultando na necessidade de regularização. A regularização diminui a variância do modelo ao custo de aumento do viés.
Ao aumentar o viés e reduzir a variância, a regularização corrige o overfitting. O overfitting ocorre quando o erro nos dados de treinamento diminui, mas o erro nos dados de teste deixa de diminuir ou começa a aumentar.3 Em outras palavras, o overfitting descreve modelos com baixo viés e alta variância. No entanto, se a regularização introduzir viés excessivo, o modelo pode sofrer underfitting.
Apesar do nome, o underfitting não é simplesmente o oposto do overfitting. O subajuste ocorre em modelos caracterizados por alto viés e alta variância, resultando em previsões imprecisas tanto no treinamento quanto no teste. Isso geralmente decorre de um conjunto de dados ou parâmetros insuficientes.
A regularização, no entanto, também pode levar ao subajuste. Se um modelo receber viés excessivo por meio da regularização, sua variância pode deixar de diminuir ou até aumentar. Esse efeito pode ser particularmente perceptível em modelos mais simples, ou seja, modelos com poucos parâmetros. Portanto, ao determinar o tipo e o grau de regularização a ser aplicado, é essencial considerar a complexidade do modelo, o conjunto de dados e outros fatores.4
Regressão linear e regressão logística são modelos preditivos fundamentais no aprendizado de máquina. A regressão linear (ou mínimos quadrados ordinários) busca medir e prever o impacto de uma ou mais variáveis preditoras em uma variável de saída, encontrando a linha que melhor se ajusta aos pontos de dados fornecidos (isto é, dados de treinamento). A regressão logística, por outro lado, estima probabilidades de classe por meio de uma saída binária baseada em variáveis preditoras. Em outras palavras, a regressão linear faz previsões quantitativas contínuas, enquanto a regressão logística produz previsões categóricas discretas.5
É claro que, à medida que o número de preditores aumenta em qualquer modelo de regressão, a relação input-saída nem sempre é direta e requer manipulação da fórmula de regressão. Então, entra a regularização. Existem três formas principais de regularização para modelos de regressão. Observe que esta lista é apenas uma breve pesquisa. A aplicação dessas técnicas de regularização na regressão linear ou logística varia minimamente.
- Regressão Lasso (ou regularização L1) penaliza coeficientes de alto valor e correlacionados. Introduz um termo de regularização (também chamado de termo de penalização) na função de perda de soma dos erros quadrados (SSE) do modelo. Esse termo de penalização é o valor absoluto da soma dos coeficientes. Controlado pelo hiperparâmetro lambda (λ), ele reduz seletivamente pesos de funcionalidades a zero. Assim, a regressão Lasso elimina funcionalidades multicolineares do modelo.
- Regressão Ridge (ou regularização L2) é uma técnica de regularização que penaliza coeficientes de alto valor ao introduzir um termo de penalização na função de perda SSE. No entanto, ela difere da regressão Lasso em dois aspectos: primeiro, o termo de penalização na regressão Ridge é o quadrado da soma dos coeficientes, em vez do valor absoluto. Segundo, a regressão Ridge não realiza seleção de funcionalidades. Enquanto o termo de penalização da regressão Lasso pode remover funcionalidades do modelo ao reduzir os valores dos coeficientes para zero, a regressão Ridge apenas reduz os pesos das funcionalidades em direção a zero, mas nunca os elimina completamente.
- Regularização Elastic Net combina essencialmente as regressões Ridge e Lasso ao inserir os termos de penalização L1 e L2 na função de perda SSE. Os termos L2 e L1 derivam seus valores de penalização, respectivamente, ao elevar ao quadrado ou tomar o valor absoluto da soma dos pesos das funcionalidades. O Elastic Net insere ambos esses valores de penalização na equação da função de custo (SSE). Dessa forma, o Elastic Net lida com a multicolinearidade ao mesmo tempo em que possibilita a seleção de funcionalidades.6
Em estatística, esses métodos também são chamados de "redução de coeficientes", pois reduzem os valores dos coeficientes preditores no modelo. Em todas as três técnicas, a força do termo de penalização é controlada pelo parâmetro lambda, que pode ser ajustado por meio de diversas técnicas de validação cruzada.
Aumento de dados é uma técnica de regularização que modifica os dados de treinamento do modelo. Ela expande o tamanho do conjunto de treinamento ao criar amostras artificiais derivadas dos dados de treinamento preexistentes. A adição de mais amostras ao conjunto de treinamento, especialmente para casos raros no mundo real, expõe o modelo a uma maior quantidade e diversidade de dados, dos quais ele pode aprender. Pesquisas recentes em aprendizado de máquina exploraram o aumento de dados para classificadores, especialmente como solução para conjuntos de dados desbalanceados.7 O aumento de dados difere dos dados sintéticos: enquanto os dados sintéticos são totalmente novos e artificiais, o aumento de dados cria duplicatas modificadas de dados existentes para diversificar e ampliar o conjunto de dados.
Parada antecipada é, possivelmente, a técnica de regularização mais fácil de implementar. Em resumo, ela limita o número de iterações durante o treinamento do modelo. Aqui, o modelo passa continuamente pelos dados de treinamento, parando quando não há mais melhoria (ou quando há deterioração) na precisão do treinamento e validação. O objetivo é treinar o modelo até que ele atinja o menor erro de treinamento possível antes de um platô ou um aumento no erro de validação.8
Muitos pacotes de aprendizado de máquina em Python oferecem opções de comando para a parada antecipada. Em alguns casos, essa técnica já vem configurada como padrão no treinamento.
Redes neurais são modelos complexos de aprendizado de máquina que impulsionam diversas aplicações e serviços de inteligência artificial. Elas são compostas por uma camada de input, uma ou mais camadas ocultas e uma camada de saída, sendo que cada camada é formada por vários nós.
Dropout regulariza redes neurais ao remover aleatoriamente nós, juntamente com suas conexões de input e saída, da rede durante o treinamento (Fig. 3). O dropout treina diversas variações de uma arquitetura de tamanho fixo, com cada variação excluindo aleatoriamente diferentes nós. Para a fase de teste, um único modelo sem dropout é utilizado, empregando um método de média aproximada derivado das arquiteturas modificadas durante o treinamento. Dessa forma, o dropout simula o treinamento de um grande número de redes neurais com múltiplas arquiteturas diversificadas.9
Decaimento de pesos é outra forma de regularização usada em redes neurais profundas. Ele reduz a soma dos pesos ao quadrado da rede por meio de um parâmetro de regularização, de maneira semelhante à regularização L2 em modelos lineares.10 No entanto, quando empregado em redes neurais, essa redução tem um efeito semelhante à regularização L1: determinados pesos de neurônios diminuem até zero.11 Isso efetivamente remove nós da rede, reduzindo sua complexidade por meio da esparsidade.12
O decaimento de pesos pode parecer superficialmente semelhante ao dropout em redes neurais profundas, mas as duas técnicas são diferentes. Uma diferença fundamental é que, no dropout, o valor da penalização pode crescer exponencialmente conforme a profundidade da rede em alguns casos, enquanto no decaimento de pesos a penalização cresce linearmente. Alguns acreditam que o dropout penaliza a complexidade da rede de maneira mais eficaz do que o decaimento de pesos.13
Muitos artigos e tutoriais on-line confundem indevidamente a regularização L2 com o decaimento de pesos. Na verdade, a literatura acadêmica não é consistente, alguns autores distinguem a regularização L2 do decaimento de pesos,14 outros os equiparam,15 enquanto alguns apresentam descrições inconsistentes da relação entre eles.16 Resolver essas inconsistências terminológicas é uma necessidade frequentemente negligenciada na pesquisa futura.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
1 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
3 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.
5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
6 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2ª edição, Springer, 2021.
7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen e Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, págs. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee e Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, págs. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html
8 Grégoire Montavon, Geneviève B. Orr e Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2ª edição, Springer, 2012.
9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever e Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, Vol. 15, No. 56, 2014, págs. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html
10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Rahul Parhi e Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective," IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, págs. 63-74, https://arxiv.org/abs/2301.09554
12 Stephen Hanson e Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation," Advances in Neural Information Processing Systems 1, 1988, págs. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf
13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks," Journal of Machine Learning Research, Vol. 18, No. 200, 2018, págs. 1−28, https://jmlr.org/papers/v18/16-549.html
14 Guodong Zhang, Chaoqi Wang, Bowen Xu e Roger Grosse, "Three Mechanisms of Weight Decay Regularization," International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281
15 David P. Helmbold e Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks," 2017, https://arxiv.org/abs/1602.04484v3
16 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/