Cos'è la regolarizzazione?

16 novembre 2023

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Cos'è la regolarizzazione?

La regolarizzazione è un insieme di metodi per ridurre l'overfitting nei modelli di machine learning. In genere, la regolarizzazione scambia una diminuzione marginale dell'accuratezza dell'addestramento con un aumento della capacità di generalizzazione.

La regolarizzazione comprende una serie di tecniche per correggere l'overfitting nei modelli di machine learning. In quanto tale, la regolarizzazione è un metodo per aumentare la generalizzabilità di un modello, ovvero la sua capacità di produrre previsioni accurate su nuovi set di dati.1 La regolarizzazione fornisce questa maggiore generalizzabilità a causa di un aumento dell'errore di addestramento. In altre parole, i metodi di regolarizzazione in genere portano a previsioni meno accurate sui dati di addestramento ma a previsioni più accurate sui dati dei test.

La regolarizzazione differisce dall'ottimizzazione. Essenzialmente, la prima aumenta la capacità di generalizzazione del modello mentre la seconda aumenta la precisione dell'addestramento del modello. Entrambi sono concetti importanti nel machine learning e nella data science.

Esistono molte forme di regolarizzazione. Tutto ciò che riguarda una guida completa richiede un trattamento molto più lungo. Tuttavia, questo articolo fornisce una panoramica della teoria necessaria per comprendere lo scopo della regolarizzazione nel machine learning, nonché un sondaggio su diverse tecniche di regolarizzazione popolari.

Compromesso tra distorsione e varianza

Questa concessione di un aumento dell'errore di addestramento per una diminuzione dell'errore di test è nota come compromesso distorsione-varianza. Il compromesso distorsione-varianza è un problema ben noto nel machine learning. È necessario innanzitutto definire i concetti di "distorsione" e "varianza". Per dirla brevemente:

- La distorsione misura la differenza media tra i valori previsti e i valori reali. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Un'elevata distorsione si riferisce a un elevato errore nell'addestramento.

- La varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Con l'aumento della varianza, un modello predice in modo meno accurato sui dati non visti. L'alta varianza si riferisce a un errore elevato durante il test e la convalida.

La distorsione e la varianza rappresentano quindi inversamente l'accuratezza del modello sui set rispettivamente di formazione e di prova.2 Ovviamente, gli sviluppatori mirano a ridurre sia la distorsione, sia la varianza del modello. La riduzione simultanea di entrambi non è sempre possibile, con una conseguente necessità di regolarizzazione. La regolarizzazione riduce la varianza del modello al costo di un aumento della distorsione.

Adattamento del modello di regressione

Aumentando la distorsione e diminuendo la varianza, la regolarizzazione risolve l'overfitting del modello. L'overfitting si verifica quando l'errore sui dati di addestramento diminuisce mentre l'errore sui dati di test cessa di diminuire o inizia ad aumentare.3 In altre parole, l'overfitting descrive modelli con bassa distorsione e varianza elevata. Tuttavia, se la regolarizzazione introduce troppe distorsioni, il modello risulterà inadeguato (underfitting).

Nonostante il suo nome, underfitting non indica il contrario di overfitting. Piuttosto, l'underfitting descrive modelli caratterizzati da una distorsione elevata e da una varianza elevata. Un modello inadeguato produce previsioni erronee e insoddisfacenti durante l'addestramento e i test, cosa che spesso è dovuta a dati o parametri di addestramento insufficienti.

La regolarizzazione, tuttavia, potenzialmente può portare anche all'underfitting del modello. Se viene introdotta una distorsione eccessiva attraverso la regolarizzazione, la varianza del modello può cessare di diminuire e persino aumentare. La regolarizzazione può avere questo effetto in particolare sui modelli semplici, cioè sui modelli con pochi parametri. Nello stabilire il tipo e il grado di regolarizzazione da implementare, quindi, bisogna considerare la complessità del modello, il set di dati e così via.4

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Tipi di regolarizzazione con modelli lineari

La regressione lineare e la regressione logistica sono entrambi modelli predittivi alla base del machine learning. La regressione lineare (o minimi quadrati ordinari) mira a misurare e prevedere l'impatto di uno o più predittori su un dato output, trovando la linea di migliore adattamento attraverso i punti dati forniti (ovvero, i dati di addestramento). La regressione logistica mira a stabilire le probabilità di una classe attraverso un output binario, data una serie di predittori. In altre parole, la regressione lineare effettua previsioni quantitative costanti mentre la regressione logistica produce previsioni categoriche discrete.5

Naturalmente, all'aumentare del numero di predittori in entrambi i modelli di regressione, la relazione input-output non è sempre semplice e richiede la manipolazione della formula di regressione. Entra in gioco la regolarizzazione. Ci sono tre forme principali di regolarizzazione per i modelli di regressione. Si noti che questo elenco è solo una breve panoramica. L'applicazione di queste tecniche di regolarizzazione nella regressione lineare o logistica varia nei minimi dettagli.

- La regressione lasso (o regolarizzazione L1) è una tecnica di regolarizzazione che penalizza i coefficienti correlati di alto valore. Introduce un termine di regolarizzazione (chiamato anche termine di penalità) nella funzione di perdita della somma degli errori al quadrato (SSE) del modello. Questo termine di penalità è il valore assoluto della somma dei coefficienti. A sua volta controllato dall'iperparametro lambda (λ), riduce a zero i pesi delle funzioni selezionate. La regressione lasso rimuove quindi completamente le caratteristiche multicollineari dal modello.

- La regressione ridge (o regolarizzazione L2) è una tecnica di regolarizzazione che penalizza in modo simile i coefficienti ad alto valore introducendo un termine di penalità nella funzione di perdita dell'SSE. Tuttavia, differisce dalla regressione. Innanzitutto, il termine di penalità nella regressione ridge è la somma al quadrato dei coefficienti anziché il valore assoluto dei coefficienti. In secondo luogo, la regressione non mette in atto la selezione delle caratteristiche. Mentre il termine di penalità della regressione lasso può rimuovere le caratteristiche dal modello riducendo i valori dei coefficienti a zero, la regressione ridge riduce i pesi delle caratteristiche solo verso zero ma mai a zero.

- La regolarizzazione elastic net essenzialmente combina entrambe la regressioni, ridge e lasso, ma inserisce i termini di penalità L1 e L2 nella funzione di perdita dell'SSE. L2 e L1 ricavano il loro valore di penalità, rispettivamente, al quadrato o derivando il valore assoluto della somma dei pesi della caratteristica. Elastic net inserisce entrambi questi valori di penalità nell'equazione della funzione di costo (SSE). In questo modo, elastic net affronta la multicollinearità consentendo inoltre la selezione delle caratteristiche.6

In statistica, questi metodi prendono anche il nome di "contrazione dei coefficienti", in quanto riducono i valori dei coefficienti predittivi nel modello predittivo. In tutte e tre le tecniche, l'intensità del termine di penalità è controllata da lambda, che può essere calcolata utilizzando varie tecniche di convalida incrociata.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Tipi di regolarizzazione nel machine learning

Dataset

L'aumento dei dati è una tecnica di regolarizzazione che modifica i dati di addestramento del modello. Espande le dimensioni del set di addestramento creando campioni di dati artificiali derivati da dati di addestramento preesistenti. L'aggiunta di più campioni al set di addestramento, in particolare di istanze rare nei dati del mondo reale, espone un modello a una maggiore quantità e diversità dei dati da cui apprende. La ricerca sul machine learning ha recentemente esplorato l'aumento dei dati per i classificatori, in particolare come mezzo per risolvere set di dati sbilanciati.7 L'aumento dei dati, però, differisce dai dati sintetici. I dati sintetici comportano la creazione di nuovi dati artificiali, mentre il primo produce duplicati modificati di dati preesistenti per diversificare e ampliare il set di dati.

Addestramento del modello

L'arresto anticipato è forse la tecnica di regolarizzazione più facilmente implementata. In breve, limita il numero di iterazioni durante l'addestramento del modello. In questo caso, un modello passa continuamente attraverso i dati di addestramento, fermandosi quando non vi è alcun miglioramento (e forse anche un peggioramento) nell'accuratezza dell'addestramento e della convalida. L'obiettivo è addestrare un modello fino a quando non ha raggiunto l'errore di addestramento più basso possibile prima di un plateau o di un incremento dell'errore di convalida.8

Molti pacchetti Python di machine learning forniscono opzioni di comando di addestramento per l'arresto anticipato. In effetti, in alcuni, l'arresto anticipato è un'impostazione di addestramento predefinita.

Neural networks

Le reti neurali sono modelli complessi di machine learning che gestiscono numerose applicazioni e servizi di intelligenza artificiale. Le reti neurali sono composte da un livello di input, uno o più livelli nascosti e un livello di output, ogni livello a sua volta composto da diversi nodi.

Il dropout regolarizza le reti neurali eliminando casualmente i nodi, insieme alle loro connessioni di input e output, dalla rete durante l'addestramento (Fig. 3). Il dropout addestra diverse varianti di un'architettura di dimensioni fisse, con ogni variante con diversi nodi randomizzati esclusi dall'architettura. Per i test viene utilizzata una singola rete neurale senza dropout, impiegando un metodo di media approssimativa derivato dalle architetture di addestramento modificate in modo casuale. In questo modo, il dropout si avvicina all'addestramento di una grande quantità di reti neurali con una moltitudine di architetture diversificate.9

Il decadimento del peso è un'altra forma di regolarizzazione usata per le reti neurali profonde. Riduce la somma dei pesi al quadrato della rete attraverso un parametro di regolarizzazione, proprio come la regolarizzazione L2 nei modelli lineari.10 Ma se impiegata nelle reti neurali, questa riduzione ha un effetto simile alla regolarizzazione L1: il peso di alcuni neuroni diminuisce a zero.11 Questo rimuove efficacemente i nodi dalla rete, riducendone la complessità attraverso la scarsità.12

Il decadimento del peso può sembrare superficialmente simile al dropout nelle reti neurali profonde, ma le due tecniche sono diverse. Una differenza principale è che, in caso di dropout, il valore di penalità cresce esponenzialmente nella profondità della rete nei casi, mentre il valore di penalità del decadimento del peso cresce linearmente. Alcuni ritengono che questo consenta al dropout di penalizzare in modo più significativo la complessità della rete rispetto al decadimento del peso.13

Numerosi articoli e tutorial online confondono la regolarizzazione L2 e il decadimento del peso. Anche la letteratura è incoerente: alcuni fanno distinzione tra L2 e decadimento del peso,14 alcuni li equiparano,15 mentre altri sono incoerenti nel descrivere la relazione tra loro.16 La risoluzione di tali incongruenze terminologiche è un'area trascurata ma necessaria per la letteratura futura.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

3 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani e Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

6 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.

7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen e Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays", Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pagg. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee e Hansu Cho"Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method", Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pagg. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html

8 Grégoire Montavon, Geneviève B. Orr e Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2a edizione, Springer, 2012.

9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever e Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting", Journal of Machine Learning Research, Vol. 15, N. 56, 2014, pagg. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html

10 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Rahul Parhi e Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective", IEEE Signal Processing Magazine, Vol. 40, N. 6, 2023, pagg. 63-74, https://arxiv.org/abs/2301.09554

12 Stephen Hanson e Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation", Advances in Neural Information Processing Systems 1, 1988, pagg. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf

13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks", Journal of Machine Learning Research, Vol. 18, N. 200, 2018, pagg. 1−28, https://jmlr.org/papers/v18/16-549.html

14 Guodong Zhang, Chaoqi Wang, Bowen Xu e Roger Grosse, "Three Mechanisms of Weight Decay Regularization", International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281

15 David P. Helmbold e Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks", 2017, https://arxiv.org/abs/1602.04484v3

16 Ian Goodfellow, Yoshua Bengio e Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/