La regressione ridge è una tecnica di regolarizzazione statistica. Corregge l'overfitting dei dati di addestramento nei modelli di machine learning.
La regressione ridge, nota anche come regolarizzazione L2, è uno dei diversi tipi di regolarizzazione per i modelli di regressione lineare. La regolarizzazione è un metodo statistico per ridurre gli errori causati dall'overfitting dei dati di addestramento. La regressione ridge corregge specificamente la multicollinearità nell'analisi di regressione. Questo è utile quando si sviluppano modelli di machine learning con un numero elevato di parametri, in particolare se tali parametri hanno anche pesi elevati. Sebbene questo articolo sia incentrato sulla regolarizzazione dei modelli di regressione lineare, ricordiamo che la regressione ridge può essere applicata anche nella regressione logistica.
Un'equazione di regressione lineare standard a più variabili è:
Qui, Y è il valore previsto (variabile dipendente), X è qualsiasi predittore (variabile indipendente), B è il coefficiente di regressione collegato a quella variabile indipendente e X0 è il valore della variabile dipendente quando la variabile indipendente è uguale a zero (chiamata anche intercetta y). Osserva come i coefficienti segnano il rapporto tra la variabile dipendente e una variabile indipendente data.
La multicollinearità indica che due o più predittori hanno una relazione quasi lineare. Montgomery et al. offrono un esempio calzante: immaginiamo di analizzare un set di dati di consegna della supply chain in cui le consegne a lunga distanza contengono regolarmente un numero elevato di articoli, mentre le consegne a breve distanza contengono sempre scorte più ridotte. In questo caso, la distanza di consegna e la quantità di articoli sono correlate linearmente, come mostrato nella Figura 1. Ciò crea problemi quando vengono utilizzate come variabili indipendenti in un singolo modello predittivo.
Questo è solo un esempio di multicollinearità, e la correzione è relativamente semplice: raccogliere dati più diversificati (ad esempio, dati per consegne a breve distanza con inventari di grandi dimensioni). Tuttavia, la raccolta di più dati non è sempre una correzione praticabile, ad esempio quando la multicollinearità è intrinseca ai dati studiati. Altre opzioni per correggere la multicollinearità includono l'aumento delle dimensioni del campione, la riduzione del numero delle variabili indipendenti o semplicemente l'implementazione di un modello diverso. Tuttavia, tali correzioni non sempre riescono a eliminare la multicollinearità e la regressione ridge serve come un altro metodo per regolarizzare un modello per risolvere il problema della multicollinearità.1
Quando si sviluppano inizialmente modelli predittivi, spesso è necessario calcolare i coefficienti, poiché i coefficienti non sono esplicitamente indicati nei dati di addestramento. Per stimare i coefficienti, possiamo utilizzare uno stimatore di coefficienti di matrice dei minimi quadrati ordinari (OLS) standard:
Conoscere le operazioni di questa formula richiede familiarità con la notazione matriciale. Basti dire che questa formula mira a trovare la linea più adatta per un determinato set di dati calcolando i coefficienti per ogni variabile indipendente che complessivamente danno come risultato la più piccola somma residua di quadrati (chiamata anche somma degli errori al quadrato).2
La somma residua dei quadrati (RSS) misura la corrispondenza tra un modello di regressione lineare e i dati di addestramento. È rappresentata dalla formulazione:
Questa formula misura l'accuratezza della previsione del modello per i valori ground truth nei dati di addestramento. Se RSS = 0, il modello prevede perfettamente le variabili dipendenti. Tuttavia, un punteggio pari a zero non è sempre auspicabile, in quanto può indicare un overfitting dei dati di addestramento, in particolare se il set di dati in questione è di piccole dimensioni. La multicollinearità può essere una delle cause.
Le stime di coefficienti elevati possono spesso essere sintomatiche di overfitting.3 Se due o più variabili condividono una correlazione lineare elevata, il metodo OLS può restituire coefficienti di valore erroneamente elevati. Quando uno o più coefficienti sono troppo alti, l'output del modello diventa sensibile a piccole alterazioni nei dati di input. In altre parole, il modello si è adattato eccessivamente a un set di addestramento specifico e non riesce a generalizzare con precisione sui nuovi set di test. Un tale modello è considerato instabile.4
La regressione ridge modifica l'OLS calcolando i coefficienti che tengono conto dei predittori potenzialmente correlati. Nello specifico, la regressione ridge corregge i coefficienti di alto valore introducendo un termine di regolarizzazione (spesso chiamato termine di penalità) nella funzione RSS. Questo termine di penalità è la somma dei quadrati dei coefficienti del modello.5 È rappresentato nella formulazione:
Il termine di penalità L2 viene inserito come fine della funzione RSS, dando luogo a una nuova formulazione, lo stimatore di regressione ridge. In esso, il suo effetto sul modello è controllato dall'iperparametro lambda (λ):
Ricorda che i coefficienti indicano l'effetto di un determinato predittore (cioè di una variabile indipendente) sul valore previsto (cioè la variabile dipendente). Una volta aggiunto alla formula RSS, il termine di penalità L2 contrasta i coefficienti particolarmente elevati riducendo tutti i valori dei coefficienti. In statistica, questo fenomeno si chiama contrazione del coefficiente. Lo stimatore ridge di cui sopra calcola quindi nuovi coefficienti di regressione che riducono l'RSS di un determinato modello. Questo riduce al minimo l'effetto di ogni predittore, nonché l'overfitting sui dati di addestramento.6
Tiene presente che la regressione ridge non riduce ogni coefficiente dello stesso valore. Piuttosto, i coefficienti vengono ridotti in proporzione alla loro dimensione iniziale. All'aumentare di λ, i coefficienti di valore elevato si riducono a una velocità superiore rispetto ai coefficienti di basso valore.7 I coefficienti di alto valore sono quindi penalizzati in misura maggiore rispetto ai coefficienti di basso valore.
Tieni presente che la penalità L2 riduce i coefficienti quasi a zero ma mai allo zero assoluto; sebbene i pesi delle caratteristiche del modello possano essere considerati trascurabili, non sono mai uguali a zero nella regressione ridge. La riduzione di un coefficiente a zero rimuove in modo efficace il predittore accoppiato dal modello. Questa operazione è denominata selezione delle caratteristiche, ed è un altro mezzo per correggere la multicollinearità.8 Dal momento che la regressione ridge non riduce i coefficienti di regressione a zero, non esegue la selezione delle caratteristiche.9 Spesso questo viene segnalato come uno svantaggio. Inoltre, un altro svantaggio spesso segnalato è l'incapacità della regressione ridge di separare gli effetti predittori di fronte a una grave multicollinearità.10
La regressione lasso, chiamata anche regolarizzazione L1, è uno dei tanti altri metodi di regolarizzazione nella regressione lineare. La regolarizzazione L1 opera riducendo i coefficienti a zero, eliminando essenzialmente quelle variabili indipendenti dal modello. Sia la regressione lasso che la regressione ridge riducono quindi la complessità del modello, anche se con mezzi diversi. La regressione lasso riduce il numero di variabili indipendenti che influiscono sull'output. La regressione ridge riduce il peso che ogni variabile indipendente ha sull'output.
Elastic net è un'ulteriore forma di regolarizzazione. Mentre la regressione ridge ottiene il suo parametro di regolarizzazione dalla somma degli errori al quadrato e quella lasso ottiene il proprio dalla somma del valore assoluto degli errori, elastic net incorpora entrambi i parametri di regolarizzazione nella funzione di costo RSS.11
La regressione del componente principale (PCR) può anche avere funzione di procedura per la regolarizzazione. Sebbene la PCR possa risolvere la multicollinearità, non lo fa imponendo una penalità sulla funzione RSS come nel caso della regressione. Piuttosto, la PCR produce combinazioni lineari di predittori correlati da cui creare un nuovo modello dei minimi quadrati.12
Nel machine learning, la regressione aiuta a ridurre l'overfitting dovuto alla complessità del modello. La complessità del modello può essere dovuta a:
I modelli più semplici non hanno intrinsecamente prestazioni migliori dei modelli complessi. Tuttavia, un alto grado di complessità del modello può inibire la capacità di un modello di generalizzare su nuovi dati al di fuori del set di addestramento.
Dal momento che la regressione ridge non esegue la selezione delle caratteristiche, non può ridurre la complessità del modello eliminandole. Tuttavia, se una o più caratteristiche influenzano in modo eccessivo l'output di un modello, la regressione ridge può ridurre i pesi elevati delle caratteristiche (vale a dire i coefficienti) nel modello in base al termine di penalità L2. Questo riduce la complessità del modello e consente di rendere le previsioni del modello meno dipendenti in modo irregolare da una o più funzioni.
In termini di machine learning, la regressione ridge equivale ad aggiungere distorsioni in un modello per ridurre la varianza del modello stesso. Il compromesso distorsione-varianza è un problema ben noto nel machine learning. Ma per capire questo compromesso, è necessario prima comprendere il significato di "distorsione" e "varianza" nella ricerca sul machine learning.
Per dirla in breve: la distorsione misura la differenza media tra i valori previsti e i valori reali; la varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Quando la varianza aumenta, un modello predice in modo meno accurato su altri set di dati. La distorsione e la varianza misurano quindi l'accuratezza del modello rispettivamente sui set di addestramento e test. Ovviamente, gli sviluppatori sperano di ridurre la distorsione e la varianza del modello. La riduzione simultanea di entrambe non è sempre possibile, tuttavia, e quindi sono necessarie tecniche di regolarizzazione come la regressione ridge.
Come accennato in precedenza, la regolarizzazione della regressione ridge introduce ulteriori distorsioni per ridurre la varianza. In altre parole, i modelli regolarizzati attraverso regressione ridge producono previsioni meno accurate sui dati di addestramento (distorsione più elevata) ma previsioni più accurate sui dati dei test (varianza inferiore). Si tratta di un compromesso distorsione-varianza. Attraverso la regressione ridge, gli utenti determinano una perdita accettabile in termini di accuratezza dell'addestramento (distorsione più elevata) al fine di aumentare la generalizzazione di un determinato modello (varianza inferiore).13 In questo modo, l'aumento della distorsione può contribuire a migliorare le prestazioni complessive del modello.
La forza della penalità L2, e quindi il compromesso distorsione-varianza del modello, è stabilita dal valore λ nell'equazione della funzione di perdita dello stimatore ridge. Se λ è zero, allora rimane una funzione dei minimi quadrati ordinari. Questo crea un modello di regressione lineare standard senza alcuna regolarizzazione. Al contrario, un valore λ più alto significa una maggiore regolarizzazione. All'aumentare di λ, la distorsione del modello aumenta mentre la varianza diminuisce. Pertanto, quando λ è uguale a zero, il modello si adatta eccessivamente ai dati di addestramento, ma quando λ è troppo alto, il modello si adatta insufficientemente a tutti i dati.14
L'errore quadratico medio (MSE) può aiutare a stabilire un valore λ adeguato. L'MSE è strettamente correlato all'RRS ed è un mezzo per misurare la differenza, in media, tra i valori previsti e quelli reali. Più è basso l'MSE di un modello, più accurate saranno le sue previsioni. Ma l'MSE aumenta all'aumentare di λ. Tuttavia, si sostiene che esista sempre un valore λ maggiore di zero tale che l'MSE ottenuto attraverso la regressione ridge sia inferiore a quello ottenuto attraverso il metodo OLS.15 Un metodo per dedurre un valore λ adeguato consiste nel trovare il valore più alto per λ che non aumenta l'MSE, come illustrato nella Figura 2. Ulteriori tecniche di convalida incrociata possono aiutare gli utenti a selezionare valori λ ottimali per ottimizzare il proprio modello.16
I modelli di regressione ridge sono utilizzati al meglio quando si tratta di set di dati che possiedono due o più caratteristiche correlate. Inoltre, molti campi utilizzano la regressione ridge per gestire modelli con un numero maggiore di predittori e piccoli set di dati di addestramento.17 Tali situazioni possono essere abbastanza comuni quando si ha a che fare con una varietà di dati.
La biologia computazionale e gli studi genetici si occupano spesso di modelli in cui il numero di predittori supera di gran lunga le dimensioni del campione del set di dati, in particolare quando si studia l'espressione genetica. La regressione ridge offre un mezzo per affrontare tale complessità del modello riducendo il peso totale di queste numerose caratteristiche e comprimendo l'intervallo predittivo del modello.
Una miriade di fattori predittivi determinano il prezzo di vendita finale di una casa e molti sono correlati, come il numero di camere da letto e di bagni. Le caratteristiche altamente correlate portano a coefficienti di regressione elevati e a un overfitting dei dati di addestramento. La regressione ridge corregge questa forma di complessità del modello riducendo il peso totale delle caratteristiche sul valore previsto finale del modello.
Questi sono solo due esempi nella più ampia disciplina della data science. Ma come illustrano questi due esempi, è possibile utilizzare in modo più efficace la regressione ridge in situazioni in cui si hanno più caratteristiche del modello che campioni di dati o quando il proprio modello ha due o più caratteristiche altamente correlate.
Una ricerca recente esplora una variante modificata della regressione ridge allo scopo di condurre la selezione delle caratteristiche.18 Questa forma modificata di regressione ridge usa parametri di regolarizzazione diversi su ciascun coefficiente. In questo modo, è possibile penalizzare individualmente il peso delle caratteristiche e quindi, potenzialmente, implementarne la selezione attraverso la regressione.19
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.
Esplora gli approcci di apprendimento supervisionato, come le macchine a vettori di supporto e i classificatori probabilistici.
Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
1 Douglas C. Montgomery, Elizabeth A. Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
2 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.
3 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf
4 A. K. Md. Ehsanes Saleh, Mohammad Arashi e B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.
5 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.
6 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
7 A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh e Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.
8 Douglas C. Montgomery, Elizabeth A. Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
9 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.
11 Hui Zou e Trevor Hastie, "Regularization and Variable Selection via the Elastic Net", Journal of the Royal Statistical Society, Vol. 67, N. 2, 2005, pagg. 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482
12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.
13 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao e Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.
15 Arthur E. Hoerl e Robert W. Kennard, "Ridge Regression: Biased Estimation for Nonorthogonal Problems", Technometrics, Vol. 12, N. 1, Feb. 1970, pagg. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf
17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2a edizione, Springer, 2021.
18 Yichao Wu, "Can’t Ridge Regression Perform Variable Selection?" Technometrics, Vol. 63, N. 2, 2021, pagg. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
19 Danielle C. Tucker, Yichao Wu e Hans-Georg Müller, "Variable Selection for Global Fréchet Regression", Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240