Home topics Ridge Regression Cos'è la regressione ridge?
Applica la regressione ridge con watsonx.ai Iscriviti per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di nuvole, grafico a torta, pittogrammi grafici

Data di pubblicazione: 21 novembre 2023
Collaboratori: Jacob Murel Ph.D., Eda Kavlakoglu

Cos'è la regressione ridge?

La ridge regression è una tecnica di regolarizzazione statistica. Corregge l'overfitting dei dati di addestramento nei modelli di machine learning.

La regressione ridge, nota anche come regolarizzazione L2, è uno dei diversi tipi di regolarizzazione per i modelli di regressione lineare. La regolarizzazione è un metodo statistico per ridurre gli errori causati dall'overfitting dei dati di addestramento. La regressione ridge corregge specificamente la multicollinearità nell'analisi di regressione. Ciò è utile quando si sviluppano modelli di machine learning con un numero elevato di parametri, in particolare se tali parametri hanno anche pesi elevati. Sebbene questo articolo sia incentrato sulla regolarizzazione dei modelli di regressione lineare, ricordiamo che la regressione ridge può essere applicata anche nella regressione logistica.

Il problema: la multicollinearità

Un'equazione di regressione lineare standard a più variabili è:

Qui, Y è il valore previsto (variabile dipendente), X è qualsiasi predittore (variabile indipendente), B è il coefficiente di regressione collegato a quella variabile indipendente e X0 è il valore della variabile dipendente quando la variabile indipendente è uguale a zero (chiamata anche intercetta y). Osserva come i coefficienti segnano il rapporto tra la variabile dipendente e una variabile indipendente data.

La multicollinearità indica che due o più predittori hanno una relazione quasi lineare. Montgomery et al. offrono un esempio calzante: immaginiamo di analizzare un set di dati di consegna della supply chain in cui le consegne a lunga distanza contengono regolarmente un numero elevato di articoli, mentre le consegne a breve distanza contengono sempre scorte più ridotte. In questo caso, la distanza di consegna e la quantità di articoli sono correlate linearmente, come mostrato nella Figura 1. Ciò crea problemi quando vengono utilizzate come variabili indipendenti in un singolo modello predittivo.

Questo è solo un esempio di multicollinearità, e la correzione è relativamente semplice: raccogliere dati più diversificati (ad esempio, dati per consegne a breve distanza con grandi scorte). Tuttavia, la raccolta di più dati non è sempre una correzione praticabile, ad esempio quando la multicollinearità è intrinseca ai dati studiati. Altre opzioni per correggere la multicollinearità includono l'aumento delle dimensioni del campione, la riduzione del numero di variabili indipendenti o semplicemente l'implementazione di un modello diverso. Tuttavia, tali correzioni non sempre riescono a eliminare la multicollinearità e la regressione serve come altro metodo per regolarizzare un modello al fine di affrontare la multicollinearità.1

IBM nominata leader da IDC

Leggi perché IBM è stata nominata leader nel report IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

Come funziona la regressione ridge: l'algoritmo di regolarizzazione

 

 

Quando si sviluppano inizialmente modelli predittivi, spesso è necessario calcolare i coefficienti, poiché i coefficienti non sono esplicitamente indicati nei dati di addestramento. Per stimare i coefficienti, possiamo utilizzare uno stimatore di coefficienti di matrice dei minimi quadrati ordinari (OLS) standard:

Conoscere le operazioni di questa formula richiede familiarità con la notazione matriciale. Basti dire che questa formula mira a trovare la linea più adatta per un dato set di dati calcolando i coefficienti per ogni variabile indipendente che complessivamente danno come risultato la più piccola somma residua di quadrati (chiamata anche somma degli errori al quadrato).2

La somma residua dei quadrati (RSS) misura la corrispondenza tra un modello di regressione lineare e i dati di addestramento. È rappresentato dalla formulazione:

 

Questa formula misura l'accuratezza della previsione del modello per i valori ground truth nei dati di addestramento. Se RSS = 0, il modello prevede perfettamente le variabili dipendenti. Tuttavia, un punteggio pari a zero non è sempre auspicabile, in quanto può indicare un overfitting dei dati di addestramento, in particolare se il set di dati in questione è ridotto. La multicollinearità può essere una delle cause.

Le stime di coefficienti elevati possono spesso essere sintomatiche di overfitting.3 Se due o più variabili condividono una correlazione lineare elevata, il metodo OLS può restituire coefficienti di valore erroneamente elevati. Quando uno o più coefficienti sono troppo alti, l'output del modello diventa sensibile a piccole alterazioni nei dati di input. In altre parole, il modello si è adattato eccessivamente a un set di addestramento specifico e non riesce a generalizzare con precisione sui nuovi set di test. Un tale modello è considerato instabile.4

La regressione ridge modifica il metodo OLS calcolando i coefficienti che tengono conto dei predittori potenzialmente correlati. In particolare, la regressione ridge corregge i coefficienti di alto valore introducendo un termine di regolarizzazione (spesso chiamato termine di penalità) nella funzione RSS. Questo termine di penalità è la somma dei quadrati dei coefficienti del modello.5  È rappresentato nella formulazione:

Il termine di penalità L2 viene inserito come fine della funzione RSS, dando luogo a una nuova formulazione, lo stimatore di regressione ridge. In esso, il suo effetto sul modello è controllato dall'iperparametro lambda (λ):

Ricordiamo che i coefficienti segnano il valore di un determinato predittore (ad esempio, l'effetto della variabile indipendente sul valore previsto (ad esempio una variabile dipendente). Una volta aggiunto alla formula RSS, il termine di penalità L2 contrasta i coefficienti particolarmente elevati riducendo tutti i valori dei coefficienti. Nelle statistiche, questo fenomeno si chiama contrazione del coefficiente. Lo stimatore ridge di cui sopra calcola quindi nuovi coefficienti di regressione che riducono l'RSS di un dato modello. In questo modo si riduce al minimo l'effetto di ogni predittore e si riduce l'overfitting sui dati di addestramento.6

Si noti che la regressione ridge non riduce ogni coefficiente dello stesso valore. Piuttosto, i coefficienti vengono ridotti in proporzione alla dimensione iniziale. All'aumentare di λ, i coefficienti di alto valore si riducono a una velocità maggiore rispetto ai coefficienti di basso valore.7 I coefficienti di valore elevato sono quindi penalizzati in misura maggiore rispetto ai coefficienti di valore basso.

 

Confronto fra regressione ridge e regressione lasso

Si noti che la penalità L2 riduce i coefficienti quasi a zero ma mai allo zero assoluto; sebbene i pesi delle caratteristiche del modello possano diventare trascurabili, non sono mai uguali a zero nella regressione. La riduzione di un coefficiente a zero rimuove in modo efficace il predittore accoppiato dal modello. Questa operazione è denominata selezione delle caratteristiche, che è un altro mezzo per correggere la multicollinearità.8 Poiché la regressione ridge non riduce i coefficienti di regressione a zero, non esegue la selezione delle caratteristiche.9 Questo viene spesso citato come un suo svantaggio. Inoltre, un altro svantaggio spesso menzionato è l'incapacità della regressione ridge di separare gli effetti predittori di fronte a una grave multicollinearità.10

La lasso regression, chiamata anche regolarizzazione L1, è uno dei tanti altri metodi di regolarizzazione nella regressione lineare. La regolarizzazione L1 opera riducendo i coefficienti a zero, eliminando essenzialmente quelle variabili indipendenti dal modello. Sia la lasso regression che la ridge regression riducono quindi la complessità del modello, anche se con mezzi diversi. La lasso regression riduce il numero di variabili indipendenti che influiscono sull'output. La ridge regression riduce il peso che ogni variabile indipendente ha sull'output.

Altre tecniche di regolarizzazione della regressione

L'elastic net è un'ulteriore forma di regolarizzazione. Mentre la regressione ridge ottiene il suo parametro di regolarizzazione dalla somma degli errori al quadrato e quella lasso ottiene il proprio dalla somma del valore assoluto degli errori, l'elastic net incorpora entrambi i parametri di regolarizzazione nella funzione di costo RSS.11

La regressione del componente principale (PCR) può anche fungere da procedura regolarizzante. Sebbene la PCR possa risolvere la multicollinearità, non lo fa imponendo una penalità sulla funzione RSS come nella regressione. Piuttosto, la PCR produce combinazioni lineari di predittori correlati da cui creare un nuovo modello dei minimi quadrati.12

Regressione ridge nel machine learning
Complessità del modello

Nel machine learning, la regressione aiuta a ridurre l'overfitting dovuto alla complessità del modello. La complessità del modello può essere dovuta a:

  • Un modello che possiede troppe funzionalità. Le funzioni sono i predittori del modello e possono anche essere chiamate "parametri" nel machine learning. I tutorial online spesso consigliano di mantenere il numero di funzioni al di sotto del numero di istanze nei set di dati di addestramento. Tuttavia, ciò non è sempre fattibile.
  • Caratteristiche che pesano troppo. Il peso della funzionalità si riferisce all'effetto di un determinato predittore sull'output del modello. Un peso elevato delle caratteristiche equivale a un coefficiente di valore elevato.

I modelli più semplici non hanno intrinsecamente prestazioni migliori dei modelli complessi. Tuttavia, un alto grado di complessità del modello può inibire la capacità di un modello di generalizzare su nuovi dati al di fuori del set di addestramento.

Poiché la regressione ridge non esegue la selezione delle funzioni, non può ridurre la complessità del modello eliminandole. Ma se una o più caratteristiche influiscono troppo pesantemente sull'output di un modello, la regressione può ridurre i pesi elevati delle funzioni (ad esempio i coefficienti) in tutto il modello per il termine di penalità L2. Ciò riduce la complessità del modello e consente di rendere le previsioni del modello meno dipendenti in modo irregolare da una o più funzioni.

Compromesso tra distorsione e varianza

In termini di machine learning, la ridge regression equivale ad aggiungere distorsioni in un modello per ridurre la varianza del modello stesso. Il compromesso distorsione-varianza è un problema ben noto nel machine learning. Ma per capire questo compromesso, è necessario prima comprendere il significato di "distorsione" e "varianza" nella ricerca sul machine learning.

Per dirla in breve: la distorsione misura la differenza media tra i valori previsti e i valori reali; la varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Quando la varianza aumenta, un modello predice in modo meno accurato su altri set di dati. La distorsione e la varianza misurano quindi l'accuratezza del modello rispettivamente sui set di addestramento e test. Ovviamente, gli sviluppatori sperano di ridurre la distorsione e la varianza del modello. La riduzione simultanea di entrambe non è sempre possibile, tuttavia, e quindi sono necessarie tecniche di regolarizzazione come la regressione ridge.

Come accennato, la regolarizzazione della regressione ridge introduce ulteriori distorsioni per ridurre la varianza. In altre parole, i modelli regolarizzati tramite regressione ridge producono previsioni meno accurate sui dati di addestramento (distorsione più elevata) ma previsioni più accurate sui dati dei test (varianza inferiore). Si tratta di un compromesso distorsione-varianza. Attraverso la regressione ridge, gli utenti determinano una perdita accettabile nell'accuratezza dell'addestramento (distorsione più elevata) al fine di aumentare la generalizzazione di un determinato modello (varianza inferiore).13  In questo modo, l'aumento della distorsione può contribuire a migliorare le prestazioni complessive del modello.

La forza della penalità L2, e quindi il compromesso distorsione-varianza del modello, è determinata dal valore λ nell'equazione della funzione di perdita dello stimatore ridge. Se λ è zero, allora rimane una funzione dei minimi quadrati ordinari. Questo crea un modello di regressione lineare standard senza alcuna regolarizzazione. Al contrario, un valore λ più alto significa una maggiore regolarizzazione. All'aumentare di λ, la distorsione del modello aumenta mentre la varianza diminuisce. Pertanto, quando λ è uguale a zero, il modello si adatta eccessivamente ai dati di addestramento, ma quando λ è troppo alto, il modello si adatta insufficientemente a tutti i dati.14

L'errore quadratico medio (MSE) può aiutare a determinare un valore λ adeguato. L'MSE è strettamente correlato all'RRS ed è un mezzo per misurare la differenza, in media, tra i valori previsti e quelli reali. Più basso è l'MSE di un modello, più accurate sono le sue previsioni. Ma l'MSE aumenta all'aumentare di λ. Tuttavia, si sostiene che esista sempre un valore di λ maggiore di zero tale che l'MSE ottenuto attraverso la regressione ridge sia inferiore a quello ottenuto tramite il metodo OLS.15 Un metodo per dedurre un valore λ adeguato consiste nel trovare il valore più alto per λ che non aumenti l'MSE, come illustrato nella Figura 2. Ulteriori tecniche di convalida incrociata possono aiutare gli utenti a selezionare valori λ ottimali per ottimizzare il proprio modello.16



Esempi di casi d'uso

I modelli di regressione ridge sono utilizzati al meglio quando si tratta di set di dati che possiedono due o più caratteristiche correlate. Inoltre, molti campi utilizzano la regressione ridge per gestire modelli con un numero maggiore di predittori e piccoli set di dati di addestramento.17 Tali situazioni possono essere abbastanza comuni quando si ha a che fare con una varietà di dati.

 

Biostatistica

La biologia computazionale e gli studi genetici si occupano spesso di modelli in cui il numero di predittori supera di gran lunga le dimensioni del campione del set di dati, in particolare quando si studia l'espressione genetica. La regressione ridge offre un mezzo per affrontare tale complessità del modello riducendo il peso totale di queste numerose funzioni e comprimendo l'intervallo predittivo del modello.

Settore immobiliare

Una miriade di fattori predittivi determinano il prezzo di vendita finale di una casa e molti sono correlati, come il numero di camere da letto e di bagni. Le funzioni altamente correlate portano a coefficienti di regressione elevati e a un overfitting dei dati di addestramento. La regressione ridge corregge questa forma di complessità del modello riducendo il peso totale delle funzioni sul valore previsto finale del modello.

Questi sono solo due esempi nella più ampia disciplina della data science. Ma come illustrano questi due esempi, è possibile utilizzare in modo più efficace la ridge regression in situazioni in cui si hanno più variabili del modello che campioni di dati o quando il proprio modello ha due o più variabili altamente correlate.

Ricerche recenti

Una ricerca recente esplora una variante modificata della regressione allo scopo di condurre la selezione delle funzioni.18 Questa forma modificata di regressione ridge utilizza parametri di regolarizzazione diversi su ciascun coefficiente. In questo modo, è possibile penalizzare individualmente il peso delle funzioni e quindi potenzialmente implementarne la selezione tramite la regressione.19

Risorse correlate Regressione ridge del kernel più rapida mediante sketching e precondizionamento

I ricercatori IBM dimostrano che le mappe delle caratteristiche casuali possono essere molto più efficaci nel formare i presupposti all'interno della regressione ridge.

Kernel Ridge Regression (KRR) uno a uno efficiente per il riconoscimento vocale

I ricercatori IBM presentano un miglioramento della Kernel Ridge Regression (KRR) studiata in Huang et al., ICASSP 2014, che è vantaggiosa dal punto di vista computazionale.

Implementazione della regressione ridge in R

Scopri i fondamenti dell'implementazione della regressione ridge in R utilizzando Jupyter Notebooks su IBM watsonx.ai.

Fai il passo successivo

Crea una strategia di AI per la tua azienda su un'unica piattaforma di dati e AI collaborativa: IBM watsonx. Addestra, convalida, adatta e distribuisci modelli AI per scalare e accelerare l'impatto dell'AI con dati affidabili in tutta l'azienda.

Scopri watsonx Prenota una demo live
Note a piè di pagina

1 Douglas C. Montgomery, Elizabeth A. Peck, e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

2 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

3 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf (link esterno a ibm.com)

4 A. K. Md. Ehsanes Saleh, Mohammad Arashi, and B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.

5 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

6 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

7 A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh, e Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.

8 Douglas C. Montgomery, Elizabeth A. Peck e G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

9 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

11 Hui Zou e Trevor Hastie, "Regularization and Variable Selection via the Elastic Net", Journal of the Royal Statistical Society, Vol. 67, n. 2, 2005, pagg. 301-320, https://academic.oup.com/jrsssb/article/67/2/301/7109482 (link esterno a ibm.com)

12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

13 Max Kuhn e Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao, and Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.

15 Arthur E. Hoerl e Robert W. Kennard, "Ridge Regression: Biased Estimation for Nonorthogonal Problems", Technometrics, Vol. 12, n. 1, Feb. 1970, pagg. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254 (link esterno a ibm.com)

16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf (link esterno a ibm.com)

17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang e Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

18 Yichao Wu, “Can’t Ridge Regression Perform Variable Selection?” Technometrics, Vol. 63, N. 2, 2021, pagg. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254 (link esterno a ibm.com)

19 Danielle C. Tucker, Yichao Wu, and Hans-Georg Müller, “Variable Selection for Global Fréchet Regression,” Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240 (link esterno a ibm.com)