Cos'è la regressione ridge?

Autori

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Cos'è la regressione ridge?

La ridge regression è una tecnica di regolarizzazione statistica. Corregge l'overfitting dei dati di addestramento nei modelli di machine learning.

La regressione ridge, nota anche come regolarizzazione L2, è uno dei diversi tipi di regolarizzazione per i modelli di regressione lineare. La regolarizzazione è un metodo statistico per ridurre gli errori causati dall'overfitting dei dati di addestramento. La regressione ridge corregge specificamente la multicollinearità nell'analisi di regressione. Questo è utile quando si sviluppano modelli di apprendimento automatico con un numero elevato di parametri, in particolare se tali parametri hanno anche pesi elevati. Sebbene questo articolo sia incentrato sulla regolarizzazione dei modelli di regressione lineare, ricordiamo che la regressione ridge può essere applicata anche nella regressione logistica.

Il problema: la multicollinearità

Un'equazione di regressione lineare standard a più variabili è:

Formula standard di regressione lineare multivariata

Qui, Y è il valore previsto (variabile dipendente), X è qualsiasi predittore (variabile indipendente), B è il coefficiente di regressione collegato a quella variabile indipendente e X0 è il valore della variabile dipendente quando la variabile indipendente è uguale a zero (chiamata anche intercetta y). Osserva come i coefficienti segnano il rapporto tra la variabile dipendente e una variabile indipendente data.

La multicollinearità indica che due o più predittori hanno una relazione quasi lineare. Montgomery et al. offrono un esempio calzante: immaginiamo di analizzare un set di dati di consegna della supply chain in cui le consegne a lunga distanza contengono regolarmente un numero elevato di articoli, mentre le consegne a breve distanza contengono sempre scorte più ridotte. In questo caso, la distanza di consegna e la quantità di articoli sono correlate linearmente, come mostrato nella Figura 1. Ciò crea problemi quando vengono utilizzate come variabili indipendenti in un singolo modello predittivo.

Diagramma di dispersione che mostra la correlazione lineare tra variabili indipendenti, distanza d'ordine e dimensione

Questo è solo un esempio di multicollinearità, e la correzione è relativamente semplice: raccogliere dati più diversificati (ad esempio, dati per consegne a breve distanza con inventari di grandi dimensioni). Tuttavia, la raccolta di più dati non è sempre una correzione praticabile, ad esempio quando la multicollinearità è intrinseca ai dati studiati. Altre opzioni per correggere la multicollinearità includono l'aumento delle dimensioni del campione, la riduzione del numero delle variabili indipendenti o semplicemente l'implementazione di un modello diverso. Tuttavia, tali correzioni non sempre riescono a eliminare la multicollinearità e la regressione ridge serve come un altro metodo per regolarizzare un modello per risolvere il problema della multicollinearità.1

Come funziona la regressione ridge: l'algoritmo di regolarizzazione

Quando si sviluppano inizialmente modelli predittivi, spesso è necessario calcolare i coefficienti, poiché i coefficienti non sono esplicitamente indicati nei dati di addestramento. Per stimare i coefficienti, possiamo utilizzare uno stimatore di coefficienti di matrice dei minimi quadrati ordinari (OLS) standard:

Stimatore dei coefficienti della matrice dei minimi quadrati ordinari

Conoscere le operazioni di questa formula richiede familiarità con la notazione matriciale. Basti dire che questa formula mira a trovare la linea più adatta per un determinato set di dati calcolando i coefficienti per ogni variabile indipendente che complessivamente danno come risultato la più piccola somma residua di quadrati (chiamata anche somma degli errori al quadrato).2

La somma residua dei quadrati (RSS) misura la corrispondenza tra un modello di regressione lineare e i dati di addestramento. È rappresentato dalla formulazione:

Formula della somma dei quadrati dei residui

Questa formula misura l'accuratezza della previsione del modello per i valori ground truth nei dati di addestramento. Se RSS = 0, il modello prevede perfettamente le variabili dipendenti. Tuttavia, un punteggio pari a zero non è sempre auspicabile, in quanto può indicare un overfitting dei dati di addestramento, in particolare se il set di dati in questione è di piccole dimensioni. La multicollinearità può essere una delle cause.

Le stime di coefficienti elevati possono spesso essere sintomatiche di overfitting.3 Se due o più variabili condividono una correlazione lineare elevata, il metodo OLS può restituire coefficienti di valore erroneamente elevati. Quando uno o più coefficienti sono troppo alti, l'output del modello diventa sensibile a piccole alterazioni nei dati di input. In altre parole, il modello si è adattato eccessivamente a un set di addestramento specifico e non riesce a generalizzare con precisione sui nuovi set di test. Un tale modello è considerato instabile.4

La regressione ridge modifica l'OLS calcolando i coefficienti che tengono conto dei predittori potenzialmente correlati. Nello specifico, la regressione ridge corregge i coefficienti di alto valore introducendo un termine di regolarizzazione (spesso chiamato termine di penalità) nella funzione RSS. Questo termine di penalità è la somma dei quadrati dei coefficienti del modello.5 È rappresentato nella formulazione:

Formulazione del termine di penalità L2

Il termine di penalità L2 viene inserito come fine della funzione RSS, dando luogo a una nuova formulazione, lo stimatore di regressione ridge. In esso, il suo effetto sul modello è controllato dall'iperparametro lambda (λ):

Formula di regressione ridge, o formula RSS con termine di penalità L2

Ricorda che i coefficienti indicano l'effetto di un determinato predittore (cioè di una variabile indipendente) sul valore previsto (cioè la variabile dipendente). Una volta aggiunto alla formula RSS, il termine di penalità L2 contrasta i coefficienti particolarmente elevati riducendo tutti i valori dei coefficienti. In statistica, questo fenomeno si chiama contrazione del coefficiente. Lo stimatore ridge di cui sopra calcola quindi nuovi coefficienti di regressione che riducono l'RSS di un determinato modello. Questo riduce al minimo l'effetto di ogni predittore, nonché l'overfitting sui dati di addestramento.6

Tiene presente che la regressione ridge non riduce ogni coefficiente dello stesso valore. Piuttosto, i coefficienti vengono ridotti in proporzione alla loro dimensione iniziale. All'aumentare di λ, i coefficienti di valore elevato si riducono a una velocità superiore rispetto ai coefficienti di basso valore.7 I coefficienti di alto valore sono quindi penalizzati in misura maggiore rispetto ai coefficienti di basso valore.

Confronto fra regressione ridge e regressione lasso

Tieni presente che la penalità L2 riduce i coefficienti quasi a zero ma mai allo zero assoluto; sebbene i pesi delle funzioni del modello possano essere considerati trascurabili, non sono mai uguali a zero nella regressione ridge. La riduzione di un coefficiente a zero rimuove in modo efficace il predittore accoppiato dal modello. Questa operazione è denominata selezione delle funzioni, ed è un altro mezzo per correggere la multicollinearità.8 Dal momento che la regressione ridge non riduce i coefficienti di regressione a zero, non esegue la selezione delle funzioni.9 Spesso questo viene segnalato come uno svantaggio. Inoltre, un altro svantaggio spesso segnalato è l'incapacità della regressione ridge di separare gli effetti predittori di fronte a una grave multicollinearità.10

La lasso regression, chiamata anche regolarizzazione L1, è uno dei tanti altri metodi di regolarizzazione nella regressione lineare. La regolarizzazione L1 opera riducendo i coefficienti a zero, eliminando essenzialmente quelle variabili indipendenti dal modello. Sia la lasso regression che la ridge regression riducono quindi la complessità del modello, anche se con mezzi diversi. La lasso regression riduce il numero di variabili indipendenti che influiscono sull'output. La ridge regression riduce il peso che ogni variabile indipendente ha sull'output.

Altre tecniche di regolarizzazione della regressione

L'elastic net è un'ulteriore forma di regolarizzazione. Mentre la regressione ridge ottiene il proprio parametro di regolarizzazione dalla somma degli errori al quadrato e quella lasso ottiene il proprio dalla somma del valore assoluto degli errori, l'elastic net incorpora entrambi i parametri di regolarizzazione nella funzione di costo RSS.11

La regressione del componente principale (PCR) può anche avere funzione di procedura per la regolarizzazione. Sebbene la PCR possa risolvere la multicollinearità, non lo fa imponendo una penalità sulla funzione RSS come nel caso della regressione. Piuttosto, la PCR produce combinazioni lineari di predittori correlati da cui creare un nuovo modello dei minimi quadrati.12

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Regressione ridge nel machine learning

Complessità del modello

Nel machine learning, la regressione aiuta a ridurre l'overfitting dovuto alla complessità del modello. La complessità del modello può essere dovuta a:

  • Un modello che possiede troppe funzionalità. Le funzioni sono i predittori del modello e possono anche essere chiamate "parametri" nel machine learning. I tutorial online spesso consigliano di mantenere il numero di funzioni al di sotto del numero di istanze nei set di dati di addestramento. Tuttavia, ciò non è sempre fattibile.
  • Caratteristiche che pesano troppo. Il peso della funzionalità si riferisce all'effetto di un determinato predittore sull'output del modello. Un peso elevato delle caratteristiche equivale a un coefficiente di valore elevato.

I modelli più semplici non hanno intrinsecamente prestazioni migliori dei modelli complessi. Tuttavia, un alto grado di complessità del modello può inibire la capacità di un modello di generalizzare su nuovi dati al di fuori del set di addestramento.

Dal momento che la regressione ridge non esegue la selezione delle funzioni, non può ridurre la complessità del modello eliminandole. Tuttavia, se una o più funzioni influenzano in modo eccessivo l'output di un modello, la regressione ridge può ridurre i pesi elevati delle funzioni (vale a dire i coefficienti) nel modello in base al termine di penalità L2. Questo riduce la complessità del modello e consente di rendere le previsioni del modello meno dipendenti in modo irregolare da una o più funzioni.

Compromesso tra distorsione e varianza

In termini di apprendimento automatico, la regressione ridge equivale ad aggiungere distorsioni in un modello per ridurre la varianza del modello stesso. Il compromesso distorsione-varianza è un problema ben noto nell'apprendimento automatico. Ma per comprendere il compromesso distorsione-varianza, è necessario innanzitutto conoscere il significato di "distorsione" e "varianza" nella ricerca sull'apprendimento automatico.

Per dirla in breve: la distorsione misura la differenza media tra i valori previsti e i valori reali; la varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Quando la varianza aumenta, un modello predice in modo meno accurato su altri set di dati. La distorsione e la varianza misurano quindi l'accuratezza del modello rispettivamente sui set di addestramento e test. Ovviamente, gli sviluppatori sperano di ridurre la distorsione e la varianza del modello. La riduzione simultanea di entrambe non è sempre possibile, tuttavia, e quindi sono necessarie tecniche di regolarizzazione come la regressione ridge.

Come accennato in precedenza, la regolarizzazione della regressione ridge introduce ulteriori distorsioni per ridurre la varianza. In altre parole, i modelli regolarizzati attraverso regressione ridge producono previsioni meno accurate sui dati di addestramento (distorsione più elevata) ma previsioni più accurate sui dati dei test (varianza inferiore). Si tratta di un compromesso distorsione-varianza. Attraverso la regressione ridge, gli utenti determinano una perdita accettabile in termini di accuratezza dell'addestramento (distorsione più elevata) al fine di aumentare la generalizzazione di un determinato modello (varianza inferiore).13 In questo modo, l'aumento della distorsione può contribuire a migliorare le prestazioni complessive del modello.

La forza della penalità L2, e quindi il compromesso distorsione-varianza del modello, è stabilita dal valore λ nell'equazione della funzione di perdita dello stimatore ridge. Se λ è zero, allora rimane una funzione dei minimi quadrati ordinari. Questo crea un modello di regressione lineare standard senza alcuna regolarizzazione. Al contrario, un valore λ più alto significa una maggiore regolarizzazione. All'aumentare di λ, la distorsione del modello aumenta mentre la varianza diminuisce. Pertanto, quando λ è uguale a zero, il modello si adatta eccessivamente ai dati di addestramento, ma quando λ è troppo alto, il modello si adatta insufficientemente a tutti i dati.14

L'errore quadratico medio (MSE) può aiutare a stabilire un valore λ adeguato. L'MSE è strettamente correlato all'RRS ed è un mezzo per misurare la differenza, in media, tra i valori previsti e quelli reali. Più è basso l'MSE di un modello, più accurate saranno le sue previsioni. Ma l'MSE aumenta all'aumentare di λ. Tuttavia, si sostiene che esista sempre un valore λ maggiore di zero tale che l'MSE ottenuto attraverso la regressione ridge sia inferiore a quello ottenuto attraverso il metodo OLS.15 Un metodo per dedurre un valore λ adeguato consiste nel trovare il valore più alto per λ che non aumenta l'MSE, come illustrato nella Figura 2. Ulteriori tecniche di convalida incrociata possono aiutare gli utenti a selezionare valori λ ottimali per ottimizzare il proprio modello.16

Relazione di modellazione grafica tra MSE, pregiudizio, varianza e termine di penalità lambda

Esempi di casi d'uso

I modelli di regressione ridge sono usati al meglio quando si tratta di set di dati che possiedono due o più funzioni correlate. Inoltre, numerosi campi usano la regressione ridge per gestire modelli con un numero maggiore di predittori e set di dati di addestramento di piccole dimensioni.17 Tali situazioni possono essere abbastanza comuni quando si ha a che fare con una varietà di dati.

Biostatistica

La biologia computazionale e gli studi genetici si occupano spesso di modelli in cui il numero di predittori supera di gran lunga le dimensioni del campione del set di dati, in particolare quando si studia l'espressione genetica. La regressione ridge offre un mezzo per affrontare tale complessità del modello riducendo il peso totale di queste numerose funzioni e comprimendo l'intervallo predittivo del modello.

Settore immobiliare

Una miriade di fattori predittivi determinano il prezzo di vendita finale di una casa e molti sono correlati, come il numero di camere da letto e di bagni. Le funzioni altamente correlate portano a coefficienti di regressione elevati e a un overfitting dei dati di addestramento. La regressione ridge corregge questa forma di complessità del modello riducendo il peso totale delle funzioni sul valore previsto finale del modello.

Questi sono solo due esempi nella più ampia disciplina della data science. Ma come illustrano questi due esempi, è possibile utilizzare in modo più efficace la ridge regression in situazioni in cui si hanno più variabili del modello che campioni di dati o quando il proprio modello ha due o più variabili altamente correlate.

AI Academy

AI all'opera nell'ambito del servizio clienti

Scopri come l'AI generativa può offrire ai clienti un'esperienza più fluida e aumentare la produttività dell'organizzazione in queste tre aree chiave: self-service, agenti umani e operazioni di contact center.

Ricerche recenti

Una ricerca recente esplora una variante modificata della regressione ridge allo scopo di condurre la selezione delle funzioni.18 Questa forma modificata di regressione ridge usa parametri di regolarizzazione diversi su ciascun coefficiente. In questo modo, è possibile penalizzare individualmente il peso delle funzioni e quindi, potenzialmente, implementarne la selezione attraverso la regressione.19

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live