Cos'è la regressione lasso?

18 gennaio 2024

La regressione è una tecnica di regolarizzazione che applica una penalità per prevenire l'overfitting e migliorare l'accuratezza dei modelli statistici.

La regressione lasso, nota anche come regolarizzazione L1, è una forma di regolarizzazione per i modelli di regressione lineare. La regolarizzazione è un metodo statistico per ridurre gli errori causati dall'overfitting dei dati di addestramento. Questo approccio può essere rappresentato con questa formula:

w-hat = argminw MSE(W ) + ||w||1

I concetti alla base della tecnica Lasso possono essere ricondotti a un articolo di ricerca geofisica del 1986 (link esterno a ibm.com) di Santosa e Simes1, che utilizzava la penalità L1 per i coefficienti. Tuttavia, nel 1996, lo statistico Robert Tibshirani sviluppò autonomamente e rese popolare il termine(link esterno a ibm.com), "lasso", basato sull'opera Nonnegative garrote di Breiman(link esterno a ibm.com).

Lasso è l'acronimo di Least Absolute Shrinkage and Selection Operator. Viene spesso utilizzato nell'apprendimento automatico per gestire dati ad alta dimensione in quanto facilita la selezione automatica delle funzionalità con la sua applicazione. Lo fa aggiungendo un termine di penalità alla somma residua dei quadrati (RSS), che viene poi moltiplicato per il parametro di regolarizzazione (lambda o λ). Questo parametro di regolarizzazione controlla la quantità di regolarizzazione applicata. Valori più alti di lambda aumentano la penalità, riducendo maggiormente i coefficienti verso lo zero, il che a sua volta riduce l'importanza di alcune funzioni dal modello (o le elimina del tutto), con conseguente selezione automatica delle funzioni. Al contrario, valori più bassi di lambda riducono l'effetto della penalità, mantenendo più funzioni all'interno del modello.

Questa penalità promuove la scarsità all'interno del modello, il che può aiutare a evitare problemi di multicollinearità e di overfitting all'interno dei set di dati. La multicollinearità si verifica quando due o più variabili indipendenti sono altamente correlate tra loro, il che può essere problematico per la modellazione causale. I modelli overfit si generalizzeranno male ai nuovi dati, diminuendone del tutto il valore. Riducendo i coefficienti di regressione a zero, la regressione lasso può eliminare efficacemente le variabili indipendenti dal modello, aggirando questi potenziali problemi all'interno del processo di modellazione. La scarsità del modello può anche migliorarne l'interpretabilità rispetto ad altre tecniche di regolarizzazione come la regressione ridge (nota anche come regolarizzazione L2).

Nota, questo articolo si concentra sulla regolarizzazione dei modelli di regressione lineare, ma vale la pena notare che la regressione lasso può essere applicata anche nella regressione logistica.

Compromesso tra distorsione e varianza

Il compromesso tra distorsione e varianza è una proprietà ben nota dei modelli predittivi. In questo contesto, la distorsione misura la differenza media tra i valori previsti e i valori reali; la varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Quando la varianza aumenta, un modello predice in modo meno accurato su altri set di dati. La distorsione e la varianza misurano quindi l'accuratezza del modello rispettivamente sui set di addestramento e test. Ridurre contemporaneamente sia la distorsione che la varianza non è sempre fattibile, da qui la necessità di tecniche di regolarizzazione, come la regressione lasso.

Nella regressione lasso, l'iperparametro lambda (λ), noto anche come penalità L1, bilancia il compromesso tra distorsione e varianza nei coefficienti risultanti. All'aumentare di λ, la distorsione aumenta e la varianza diminuisce, portando a un modello più semplice con meno parametri. Al contrario, al diminuire di λ, la varianza aumenta, portando a un modello più complesso con più parametri. Se λ è zero, rimane una funzione OLS, ovvero un modello di regressione lineare standard senza alcuna regolarizzazione.

Come funziona la regressione lasso?

Questa sezione riassume come applicare la regressione lasso ed evidenzia i casi d'uso più comuni nell'ambito della data science.

Eseguire un'analisi esplorativa dei dati

Prima di applicare un algoritmo di regressione lineare al suo set di dati, esplora i dati per comprendere i potenziali problemi sottostanti che potrebbero esserci. È importante capire se:

  • ci sono dati mancanti

  • c'è un numero elevato di funzioni

  • la distribuzione delle variabili continue è centrata alla media con deviazioni standard equivalenti

  • tutti i predittori sono correlati tra loro

Questi aspetti sono importanti da comprendere, in quanto i set di dati con elevata dimensionalità e variabili correlate possono essere inclini all'overfitting. Anche i dati che non sono centrati sulla media con una deviazione standard di 1 dovranno essere ridimensionati per limitare l'impatto delle grandi scale sul modello. Se le funzioni non vengono ridimensionate, ciò può influire negativamente sulla funzione di costo, che a sua volta influisce sui coefficienti beta. In parole povere, le funzioni non ridimensionate possono comportare l'applicazione di penalità involontarie nella regressione lasso dovute a differenze di unità.

Dividere i dati e ridimensionare i predittori continui

Dopo aver condotto un'analisi esplorativa dei dati, suddivideremo i dati in un set di addestramento e un set di test. Dopo aver suddiviso i dati, il ridimensionamento viene applicato ai dati secondo necessità. La scalabilità del punteggio Z è un approccio comune di scalabilità delle funzioni che ridimensiona le funzioni in modo che condividano una deviazione standard di 1 e una media di 0.

Adattare il modello lasso e scegliere un valore per λ

Adatta il modello di regressione lasso ai dati di addestramento e scegli un valore per λ con l'obiettivo di ridurre al minimo l'errore quadratico medio (MSE). L'errore quadratico medio (MSE) può aiutare a determinare un valore λ adeguato. L'MSE è un mezzo per misurare la differenza, in media, tra i valori previsti e quelli veri della variabile dipendente. La regressione riduce al minimo l'errore quadratico medio (MSE) bilanciando i fattori opposti di distorsione e varianza per creare il modello predittivo più accurato. A tal fine, alla somma residua dei quadrati (RSS) si aggiunge un termine di penalità pari alla somma dei valori assoluti dei coefficienti moltiplicati per un parametro λ.

Ottimizzare per λ con la convalida incrociata

Il valore ottimale di λ può essere determinato con tecniche di convalida incrociata, come la convalida incrociata k-fold; in questo approccio il valore λ riduce al minimo l'errore quadratico medio o altre metriche delle prestazioni.

Come notato in precedenza, un valore λ più alto applica una maggiore regolarizzazione. All'aumentare di λ, la distorsione del modello aumenta mentre la varianza diminuisce. Questo perché man mano che λ diventa più grande, più coefficienti 𝛽 si riducono a zero.

Valutare le prestazioni del modello

In generale, potremmo stampare alcuni valori per comprendere le prestazioni del modello, in particolare R2 e MSE. R2 ci indica la percentuale di varianza nella nostra variabile dipendente (o variabile di risposta) che è spiegata da variabili indipendenti. Confrontando i valori MSE per diversi valori di λ, si può vedere se il modello è stato ottimizzato in modo efficace per il minimo globale.

Quando utilizzare la regressione lasso

La regressione lasso è ideale per i problemi predittivi; la sua capacità di eseguire la selezione automatica delle variabili può semplificare i modelli e migliorare l'accuratezza delle previsioni. Detto questo, la regressione ridge può superare la regressione lasso in termini di prestazioni a causa della quantità di distorsioni introdotte dalla regressione lasso riducendo i coefficienti verso lo zero. Ha anche i suoi limiti con le funzioni correlate nei dati, in quanto sceglie arbitrariamente una funzione da includere nel modello.

Applicazioni comuni

In questi scenari la regressione lasso potrebbe rivelarsi la soluzione ideale.

Gestione di set di dati altamente dimensionali

Un set di dati è considerato ad alta dimensionalità quando il numero di variabili predittive è molto maggiore rispetto al numero di osservazioni. La regressione può contribuire a ridurre la dimensionalità all'interno di un set di dati riducendo i parametri del peso a zero ed eliminando le funzioni meno importanti dal modello.

Maggiori informazioni sulla riduzione della dimensionalità
Automazione della selezione delle funzioni

La distorsione introdotta dalla penalità L1 ridurrà artificialmente i coefficienti verso lo zero. Alcune variabili si ridurranno esattamente a zero, lasciando al modello un sottoinsieme delle variabili più importanti per fare previsioni.

Limitazioni della regressione lasso

La regressione può gestire una certa multicollinearità senza influire negativamente sull'interpretabilità del modello, ma non può superare una grave multicollinearità4. Se le covariate sono altamente correlate, la regressione lasso eliminerà arbitrariamente una delle funzioni dal modello. La regolarizzazione della rete elastica è una buona alternativa in questa situazione.

Implementazione della regressione lasso in Python o R

Sia Python che R sono ampiamente utilizzati nella data science. Python è flessibile e può gestire un ampio spettro di attività. D'altra parte, R è progettato specificamente per il calcolo statistico e la visualizzazione dei dati, comprese le ricche opzioni grafiche per grafici e diagrammi.

La regressione lasso può essere implementata in Python utilizzando librerie come sklearn (link esterno a ibm.com) che fornisce la classe lasso per questo scopo. R è un'ottima scelta in quanto il pacchetto glmnet può essere utilizzato per un'efficiente convalida incrociata per la selezione λ e offre la flessibilità di impostare α su valori diversi. R brilla anche per le sue capacità di visualizzazione, che svolgono un ruolo cruciale nella comprensione e nell'interpretazione del modello di regressione lasso.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

Linear Inversion of Band-Limited Reflection Seismograms (link esterno a ibm.com), Society for Industrial and Applied Mathematics, 1986

Regression Shrinkage and Selection via the Lasso (link esterno a ibm.com), Journal of the Royal Statistical Society, 1996

Better Subset Regression Using the Nonnegative Garrote (link esterno a ibm.com), Technometrics, 2012

Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (link esterno a ibm.com), International Journal of Statistics and Applications, 2018