In termini di apprendimento automatico, la regressione ridge equivale ad aggiungere distorsioni in un modello per ridurre la varianza del modello stesso. Il compromesso distorsione-varianza è un problema ben noto nell'apprendimento automatico. Ma per comprendere il compromesso distorsione-varianza, è necessario innanzitutto conoscere il significato di "distorsione" e "varianza" nella ricerca sull'apprendimento automatico.
Per dirla in breve: la distorsione misura la differenza media tra i valori previsti e i valori reali; la varianza misura la differenza tra le previsioni tra le varie realizzazioni di un determinato modello. Quando la distorsione aumenta, un modello predice in modo meno accurato su un set di dati di addestramento. Quando la varianza aumenta, un modello predice in modo meno accurato su altri set di dati. La distorsione e la varianza misurano quindi l'accuratezza del modello rispettivamente sui set di addestramento e test. Ovviamente, gli sviluppatori sperano di ridurre la distorsione e la varianza del modello. La riduzione simultanea di entrambe non è sempre possibile, tuttavia, e quindi sono necessarie tecniche di regolarizzazione come la regressione ridge.
Come accennato in precedenza, la regolarizzazione della regressione ridge introduce ulteriori distorsioni per ridurre la varianza. In altre parole, i modelli regolarizzati attraverso regressione ridge producono previsioni meno accurate sui dati di addestramento (distorsione più elevata) ma previsioni più accurate sui dati dei test (varianza inferiore). Si tratta di un compromesso distorsione-varianza. Attraverso la regressione ridge, gli utenti determinano una perdita accettabile in termini di accuratezza dell'addestramento (distorsione più elevata) al fine di aumentare la generalizzazione di un determinato modello (varianza inferiore).13 In questo modo, l'aumento della distorsione può contribuire a migliorare le prestazioni complessive del modello.
La forza della penalità L2, e quindi il compromesso distorsione-varianza del modello, è stabilita dal valore λ nell'equazione della funzione di perdita dello stimatore ridge. Se λ è zero, allora rimane una funzione dei minimi quadrati ordinari. Questo crea un modello di regressione lineare standard senza alcuna regolarizzazione. Al contrario, un valore λ più alto significa una maggiore regolarizzazione. All'aumentare di λ, la distorsione del modello aumenta mentre la varianza diminuisce. Pertanto, quando λ è uguale a zero, il modello si adatta eccessivamente ai dati di addestramento, ma quando λ è troppo alto, il modello si adatta insufficientemente a tutti i dati.14
L'errore quadratico medio (MSE) può aiutare a stabilire un valore λ adeguato. L'MSE è strettamente correlato all'RRS ed è un mezzo per misurare la differenza, in media, tra i valori previsti e quelli reali. Più è basso l'MSE di un modello, più accurate saranno le sue previsioni. Ma l'MSE aumenta all'aumentare di λ. Tuttavia, si sostiene che esista sempre un valore λ maggiore di zero tale che l'MSE ottenuto attraverso la regressione ridge sia inferiore a quello ottenuto attraverso il metodo OLS.15 Un metodo per dedurre un valore λ adeguato consiste nel trovare il valore più alto per λ che non aumenta l'MSE, come illustrato nella Figura 2. Ulteriori tecniche di convalida incrociata possono aiutare gli utenti a selezionare valori λ ottimali per ottimizzare il proprio modello.16