Em termos de aprendizado de máquina, a regressão de Ridge adiciona um viés ao modelo para diminuir sua variância. O dilema entre viés e variância é um problema bem conhecido no aprendizado de máquina. Mas, para entender o dilema entre viés e variância, é necessário primeiro conhecer o significado de "viés" e "variância", respectivamente, na pesquisa de aprendizado de máquina.
Resumidamente: o viés mede a diferença média entre os valores previstos e os valores reais; a variância mede a diferença entre as previsões em várias execuções de um modelo. À medida que o viés aumenta, um modelo prevê com menos precisão em um conjunto de dados de treinamento. Por outro lado, conforme a variância aumenta, o modelo se torna menos preciso em outros conjuntos de dados. Portanto, o viés e a variância medem a precisão do modelo nos conjuntos de treinamento e teste, respectivamente. Desenvolvedores naturalmente buscam reduzir tanto o viés quanto a variância do modelo. Entretanto, a redução simultânea de ambos nem sempre é viável, daí a necessidade de técnicas de regularização, como a regressão ridge.
Conforme mencionado, a regularização da regressão de Ridge introduz viés adicional com o objetivo de diminuir a variância. Ou seja, modelos regularizados pela regressão de Ridge produzem previsões menos precisas nos dados de treinamento (maior viés), mas previsões mais precisas nos dados de teste (menor variância). Esse é o dilema entre viés e variância. Por meio da regressão de Ridge, os usuários podem aceitar uma perda de precisão no treinamento (maior viés) para aumentar a capacidade de generalização do modelo (menor variância).13 Dessa forma, aumentar o viés pode ajudar a melhorar o desempenho geral do modelo.
A força da penalidade L2 e, assim, o dilema entre viés e variância, é determinada pelo valor de λ na equação da função de perda do estimador de Ridge. Se λ for zero, o modelo será equivalente a uma função de mínimos quadrados ordinários. Isso resulta em um modelo de regressão linear padrão sem regularização. Por outro lado, um valor de λ maior significa mais regularização. Conforme λ aumenta, o viés do modelo aumenta, enquanto a variância diminui. Assim, quando λ é igual a zero, o modelo causa overfitting nos dados de treinamento, mas quando λ é muito alto, o modelo causa underfitting em todos os dados.14
O erro quadrático médio (MSE) pode ajudar a determinar um valor adequado de λ. O MSE está intimamente relacionado ao RSS e é uma forma de medir a diferença, em média, entre os valores previstos e os valores reais. Quanto menor o MSE do modelo, mais precisas são suas previsões. Mas o MSE aumenta à medida que λ aumenta. No entanto, argumenta-se que sempre existe um valor de λ maior que zero, de modo que o MSE obtido por meio da regressão de Ridge é menor do que o obtido por meio do OLS.15 Um método para deduzir um valor de λ adequado é encontrar o valor mais alto para λ que não aumenta o MSE, conforme ilustrado na Figura 2. Técnicas adicionais de validação cruzada podem ajudar os usuários a selecionar valores de λ ideais para ajustar seu modelo.16