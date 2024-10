En termes de machine learning, la régression de crête consiste à ajouter un biais dans un modèle pour en réduire la variance. Le compromis biais-variance est un problème bien connu dans le machine learning. Mais pour comprendre le compromis biais-variance, il est nécessaire d'abord de savoir ce que signifient respectivement le « biais » et la « variance » dans les recherches en machine learning.

En bref, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d'un modèle donné. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d'entraînement sont moins précises. Au fur et à mesure que la variance augmente, les prédictions à partir d'autres jeux de données d'entraînement sont moins précises. Le biais et la variance mesurent donc la précision du modèle sur les jeux d'entraînement et de test respectivement. De toute évidence, les développeurs espèrent réduire le biais et la variance des modèles. Il n'est cependant pas toujours possible de réduire simultanément les deux, d'où la nécessité de recourir à des techniques de régularisation telles que la régression de crête.

Comme nous l’avons déjà mentionné, la régularisation par régression Ridge introduit un biais supplémentaire pour réduire la variance. En d’autres termes, les modèles régularisés par la regression Ridge produisent des prédictions moins précises à partir des données d’entraînement (biais plus élevé), et plus précises à partir des données de test (faible variance). Il s’agit d’un compromis biais-variance. Grâce à la régression Ridge, les utilisateurs déterminent un niveau de perte de précision acceptable pour l’entraînement (biais plus élevé), afin d’améliorer la généralisabilité d’un modèle donné (variance inférieure).13 Augmenter le biais permet ainsi d’améliorer la performance globale du modèle.

La force de la pénalité L2, et donc du compromis biais-variance du modèle, est déterminée par la valeur λ dans l'équation de la fonction de perte de l'estimateur de crête. Si λ est égal à zéro, il reste une fonction des moindres carrés ordinaire. Cela crée un modèle de régression linéaire standard sans aucune régularisation. En revanche, une valeur λ plus élevée signifie une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. Ainsi, lorsque λ est égal à zéro, le modèle sur-adapte les données d'entraînement, mais lorsque λ est trop élevé, le modèle est sous-adapté sur toutes les données.14

L'erreur quadratique moyenne (MSE) peut aider à déterminer une valeur λ appropriée. La MSE est étroitement liée au RRS et constitue un moyen de mesurer la différence, en moyenne, entre les valeurs prédites et les valeurs réelles. Plus la MSE d'un modèle est faible, plus ses prédictions sont précises. Mais la MSE augmente à mesure que λ augmente. Néanmoins, on peut affirmer qu'il existe toujours une valeur de λ supérieure à zéro de sorte que la MSE obtenue par la régression de crête est inférieure à celle obtenue par les OLS.15 Une méthode pour déduire une valeur de λ appropriée consiste à trouver la valeur de λ la plus élevée qui n'augmente pas la MSE, comme l'illustre la figure 2. D'autres techniques de validation croisée peuvent aider les utilisateurs à sélectionner les valeurs λ optimales pour l'ajustement de leur modèle.16