Qu’est-ce que le compromis biais-variance ?

Introduction au compromis biais-variance

Dans le domaine du machine learning (ML) et de l’intelligence artificielle (IA), le compromis biais-variance est un concept qui régit la performance d’un modèle de machine learning prédictif et un principe fondamental en science des données.

Lorsque nous décidons de créer un modèle de ML pour un problème métier spécifique, nous voulons choisir une architecture de modèle qui minimise les erreurs et capture les signaux sous-jacents. Le biais et la variance représentent deux sources d’erreur de prédiction. Le biais mesure l’écart entre les prédictions et les valeurs réelles en raison d’hypothèses trop simplistes ; la variance, quant à elle, mesure la fluctuation des prédictions en fonction des différentes données d’entraînement.

Il est essentiel de comprendre et de gérer ce compromis pour construire des modèles qui se généralisent bien face aux données inédites. Les modèles présentant un biais élevé sont sujets au sous-apprentissage, ignorant des schémas importants, tandis que les modèles à forte variance sont enclins au surapprentissage, captant le bruit comme s’il s’agissait d’un signal. Trouver le bon équilibre est au cœur de toute conception efficace du machine learning et permet d’expliquer pourquoi les modèles qui fonctionnent bien sur les données d’entraînement peuvent encore échouer en situation réelle.

Dans cette fiche explicative, nous abordons les détails techniques du compromis biais-variance et de l’erreur de prédiction, en décrivant comment construire le modèle adapté à un ensemble de données. 

Compromis illustré

Dans les modèles prédictifs tels que la régression linéaire ou les K plus proches voisins (KNN), le biais et la variance sont interdépendants :

  • Le biais mesure l’écart moyen entre les prédictions d’un modèle et les valeurs de vérité terrain. Les modèles à biais élevé ont tendance à formuler des hypothèses fortes quant à la forme des données et sont donc sujets au sous-apprentissage. Un modèle trop simpliste présente généralement un biais élevé et une faible variance, tandis qu’un modèle comme celui-ci présentera plutôt un taux d’erreur d’entraînement et de prédiction élevée.  
  • La variance mesure la variation des prédictions d’un modèle en fonction des différents jeux de données d’entraînement. Les modèles à haute variance sont sensibles au bruit présent dans les données d’entraînement et sont sujets au surapprentissage. Un modèle avec une architecture complexe et plus de paramètres présentera une variance élevée et un faible biais.
Diagramme de variance de biais

Dans cette fiche explicative, nous utilisons la régression comme exemple pour décrire comment la complexité du modèle affecte le biais et la variance des résultats. Rappelons que dans la régression, l’indicateur d’évaluation est défini par l’erreur quadratique moyenne (MSE) par rapport à la vérité terrain et à la valeur prédite. Une MSE élevée indique un modèle mal adapté aux données d’entraînement, tandis qu’une MSE faible indique un modèle bien adapté aux données d’entraînement.

La MSE est défini comme suit :

 MSE=(ypred-yactual)2  

Ou exprimée sous forme de somme résiduelle de carrés :

 RSS=i=1n(yi-yi^)2

Supposons que nous disposions d’un ensemble de valeurs d’entrée X et des valeurs de sorties correspondantes Y. La vraie relation entre X et Y n’est pas linéaire : imaginez une forme en U fluide et incurvée, comme une onde sinusoïdale. Mais nous ne connaissons pas cette fonction sous-jacente. En revanche, nous observons les points de données bruyants qui s’en rapprochent.

Graphique représentant des données parasites

Nous voulons maintenant construire un modèle pour prédire Y en utilisant X.

Pour illustrer la manière dont la complexité des modèles affecte leur performance, nous pouvons tenter d’ajuster trois modèles de complexité croissante : un modèle linéaire, un modèle polynomial moyennement complexe et un modèle polynomial très complexe.

Ce bruit introduit un caractère aléatoire, imitant les données réelles. Une fonction polynôme est une expression mathématique formée par la somme de puissances de X multipliées par des coefficients.

Par exemple, un polynomial de degré 1 est :

 y^=β0+β1x

Le modèle est représenté sous la forme d’une ligne droite :

Degré polynomial 1

Ce modèle est très simple et part du principe que la relation entre X et Y est linéaire. Mais les données présentent clairement un motif incurvé. Par conséquent :

  • Le biais est élevé : le modèle ne peut pas capter le schéma non linéaire dans les données.
  • La variance est faible : il est stable et ne change pas beaucoup selon les différents jeux de données.
  • MSE (erreur quadratique moyenne) : 0,2929. C’est relativement élevé.

Il s’agit d’un exemple de sous-apprentissage : le modèle est trop simple pour apprendre la structure réelle.

Fonction polynôme de degré 4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

Degré polynomial 4

Nous utilisons maintenant un polynomial qui inclut les puissances de x jusqu’à  x4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

Ce modèle est suffisamment complexe pour capter la courbe des données sans être trop sensible au bruit.

  • Le biais est modéré : le modèle peut représenter assez bien la fonction réelle.
  • La variance est modérée : il ne réagit pas de façon excessive aux petites fluctuations dans les données.
  • MSE : environ 0,0714, inférieur au degré 1.

Il s'agit du modèle le plus performant de notre exemple : il généralise efficacement.

Fonction polynôme de degré 25 :

 y^=i=025βixi

Degré polynomial 25

Avec 26 paramètres, le modèle fait preuve d’une grande flexibilité et s’adapte étroitement aux données d’apprentissage, y compris au bruit aléatoire. La courbe semble très sinueuse et surajuste les données.

  • Le biais est faible : il est suffisamment flexible pour suivre le signal.
  • La variance est élevée : il réagit fortement au bruit et changerait considérablement en présence d’un nouvel échantillon de données.
  •  MSE : environ 0,059 – inférieur au degré 4, car il a surmémorisé le schéma des données d’entraînement et au-delà.

Il s’agit d’un exemple de surapprentissage : le modèle apprend le bruit en même temps que le signal et ne se généralise pas bien aux données non vues.

Plus le degré est élevé, plus la courbe devient « raide » et plus elle peut s’adapter aux données d’apprentissage, y compris le signal et le bruit.

Dans l’exemple ci-dessus, nous pouvons voir que la complexité du modèle et le nombre de paramètres affectent directement le compromis biais-variance. À mesure que le modèle devient plus complexe et comporte davantage de paramètres, la variabilité des valeurs prédites dans l’ensemble de test augmente, ce qui entraîne une variance élevée. Cependant, comme le modèle se simplifie et que le nombre de paramètres diminue, la  bias2  dans les prédictions s’accroît.

Par conséquent, lorsque nous créons un modèle de machine learning, nous visons à obtenir simultanément les biais et la variance pour optimiser la performance du modèle. Cette optimisation permet non seulement de générer de bons résultats lors de l’entraînement, mais aussi de généraliser correctement les données de test inédites. Dans la section suivante, nous approfondirons les détails mathématiques du calcul du biais et de la variance, et expliquerons pourquoi les modèles de machine learning contiennent des incertitudes composées du biais, de la variance et de l’erreur irréductible.

Compromis biais-variance

Biais et variance dans la pratique

Il est essentiel de comprendre comment le biais et la variance se manifestent dans les modèles de machine learning réels afin de diagnostiquer et d'améliorer les performances. Dans la section suivante, nous examinons en détail comment un modèle présentant un biais et une variance élevés peut entraîner des performances potentiellement mauvaises dans un système d'IA.

Modèles à biais élevé

Les modèles à biais élevé sont généralement trop simplistes pour capturer les véritables tendances dans les données. Ils sous‑ajustent l’ensemble d’entraînement, ce qui affecte la précision des tests et de l’entraînement. Un exemple classique est la régression linéaire appliquée aux données non linéaires présentées précédemment. Si la véritable relation entre les caractéristiques et la cible est quadratique ou sinusoïdale et que nous ajustons une ligne droite, le modèle n’est pas capable de saisir la structure sous-jacente.

Symptômes : taux d’erreur élevé sur les jeux d’entraînement et de test. Le biais devient important et entraîne une mauvaise performance sur les jeux d’entraînement et de test.

Modèles à forte variance

Les modèles à variance élevée sont trop flexibles et s’adaptent trop étroitement aux données d’apprentissage, y compris le bruit. Ils surajustent l’ensemble d’apprentissage et ne parviennent pas à généraliser aux données invisibles, ce qui conduit à un surajustement et à des prévisions avec une variabilité anormalement élevée.

En voici quelques exemples :

  • Arbres de décision sans élagage.
  • Régression polynomiale à degrés élevés.
  • KNN avec un k très faible.

Symptômes : faible erreur d’entraînement, mais erreur de test élevée. Les prédictions varient considérablement d’un ensemble de données à l’autre. Le terme de variance prévaut sur l’erreur, indiquant que le modèle est instable face aux variations des données d’apprentissage.

Diagnostiquer le biais et la variance

Voici quelques outils pratiques pour diagnostiquer ces erreurs :

Courbes d’apprentissage (illustrées dans la section I) :

  • Représentation graphique de l'erreur d'entraînement et de validation par rapport à la taille de l'ensemble d'entraînement.
  • Si les deux erreurs sont élevées et convergent, cela indique un biais important.

Si l’erreur d’entraînement est faible et que l’erreur de validation est élevée, avec un écart qui ne se comble pas, cela indique une variance élevée. La validation croisée peut être appliquée pour diagnostiquer la performance du modèle et extraire la moyenne des erreurs à partir de l’ensemble d’entraînement sélectionné.

  • Permet d’estimer l’erreur de généralisation.
  • Utile pour comparer les modèles ou les hyperparamètres en tenant compte de la variance.

Considérations pratiques

En pratique, contrôler le compromis biais-variance consiste moins à choisir le modèle « parfait » qu’à gérer la complexité au moyen de diverses stratégies. Nous pouvons appliquer plusieurs techniques pour contrôler la variabilité des erreurs de prédiction en appliquant certaines des stratégies suivantes :

Régularisation

La régularisation est un ensemble de techniques utilisées pour contraindre ou pénaliser la complexité d’un modèle afin d’améliorer la généralisation, c’est-à-dire sa performance sur les données inédites. En termes mathématiques, la régularisation modifie la fonction de perte initiale en ajoutant un terme de pénalité qui décourage la complexité (généralement sous la forme de grands poids ou de modèles trop flexibles).

L’objectif est d’éviter le surapprentissage, en particulier lorsqu’il s’agit de données à haute dimension ou restreintes. Lors de l’entraînement des modèles de machine learning, nous minimisons généralement une fonction de perte telle que l’erreur quadratique moyenne (MSE).

 RSS=∑i=1n(yi-yi^)2

Avec la régularisation, nous ajoutons une pénalité à cet objectif. 

Régularisation L2 (régression de crête)

LossRidge=∑i=1n(yi-yi^)2+λ*Penalty

Ici,

 λ est un hyperparamètre qui contrôle le compromis entre l’ajustement aux données d’apprentissage et la simplicité du modèle.

Il ajoute une pénalité proportionnelle au carré de la magnitude des coefficients. Cela écarte les poids trop importants, ce qui réduit la variance. Le terme de pénalité garantit que les caractéristiques dont le pouvoir prédictif est faible reçoivent des valeurs faibles, réduisant efficacement les coefficients des paramètres.

Régularisation L1 (lasso)

Favorise la parcimonie :

 Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|

Cela peut éliminer complètement les caractéristiques non pertinentes, ce qui simplifie le modèle et réduit la variance. Le terme de pénalité USD{\sum_{j=1}^{p} |\beta_j}USD garantit que les fonctionnalités insignifiantes sont réduites à zéro, éliminant complètement les caractéristiques.

Méthodes d’ensemble

Les méthodes d’ensemble combinent plusieurs modèles pour réduire l’erreur en calculant la moyenne de l’écart de prédiction individuel. Il s’agit de combiner ou d’empiler plusieurs modèles à haute variance afin d’obtenir une précision de prédiction optimale. Voici quelques exemples :

- Le bagging (par exemple, les forêts d’arbres décisionnels) réduit la variance en faisant la moyenne de plusieurs estimateurs à variance élevée entraînés sur différents sous-ensembles de données.

- L’accélération (par exemple, xgBoost, AdaBoost) crée un apprenant fort en corrigeant séquentiellement les erreurs des modèles précédents, souvent en équilibrant la réduction du biais ou de la variance avec un réglage minutieux.

Réglage des hyperparamètres et sélection des modèles

La complexité et la force de régularisation des modèles sont souvent contrôlées par des hyperparamètres. Des techniques telles que la recherche en grille, la recherche aléatoire avec validation croisée ou l’optimisation bayésienne permettent de trouver un modèle qui équilibre le biais et la variance sur les données retenues.

Applications à l’IA moderne

Le compromis biais-variance n’est pas seulement théorique. Il joue un rôle critique dans l’apprentissage profond et les systèmes d’IA à grande échelle. À l’ère moderne de l’IA, le choix de l’architecture des réseaux neuronaux joue un rôle critique dans la gestion du compromis entre biais et variance. Voici comment deux architectures fondamentales, les CNN et les RNN, gèrent cet équilibre en pratique.

1. Réseaux de neurones convolutifs (CNN) : les CNN sont conçus spécialement pour les données à structure spatiale, le plus souvent des images. Leurs caractéristiques architecturales leur permettent de réduire la variance tout en conservant une expressivité suffisante pour limiter les biais.

  • Champs réceptifs locaux (convolutions) : au lieu de relier chaque pixel d’entrée à chaque neurone de sortie (comme dans les réseaux entièrement connectés), les CNN utilisent de petits filtres (noyaux) qui glissent sur l’entrée. Cela confirme l’hypothèse de l’utilité des caractéristiques locales, un biais en faveur de la localisation spatiale.
  • Partage de pondération : chaque filtre (ou noyau) est réutilisé sur l’ensemble de l’image, ce qui réduit considérablement le nombre de paramètres pouvant être entraînés. Cela limite le surapprentissage, réduit la variance, mais introduit un biais en limitant la flexibilité du modèle.
  • Couches de pooling (par exemple, pooling max) : ces couches résument les cartes de caractéristiques et introduisent l’invariance par translation. Bien que cela réduise la variance en ignorant les fluctuations mineures, cela peut augmenter les biais en éliminant certains détails potentiellement utiles.
  • Apprentissage hiérarchique des caractéristiques : les CNN apprennent, couche par couche, des arêtes de bas niveau aux formes de haut niveau. Ce biais inductif en couches permet une généralisation avec moins d’exemples, ce qui est utile dans les domaines où les données sont rares.

2. Réseaux de neurones récurrents (RNN) : les RNN sont adaptés aux données séquentielles telles que le texte, la parole et les séries chronologiques, où la sortie actuelle dépend des éléments précédents. Leur conception tente de concilier dépendances à long terme (qui réduisent les biais) et stabilité d’entraînement (qui contrôle la variance).

  • Partage de pondération au fil du temps : les RNN utilisent les mêmes paramètres à chaque intervalle temporel, ce qui introduit un biais favorisant la stationnarité des séquences (en supposant que les mêmes types de schémas se reproduisent). Néanmoins, cela réduit considérablement la variance en limitant la croissance des paramètres.
  • Mémoire des entrées passées : les RNN conservent un état caché h_t qui résume les informations passées. En théorie, cet état permet au modèle de réduire le biais en modélisant les dépendances à longue distance. Cependant, dans la pratique, la disparition des gradients les empêche souvent d’apprendre efficacement les relations à long terme, ce qui augmente les biais.
  • Variantes telles que la mémoire à long terme (LSTM) et l’unité récurrente à porte (GRU) : ces architectures atténuent la disparition de gradients en utilisant des portes, ce qui permet une meilleure conservation de la mémoire au fil du temps. Par conséquent, elles peuvent réduire davantage les biais sans augmenter considérablement la variance.
  • Stabilité à l’entraînement et surajustement  les RNN profonds (plusieurs couches ou longues séquences) sont sujets à une forte variance, c’est-à-dire à un bruit de surajustement pendant les séquences d’entraînement. Des techniques telles que le dropout, l’écrêtage des gradients et le regroupement de séquences dans des compartiments sont souvent utilisées pour contrôler ce phénomène.

Techniques permettant de contrôler le compromis

  • Dropout : la désactivation aléatoire des neurones pendant l’entraînement ajoute du bruit, forçant le réseau à apprendre des représentations redondantes, ce qui réduit le surajustement et donc la variance.
  • Normalisation par lots : aide à stabiliser et à accélérer l'entraînement, et réduit souvent la variance en atténuant l’optimisation.
  • Arrêt anticipé : empêche le surajustement en interrompant l'entraînement lorsque la perte de validation commence à augmenter.
  • Apprentissage par transfert : les modèles pré-entraînés sur de grands jeux de données se généralisent souvent mieux avec moins de paramètres à entraîner, ce qui réduit la variance sur les petits jeux de données.
  • Lois d’échelle et observations modernes : des résultats récents dans les grands modèles (comme les transformateurs) indiquent que l'augmentation du nombre de données, de la puissance de calcul et de la taille des modèles réduit les erreurs de test, ce qui suggère que le biais diminue plus rapidement que la variance augmente dans les modèles à haute capacité. Cependant, une mauvaise régularisation ou des données insuffisantes peuvent tout de même conduire à un surajustement.

Fondements théoriques

Examinons les bases mathématiques du compromis biais-variance. Rappelons l’exemple précédent : nous visons à réduire l’erreur totale des valeurs prédites et des valeurs réelles. Cette erreur est composée de trois éléments : le biais, la variance et l’erreur irréductible. Nous pouvons analyser l’erreur de prédiction quadratique attendue d’un modèle :

 f^(x)

par rapport à la fonction réelle : f(x),

où f^(x) est appris à partir d’un jeu de données d’entraînement D, et x est la vraie fonction (inconnue).

Soit :

 y=f(x)+ε,ε∼N(0,σ2)

cela signifie que pour la fonction y=f(x)+ε , l’erreur (notée ε) est normalement distribuée avec une moyenne de 0 et une variance de σ2 , σ désigne l’écart-type de la distribution

 f^(x) est la valeur prédite du modèle à l’entrée x

L’attente (ou la moyenne) est calculée sur différents ensembles de données d’entraînement D et le bruit  ε . Le symbole E exprime l’« attente » ou la « valeur attendue », qui est une valeur réelle de la moyenne de la distribution

Nous nous intéressons à l’erreur de prévision attendue en un seul point x :

 ED,ε[(y-f^(x))2]

Remplacer :

 y=f(x)+ε

L’expression devient donc :

 =ED,ε[(f(x)+ε-f^(x))2]

Élargir le carré :

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

Divisez l’attente en utilisant la linéarité (la linéarité est une notion algébrique simple, par exemple, E[A+B]=E[A]+E[B]) :

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

Maintenant, comme :

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

 E[ε2]=σ2

Nous obtenons :

 ED[(f(x)-f^(x))2]+σ2

Décomposition du premier terme :

Additionner et soustraire 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]

Soit :

 a=f(x)-ED[f^(x)]

 b=ED[f^(x)]-f^(x)

Alors :

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

Puisque ED[b]=0 , le terme croisé disparaît et nous obtenons :

 =(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]

Décomposition biais-variance finale :

ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2

Ici, le premier terme est le biais2 , le deuxième terme la variance et le troisième terme est l’erreur irréductible.

Cela montre que l’erreur de prédiction totale attendue peut être décomposée comme suit :

Biais² : Erreur liée à des hypothèses erronées dans le modèle (par exemple, sous-apprentissage ou modèle trop simple)

- Variance : erreur liée à la sensibilité aux données d’entraînement (par exemple, surapprentissage, modèle trop complexe)

- bruit irréductible : caractère aléatoire et erreur inévitables dans les observations

Conclusion et lecture approfondie

En résumé, le biais et la variance sont deux sources fondamentales d’erreur de prédiction dans le machine learning. Comprendre ce compromis n’est pas seulement un exercice théorique car il façonne directement la manière dont nous concevons, entraînons et déployons les modèles de ML dans la pratique.

Que vous choisissiez entre un modèle linéaire simple ou un réseau de neurones profond complexe, il est essentiel de reconnaître l’équilibre entre le sous-ajustement et le surajustement pour construire des systèmes d’IA robustes. Bien que nous nous soyons concentrés sur l’erreur quadratique moyenne (MSE) comme fonction de perte, ce compromis s’applique à un large éventail de distributions et d’indicateurs d’erreur, ce qui en fait une considération universelle dans l’apprentissage supervisé.

Ces dernières années, les chercheurs ont observé un comportement déroutant dans de grands modèles surparamétrés, tels que les réseaux neuronaux. Malgré leur grande capacité, ces modèles généralisent souvent bien, même lorsqu’ils correspondent parfaitement aux données d’entraînement, ce qui semble défier le cadre traditionnel biais-variance.

Ce comportement déroutant est exploré dans des travaux comme « Reconciling modern machine learning and the bias-variance trade-off » de Belkin et al. (2019), qui introduit le concept de double descente, et « A universal law of robustness via isoperimetry » de Bubeck et al., qui propose une interprétation géométrique de la généralisation.

À mesure que nous développons des systèmes d’IA plus puissants, une meilleure compréhension de ces dynamiques devient essentielle, non seulement pour optimiser les performances, mais aussi pour interpréter le comportement des modèles, garantir l’équité et promouvoir des pratiques d’IA responsables.

