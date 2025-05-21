Examinons les bases mathématiques du compromis biais-variance. Rappelons l’exemple précédent : nous visons à réduire l’erreur totale des valeurs prédites et des valeurs réelles. Cette erreur est composée de trois éléments : le biais, la variance et l’erreur irréductible. Nous pouvons analyser l’erreur de prédiction quadratique attendue d’un modèle :
f^(x)
par rapport à la fonction réelle : f(x),
où f^(x) est appris à partir d’un jeu de données d’entraînement D, et x est la vraie fonction (inconnue).
Soit :
y=f(x)+ε,ε∼N(0,σ2)
cela signifie que pour la fonction y=f(x)+ε , l’erreur (notée ε) est normalement distribuée avec une moyenne de 0 et une variance de σ2 , σ désigne l’écart-type de la distribution
f^(x) est la valeur prédite du modèle à l’entrée x
L’attente (ou la moyenne) est calculée sur différents ensembles de données d’entraînement D et le bruit ε . Le symbole E exprime l’« attente » ou la « valeur attendue », qui est une valeur réelle de la moyenne de la distribution
Nous nous intéressons à l’erreur de prévision attendue en un seul point x :
ED,ε[(y-f^(x))2]
Remplacer :
y=f(x)+ε
L’expression devient donc :
=ED,ε[(f(x)+ε-f^(x))2]
Élargir le carré :
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
Divisez l’attente en utilisant la linéarité (la linéarité est une notion algébrique simple, par exemple, E[A+B]=E[A]+E[B]) :
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
Maintenant, comme :
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
Nous obtenons :
ED[(f(x)-f^(x))2]+σ2