Profundicemos en los fundamentos matemáticos del equilibrio sesgo-varianza. Recordemos el ejemplo anterior, nuestro objetivo es reducir el error total de los valores predichos y los valores reales. Este error se compone de tres componentes: sesgo, varianza y error irreducible. Podemos analizar el error de predicción cuadrático esperado de un modelo:
f^(x)
en comparación con la función verdadera: f(x),
donde f^(x) se aprende de un conjunto de datos de entrenamiento D , y x es la función verdadera (desconocida).
Deje:
y=f(x)+ε,ε∼N(0,σ2)
esto significa que para la función y=f(x)+ε , el error (indicado por ε ) se distribuye normalmente con una media de 0 y una varianza de σ2 , σ denota la desviación estándar de la distribución
f^(x) es el valor predicho del modelo en la entrada x
La expectativa (o media) se toma sobre diferentes conjuntos de datos de entrenamiento D y ruido ε . El símbolo E se utiliza para expresar "expectativa" o "valor esperado", que es un valor verdadero de la media de la distribución
Nos interesa el error de predicción esperado en un único punto x :
ED,ε[(y-f^(x))2]
Sustituto:
y=f(x)+ε
Así que la expresión se convierte en:
=ED,ε[(f(x)+ε-f^(x))2]
Ampliación del cuadrado:
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
Divida la expectativa utilizando la linealidad (la linealidad es un concepto algebraico sencillo: E[A+B] = E[A] + E[B]).
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
Ahora, desde:
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
Obtenemos:
ED[(f(x)-f^(x))2]+σ2