Entriamo nei fondamenti matematici del compromesso bias-varianza. Ricordando l'esempio precedente, miriamo a ridurre l'errore totale dei valori previsti e dei valori effettivi. Questo errore è composto da tre componenti: bias, varianza ed errore irriducibile. Possiamo analizzare l'errore quadratico medio atteso di un modello:
f^(x)
rispetto alla funzione reale: f(x),
dove f^ (x) viene appreso da un set di dati di addestramento D e x è la vera funzione (sconosciuta).
Poniamo:
y=f(x)+ε,ε∼N(0,σ2)
Ciò significa che per la funzione y=f(x)+ε , l'errore (indicato con ε ) è normalmente distribuito con una media di 0 e una varianza di σ2 , σ indica la deviazione standard della distribuzione
f^(x) è il valore previsto del modello all'input x
L'aspettativa (o media) viene presa in base a diversi set di dati di addestramento D e rumore ε. Il simbolo E viene utilizzato per esprimere "l'aspettativa," o "il valore atteso," che è un valore reale della media della distribuzione
Siamo interessati all'errore di previsione atteso in un singolo punto x :
ED,ε[(y-f^(x))2]
Sostituiamo:
y=f(x)+ε
Così l'espressione diventa:
=ED,ε[(f(x)+ε-f^(x))2]
Espandendo il quadrato:
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
Separiamo l'aspettativa usando la linearità (la linearità è un semplice concetto algebrico, ad esempio, E[A+B]=E[A]+E[B]):
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
Ora, dal momento che:
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
Otteniamo:
ED[(f(x)-f^(x))2]+σ2