Lassen Sie uns die mathematischen Grundlagen des Verzerrung-Varianz-Dilemmas verstehen. Wie bereits im vorherigen Beispiel erwähnt, ist es unser Ziel, den Gesamtfehler zwischen vorhergesagten und tatsächlichen Werten zu reduzieren. Dieser Fehler setzt sich aus drei Komponenten zusammen: Verzerrung, Varianz und irreduzibler Fehler. Wir können den erwarteten quadratischen Vorhersagefehler eines Modells analysieren:
f^(x)
im Vergleich zur wahren Funktion: f(x)
wobei f^(x) aus einem Trainingsdatensatz D erlernt wird und x die wahre (unbekannte) Funktion ist.
Nehmen wir Folgendes an:
y=f(x)+ε,ε∼N(0,σ2)
für die Funktion y=f(x)+ε bedeutet dies, dass der Fehler (mit ε bezeichnet) normalverteilt ist, mit einem Mittelwert von 0 und einer Varianz von σ2. σ bezeichnet die Standardabweichung der Verteilung
f^(x) ist der vorhergesagte Wert des Modells für die Eingabe x
Die Erwartung (oder der Mittelwert) wird für verschiedene Trainingsdatensätze D und Rauschen ε ermittelt. Das Symbol E wird verwendet, um die „Erwartung“ oder den „erwarteten Wert“ auszudrücken, der ein wahrer Wert des Mittelwerts der Verteilung ist
Wir interessieren uns für den erwarteten Vorhersagefehler an einem einzelnen Punkt x:
ED,ε[(y-f^(x))2]
Ersatz:
y = f(x) + ε
Die Formel lautet also:
=ED,ε[(f(x)+ε-f^(x))2]
Erweiterung des Quadrats:
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
Teilen Sie die Erwartung mithilfe von Linearität auf (Linearität ist ein einfaches algebraisches Konzept, z. B. E[A+B]=E[A]+E[B]):
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
Da Folgendes gilt:
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
Erhalten wir:
ED[(f(x)-f^(x))2]+σ2