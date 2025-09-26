Das Ziel von SGD ist es, Parameter zu finden, θ welche die Vorhersagen unseres Modells so nahe wie möglich an den wahren Werten vornehmen y . Mit anderen Worten: Wir wollen die Verlustfunktion minimieren, L ( θ ) .

Im Falle der linearen Regression sind diese Parameter w (Gewichtung) und b (Verzerrung). In diesem Fall ist also Minimieren L ( θ ) das Gleiche wie Minimieren L ( w , b ) .

y i ^ = w · x i + b

L ( w , b ) = 1 n ∑ i = 1 n ( y i - y i ^ ) 2

Eine häufig verwendete Analogie beim Erklären des Gradientenabstiegs ist, dass GD wie das Bergabgehen auf einem Berg ist, bis man ein Tal erreicht (der minimale Verlust). Stellen Sie sich den Gradienten der Verlustfunktion vor, ∇ L der bergauf zeigt, und um bergab zu gehen, müssen wir den umgekehrten Weg gehen.

Die allgemeine Aktualisierungsregel für einen Parameter θ ist:

θ := θ - η · ∇ θ L ( θ )

Wo η ist die Lernrate und ∇ θ L ( θ ) wo der Gradient des Verlusts in Bezug auf θ .

SGD verwendet nur eine einzige, zufällig ausgewählte Stichprobe, ( x i , y i ) um den Gradienten anzunähern:

∇ θ L ( θ ) ≈ ∇ θ ℓ ( x i , y i ; θ )