El objetivo de SGD es encontrar parámetros θ que hacen que las predicciones de nuestro modelo sean lo más cercanas posible a los valores verdaderos y . En otras palabras, queremos minimizar la función de pérdida. L ( θ ) .

En el caso de la regresión lineal, esos parámetros son w (ponderación) y b (sesgo). En este caso, minimizar L ( θ ) es lo mismo que minimizar L ( w , b ) .

y i ^ = w · x i + b

L ( w , b ) = 1 n ∑ i = 1 n ( y i - y i ^ ) 2

Una analogía comúnmente utilizada cuando se enseña el descenso de gradiente es que GD es como caminar cuesta abajo en una montaña hasta llegar a un valle (la pérdida mínima). Imagine el gradiente de la función de pérdida, ∇ L , apunta cuesta arriba y para ir cuesta abajo, debemos dar un paso en la dirección opuesta.

La regla de actualización general para un parámetro θ es:

θ := θ - η · ∇ θ L ( θ )

dónde η es la tasa de aprendizaje y ∇ θ L ( θ ) es el gradiente de la pérdida con respecto a θ .

SGD utiliza solo una muestra elegida al azar ( x i , y i ) para aproximar el gradiente:

∇ θ L ( θ ) ≈ ∇ θ ℓ ( x i , y i ; θ )