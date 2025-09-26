L’objectif de la SGD est de trouver des paramètres θ qui rendent les prédictions de notre modèle aussi proches que possible des véritables valeurs y . En d’autres termes, nous voulons minimiser la fonction de perte, L ( θ ) .

Dans le cas de la régression linéaire, ces paramètres sont w ( poids) et b (biais). Ainsi, dans ce cas, minimiser L ( θ ) revient à la même chose que minimiser L ( w , b ) .

y i ^ = w · x i + b

L ( w , b ) = 1 n ∑ i = 1 n ( y i - y i ^ ) 2

Lors de l’enseignement de la descente de gradient, on utilise souvent l’analogie selon laquelle la GD est semblable à la descente d’une montagne jusqu’à l’arrivée dans une vallée (la perte minimale). Imaginez le gradient de la fonction de perte, ∇ L , qui pointe en montée et qui redescend. Nous devons avancer dans la direction opposée.

La règle générale de mise à jour d’un paramètre θ est :

θ := θ - η · ∇ θ L ( θ )

où η est le taux d’apprentissage et ∇ θ L ( θ ) est le gradient de la perte par rapport à θ .

La SGD utilise un seul échantillon choisi au hasard ( x i , y i ) pour estimer le gradient :

∇ θ L ( θ ) ≈ ∇ θ ℓ ( x i , y i ; θ )