L’objectif de l’algorithme d’optimisation est de réduire au minimum la fonction de perte, qui mesure l’écart entre les prédictions du modèle et les données réelles. Chaque fois que le modèle exécute son algorithme d’optimisation, il met à jour ses paramètres en fonction du résultat. Le taux d’apprentissage, ou taille de pas, est représenté par la lettre grecque η et détermine la taille des modifications que le modèle est autorisé à apporter.

Le taux d’apprentissage permet de s’assurer que les modèles apprennent suffisamment lors de l’entraînement pour ajuster leurs paramètres de manière significative, sans toutefois les corriger excessivement. Supposons que vous descendiez une colline. Pour éviter les chutes, vous devez aller assez vite pour avancer, mais pas trop non plus pour éviter de perdre le contrôle et de trébucher. Le meilleur taux d’apprentissage fixe une vitesse de descente sûre.

À chaque pas d’apprentissage, le modèle remplace sa compréhension précédente du jeu de données. Les réseaux de neurones « apprennent » toujours plus de leurs données d’entraînement à chaque passage de leur algorithme d’optimisation.