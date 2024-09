Il existe trois types d’algorithmes d’apprentissage par descente de gradient : la descente de gradient par lots, la descente de gradient stochastique et la descente de gradient par mini-lots.

Descente de gradient par lots



La descente de gradient par lots additionne l’erreur pour chaque point d’un ensemble d’entraînement, en ne mettant à jour le modèle qu’après l’évaluation de tous les exemples d’entraînement. Ce processus est appelé une époque d’entraînement.

Bien que ce traitement par lots offre une efficacité de calcul, il peut néanmoins nécessiter un temps de traitement long pour les grands ensembles de données d’entraînement, car toutes les données doivent être stockées en mémoire. Par ailleurs, la descente de gradient par lots produit généralement un gradient d’erreur et une convergence stables, mais parfois ce point de convergence qui trouve le minimum local par rapport au minimum global n’est pas idéal.

Descente de gradient stochastique



La descente de gradient stochastique (SGD) exécute une époque d’entraînement pour chaque exemple de l’ensemble de données et met à jour les paramètres de chaque exemple un par un. Comme vous n’avez besoin que d’un seul exemple d’entraînement, les données sont plus faciles à stocker en mémoire. Bien que ces mises à jour fréquentes offrent plus de détails et de rapidité, elles peuvent entraîner des pertes d’efficacité de calcul par rapport à la descente de gradient par lots. Ces mises à jour fréquentes peuvent augmenter le bruit dans les gradients, mais ceci peut aussi être utile pour échapper le minimum local et trouver le minimum global.

Descente de gradient par mini-lots



La descente de gradient en mini-lots combine les concepts de descente de gradient par lots et de descente de gradient stochastique. L’ensemble de données d’entraînement est divisé en lots de petite taille et les mises à jour s’effectuent sur chacun de ces lots. Cette approche offre un équilibre entre l’efficacité de calcul de la descente de gradient par lots et la vitesse de la descente de gradient stochastique.