Avant d’examiner en détail la descente de gradient, revoyons certains concepts de la régression linéaire. Vous vous souvenez peut-être de la formule suivante pour calculer la pente d’une droite, à savoir y = mx + b, où m représente la pente et b l’ordonnée à l’origine sur l’axe des y.
Vous vous souvenez peut-être aussi d’avoir tracé un nuage de points dans les statistiques et d’avoir trouvé la ligne de meilleur ajustement, ce qui nécessitait de calculer l’erreur entre la sortie réelle et la sortie prédite (y-hat) à l’aide de la formule d’erreur quadratique moyenne. L’algorithme de descente de gradient se comporte de la même manière, sauf qu’il est basé sur une fonction convexe.
Le point de départ n’est qu’un point arbitraire qui nous permet d’évaluer les performances. À partir de ce point de départ, nous allons trouver la dérivée (ou la pente) et, à partir de là, nous pourrons utiliser une ligne tangente pour observer l’inclinaison de la pente. La pente renseigne sur les mises à jour des paramètres du modèle, c’est-à-dire les poids et les biais. La pente au point de départ est plus forte, mais au fur et à mesure que de nouveaux paramètres sont générés, elle devrait progressivement diminuer jusqu’à atteindre le point le plus bas de la courbe, dénommé point de convergence.
Comme pour trouver la ligne de meilleur ajustement dans la régression linéaire, l’objectif de la descente de gradient est de minimiser la fonction de coût, ou l’erreur entre y prédit et y réel. Pour ce faire, deux points de données sont nécessaires : une orientation et un taux d’apprentissage. Ces facteurs déterminent les calculs de dérivée partielle des itérations futures, ce qui lui permet d’atteindre progressivement le minimum local ou global (c’est-à-dire le point de convergence).
- Le taux d’apprentissage (également appelé taille de pas ou alpha) est la taille des pas effectués pour atteindre le minimum. Généralement faible, cette valeur est évaluée et mise à jour en fonction du comportement de la fonction de coût. Des taux d’apprentissage élevés se traduisent par des pas plus importants, mais avec le risque de dépasser le minimum. Inversement, un faible taux d’apprentissage présente des pas réduits. Bien qu’elles améliorent la précision, le nombre d’itérations compromet l’efficacité globale, car cela prend plus de temps et de calculs pour atteindre le minimum.
- La fonction de coût (ou de perte) mesure la différence, ou l’erreur, entre y réel et y prédit à sa position actuelle. Elle améliore l’efficacité du modèle de machine learning en lui fournissant des informations qui l’aident à ajuster les paramètres afin de minimiser l’erreur et de trouver le minimum local ou global. L’algorithme itère en continu, se déplaçant dans la direction de la descente la plus raide (ou du gradient négatif) jusqu’à ce que la fonction de coût soit proche de zéro ou nulle. À ce stade, le modèle cesse d’apprendre. De plus, bien que les termes fonction de coût et fonction de perte soient considérés comme synonymes, il existe une légère différence entre eux. En effet, une fonction de perte fait référence à l’erreur d’un exemple d’entraînement, tandis qu’une fonction de coût calcule l’erreur moyenne sur la totalité d’un ensemble d’entraînement.