Le taux d’apprentissage est important, car il permet aux modèles d’IA d’apprendre efficacement à partir de leurs données d’entraînement.
Un faible taux d’apprentissage ne permet pas au modèle d’« apprendre » suffisamment à chaque pas. Le modèle met à jour ses paramètres trop lentement et met trop de temps pour atteindre la convergence. Mais cela ne signifie pas qu’un taux d’apprentissage élevé soit la solution.
Avec un taux d’apprentissage élevé, l’algorithme peut être victime d’un dépassement, en allant trop loin dans la correction de ses erreurs. Dans ce cas, l’algorithme a besoin d’un taux d’apprentissage plus faible, mais pas au point de rendre l’apprentissage inefficace.
Prenons l’exemple d’un extraterrestre venu découvrir la vie sur Terre. Il voit des chats, des chiens, des chevaux, des cochons et des vaches, et il en conclut que tous les animaux ont quatre pattes. Il voit ensuite une poule. Est-ce également un animal ? Selon son taux d’apprentissage, l’extraterrestre parviendra à l’une des trois conclusions suivantes :
Avec un taux d’apprentissage optimal, l’extraterrestre conclut que les poules sont également des animaux, auquel cas le nombre de pattes n’est pas un critère essentiel pour déterminer s’il a affaire à un animal ou non.
Avec un faible taux d’apprentissage, l’extraterrestre ne pourra pas recueillir suffisamment d’informations en voyant une seule poule. Il conclura que les poules ne sont pas des animaux parce qu’ils n’ont pas quatre pattes. En raison de son faible taux d’apprentissage, l’extraterrestre ne pourra mettre à jour son raisonnement que lorsqu’il aura vu d’autres poules.
Si son taux d’apprentissage est élevé, l’extraterrestre procédera à une correction excessive. En effet, il conclura que parce que la poule est un animal et qu’elle a deux pattes, tous les animaux ont deux pattes. Si le taux d’apprentissage est élevé, le modèle apprend « trop » à la fois.
Les résultats de l’apprentissage dépendent du taux d’apprentissage. Le meilleur taux d’apprentissage est celui qui permet à l’algorithme d’ajuster les paramètres du modèle en temps voulu, sans dépasser le point de convergence.