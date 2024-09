Un réseau de neurones récurrent (RNN) est un type de réseau de neurones artificiel qui utilise des données séquentielles ou des données de séries temporelles. Ces algorithmes d'apprentissage en profondeur sont couramment utilisés pour des problèmes ordinaux ou temporels, tels que la traduction linguistique, le traitement du langage naturel, la reconnaissance vocale et le sous-titrage d'images ; ils sont incorporés dans des applications populaires telles que Siri, la recherche vocale et Google Translate. Comme les réseaux de neurones convolutifs (CNN) à propagation avant, les réseaux de neurones récurrents utilisent des données d'entraînement pour apprendre. Ils se distinguent par leur « mémoire » car ils prennent des informations d'entrées antérieures pour influencer l'entrée et la sortie en cours. Alors que les réseaux de neurones profonds traditionnels supposent que les entrées et les sorties sont indépendantes les unes des autres, la sortie des réseaux de neurones récurrents dépend des éléments antérieurs au sein de la séquence. Alors que les événements futurs seraient également utiles pour déterminer la sortie d'une séquence donnée, les réseaux de neurones récurrents unidirectionnels ne peuvent pas rendre compte de ces événements dans leurs prédictions.

Pour nous aider à expliquer les RNN, prenons une expression idiomatique, telle que « ne pas être dans son assiette », qui est couramment utilisée lorsque quelqu'un est malade. Pour que cette expression ait du sens, il faut qu'elle soit exprimée dans cet ordre spécifique. Les réseaux récurrents ont donc besoin de justifier la position de chaque mot dans l'expression et ils utilisent ces informations pour prévoir le prochain mot dans la séquence.

Une autre caractéristique distinctive des réseaux récurrents est qu'ils partagent des paramètres à travers chaque couche du réseau. Alors que les réseaux à propagation avant ont des poids différents à travers chaque nœud, les réseaux de neurones récurrents partagent les mêmes paramètres de poids dans chaque couche du réseau. Cela dit, ces poids sont toujours ajustés au travers des processus de rétropropagation et de descente de gradient afin de faciliter l'apprentissage par renforcement.

Les réseaux de neurones récurrents optimisent la rétropropagation à travers l'algorithme de temps (BPTT) pour déterminer les gradients, ce qui est légèrement différent de la rétropropagation traditionnelle car elle est caractéristique de la séquence de données. Les principes du BPTT sont les mêmes que ceux de la rétropropagation traditionnelle, où le modèle s'entraîne en calculant les erreurs de sa couche de sortie à sa couche d'entrée. Ces calculs nous permettent de régler et d'ajuster les paramètres du modèle de manière appropriée. Le BPTT diffère de l'approche traditionnelle car il additionne les erreurs à chaque étape alors que les réseaux à propagation avant n'en ont pas besoin car ils ne partagent pas les paramètres à travers chaque couche.

Grâce à ce processus, les RNN ont tendance à trouver deux problèmes, appelés explosion des gradients et fuite des gradients. Ces problèmes sont définis par la taille du gradient, qui est la pente de la fonction de perte le long de la courbe d'erreur. Lorsque le gradient est trop petit, il continue de diminuer, mettant à jour les paramètres de poids jusqu'à ce qu'ils deviennent insignifiants, c'est-à-dire 0. Lorsque cela se produit, l'algorithme n'apprend plus. L'explosion des gradients se produit lorsque le gradient est trop important, créant un modèle instable. Dans ce cas, les poids du modèle deviennent trop importants et finissent par être représentés par NaN. Une solution à ces problèmes est de réduire le nombre de couches cachées dans le réseau de neurones pour éliminer une partie de la complexité dans le modèle RNN.