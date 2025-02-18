L’autoattention est un type de mécanisme d’attention utilisé dans les modèles de machine learning. Ce mécanisme permet d’évaluer l’importance des tokens ou des mots dans une entrée afin de mieux comprendre les relations entre eux. Il s’agit d’un élément essentiel des modèles de transformeurs, une architecture d’intelligence artificielle puissante qui est essentielle pour les tâches de traitement automatique du langage naturel (NLP). L’architecture transformatrice constitue la base de la plupart des grands modèles de langage (LLM) modernes.

Le mécanisme d'auto-attention a été introduit au moyen du transformateur, une architecture de modèle de réseau de neurones proposée par les chercheurs. L'architecture proposée avait pour objectif de relever les défis posés par les modèles traditionnels de machine learning qui utilisent des réseaux de neurones convolutifs (CNN) et des réseaux de neurones récurrents (RNN).1

Les modèles séquentiels traditionnels suivent la même architecture d’encodeur-décodeur que les modèles transformateurs, mais traitent les données étape par étape ou séquence à séquence (seq2seq). Cette fonction pose un défi pour la parallélisation, qui est la capacité de réduire le temps de calcul et d’améliorer la génération de sortie en calculant simultanément les poids d’attention sur toutes les parties de la séquence d’entrée.



L’autoattention a joué un rôle clé dans l’avancement des LLM en permettant la parallélisation dans les exemples d’entraînement. Cette méthode est utile, car plus la longueur de la séquence est longue, plus les contraintes de mémoire limitent le traitement par lots des exemples d’entraînement. Grâce à l’autoattention, les données d’entraînement des LLM peuvent être divisées en lots et traitées simultanément sur plusieurs GPU.1 L’autoattention réduit la puissance de calcul nécessaire pour entraîner des modèles de machine learning avec un traitement par lots efficace en parallèle.

Non seulement l’auto-attention contribue à distribuer efficacement la charge de calcul, mais elle permet également de traiter simultanément les poids d’attention. Cette capacité permet au modèle de se concentrer sur les parties pertinentes d’une séquence d’entrée pour prédire dynamiquement l’importance de chaque élément au sein d’une séquence. L’autoattention est adaptée aux tâches NLP telles que la traduction automatique, l’analyse des sentiments et le résumé.