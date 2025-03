Comme leur nom l’indique, les mécanismes d’attention s’inspirent de l’aptitude des humains (et d’autres animaux) à accorder sélectivement plus d’attention aux détails saillants et à ignorer ceux qui sont moins importants sur le moment. Le fait d’avoir accès à toutes les informations, mais de se concentrer uniquement sur les plus utiles, permet d’éviter de perdre des détails importants et d’utiliser efficacement une mémoire et un temps limités.

D’un point de vue mathématique, un mécanisme d’attention calcule des pondérations d’attention qui reflètent l’importance relative de chaque partie d’une séquence d’entrée pour la tâche à accomplir. Il applique ensuite ces pondérations d’attention pour augmenter (ou diminuer) l’influence de chaque partie de l’entrée, en fonction de son importance respective. Un modèle d’attention, c’est-à-dire un modèle d’intelligence artificielle qui utilise un mécanisme d’attention, est entraîné à attribuer des pondérations d’attention précis par apprentissage supervisé ou auto-supervisé sur un grand jeu de données d’exemples.

Les mécanismes d’attention ont été initialement introduits par Bahdanau et al. en 2014 comme une technique pour combler les lacunes des modèles de réseaux neuronaux récurrents (RNN) de pointe utilisés pour la traduction automatique. Des recherches ultérieures ont intégré des mécanismes d’attention dans les réseaux neuronaux convolutifs (CNN) utilisés pour des tâches telles que le sous-titrage d’images et la réponse visuelle aux questions.

En 2017, l’article fondateur « Attention is All You Need » (L’attention est tout ce dont vous avez besoin) a présenté le modèle de transformeur, qui abandonne la récurrence et les convolutions pour ne garder que les couches d’attention et les couches de propagation avant standard. Depuis, l’architecture transformatrice est devenue l’épine dorsale des modèles de pointe alimentant l’ère de l’IA générative.

Alors que les mécanismes d’attention sont principalement associés aux LLM utilisés pour les tâches de traitement automatique du langage naturel (NLP), telles que la synthèse, la réponse aux questions, la génération de texte et l’analyse des sentiments, les modèles basés sur l’attention sont également largement utilisés dans d’autres domaines. Les principaux modèles de diffusion utilisés pour la génération d’images intègrent souvent un mécanisme d’attention. Dans le domaine de la vision par ordinateur, les transformeurs de vision (ViT) ont obtenu des résultats supérieurs dans des tâches telles que la détection d’objets1, la segmentation d’images2 et la réponse à des questions visuelles.3