La fonctionnalité centrale des modèles transformers est leur mécanisme d’auto-attention, dont ils tirent leur incroyable capacité à détecter les relations (ou dépendances) entre les différentes partie d’une entrée. Contrairement aux architectures RNN et CNN qui l’ont précédée, l’architecture de type transformer utilise uniquement des couches d’attention et des couches de propagation standard.
Les avantages de l’auto-attention, et plus particulièrement de la technique d’attention multi-têtes utilisée par les modèles de transformeur pour la calculer, permettent aux transformeurs de surpasser les performances des RNN et des CNN, jusqu’alors à la pointe de la technologie.
Avant l’introduction des modèles transformers, la plupart des tâches TAL reposaient sur des réseaux de neurones. La façon dont les RNN traitent les données séquentielles est intrinsèquement sérielle : ils ingèrent les éléments d’une séquence d’entrée l’un après l’autre, dans un ordre donné.
Cela empêche les RNN de saisir les dépendances à longue portée, ce qui signifie qu’ils ne peuvent traiter efficacement que les séquences de texte courtes.
Si cette lacune a été quelque peu comblée par les réseaux à mémoire à long terme (LSTM), elle demeure l’un des principaux inconvénients liés aux RNN.
Les mécanismes d’attention, quant à eux, examinent simultanément les séquences dans leur intégralité et décident de la manière et du moment où il convient de se concentrer sur certaines étapes de chaque séquence.
En plus d’améliorer considérablement la capacité à comprendre les dépendances à longue portée, cette qualité des transformeurs permet également la parallélisation, qui consiste à réaliser plusieurs étapes de calcul simultanément, au lieu de les sérialiser.
Bien adaptés au parallélisme, les modèles transformers tirent pleinement parti de la puissance et de la vitesse des GPU lors de l’entraînement et de l’inférence. C’est ce qui permet d’entraîner les modèles transformers sur des jeux de données d’une ampleur sans précédent grâce à l’apprentissage autosupervisé.
Les transformeurs offrent également certains avantages par rapport aux réseaux de neurones, en particulier pour les données visuelles. Intrinsèquement locaux, les CNN utilisent des convolutions pour traiter successivement les sous-ensembles de données d’entrée.
Par conséquent, les CNN peinent à discerner les dépendances à longue portée, telles que les corrélations entre les mots (dans un texte) ou les pixels (dans une image) qui ne sont pas voisins. Les mécanismes d’attention n’ont pas cette limitation.