Le succès des modèles Word2Vec et GloVe a inspiré de nouvelles recherches sur des modèles de représentation linguistique plus sophistiqués, tels que FastText, BERT et GPT. Ces modèles s’appuient sur les plongements de sous-mots, les mécanismes d’attention et les transformers pour gérer efficacement les plongements de dimensions supérieures.

Plongements de sous-mots

Les plongements de sous-mots, tels que FastText, représentent les mots comme des combinaisons d’unités de sous-mots, ce qui offre une plus grande flexibilité et permet de traiter les mots rares ou hors du vocabulaire. Les plongements de sous-mots améliorent la robustesse et la couverture des plongements lexicaux.

Contrairement à GloVe, FastText traite chaque mot comme un élément composé de n-grammes de chaîne de caractères et non comme un mot entier. Cette caractéristique lui permet non seulement d’apprendre des mots rares, mais également des mots hors du vocabulaire.

Mécanismes d’attention et transformers

Les mécanismes d’attention et les modèles Transformer prennent en compte les informations contextuelles et les relations bidirectionnelles entre les mots, ce qui conduit à des représentations linguistiques plus avancées.

Des mécanismes d’attention ont été introduits pour améliorer la capacité des réseaux neuronaux à se concentrer sur des parties spécifiques de la séquence d’entrée lors des prédictions. Au lieu de traiter toutes les parties de l’entrée de la même manière, les mécanismes d’attention permettent au modèle de s’intéresser de manière sélective aux parties pertinentes de l’entrée.

Les transformers sont devenus le pilier de divers modèles de pointe dans le traitement automatique du langage naturel, notamment BERT, GPT et T5 (Text-to-Text Transfer Transformer), entre autres. Ils excellent dans des tâches telles que la modélisation linguistique, la traduction automatique, la génération de texte et la réponse aux questions.

Les transformers utilisent un mécanisme d’auto-attention pour capturer les relations entre les différents mots d’une séquence. Avec ce mécanisme, chaque mot fait attention à tous les autres mots de la séquence, permettant de capturer des dépendances à longue distance.

Les transformers permettent une plus grande parallélisation pendant l’entraînement par rapport aux RNN et sont plus efficaces en termes de calcul.