La traduction par réseaux de neurones (NMT) fournit une traduction plus flexible qui s’adapte aux entrées et aux sorties de longueurs variables. Tout comme les systèmes SMT, les approches NMT peuvent être divisées en deux étapes générales. Tout d’abord, un modèle lit le texte d’entrée et le contextualise dans une structure de données qui résume l’entrée. Cette représentation contextuelle est souvent un modèle vectoriel, comme dans les modèles de bag of words, mais elle peut également prendre d’autres formes, telles que des tenseurs. Un réseau de neurones récurrent ou convolutif lit cette représentation et génère une phrase dans la langue cible.8 Plus récemment, les chercheurs se sont tournés vers les architectures de transformeur pour le NMT. Un exemple clé est mBART, un transformer entraîné sur des données multilingues pour récupérer des lacunes artificielles, puis affiné pour la traduction.9
Les approches NMT ont également adopté de grands modèles de langage (LLM). Plus précisément, plutôt que de régler un réseau de neurones ou un transformer pour la traduction, les chercheurs ont affiné les grands modèles de langage génératifs pour la traduction. Une de ces études examine les modèles GPT pour la traduction automatique. Les systèmes NMT sont constitués de l’architecture d’encodeur-décodeur décrite précédemment, entraînée sur de grandes quantités de données multilingues. Les modèles GPT, en revanche, consistent uniquement en des configurations de décodeur entraînées sur des données principalement anglaises. En testant dans plusieurs langues (comme l’anglais, le français, l’espagnol, l’allemand, le chinois et le russe), l’étude suggère que les approches hybrides des modèles NMT et GPT produisent des traductions de pointe de haute qualité.10
Cela suggère que les systèmes NMT, en particulier lorsqu’ils sont associés à des LLM et à des modèles génératifs, sont capables de mieux gérer les expressions idiomatiques et les termes hors du vocabulaire que les méthodes SMT. De plus, alors que les SMT traitent les n-grammes, les NMT traitent la phrase source complète. Il gère donc mieux les fonctionnalités linguistiques telles que la discontinuité qui nécessitent d’aborder les phrases comme des unités. Cependant, l’ambiguïté des pronoms peut rester un problème pour les NMT.11