Qu’est-ce que la traduction automatique ?

Auteur

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

Définition de la traduction automatique

La traduction automatique est une tâche de traitement automatique du langage naturel (NLP) permettant de mapper du texte dans plusieurs langues. Les méthodes de traduction vont de la simple heuristique aux grands modèles de langage (LLM).

Les recherches en matière de machine learning abordent souvent la traduction automatique comme un processus stochastique.1 Depuis sa création au milieu du XXe siècle, les systèmes de traduction automatique sont passés de simples algorithmes heuristiques à des approches d’apprentissage profond alimentées par des réseaux de neurones.

Traduction assistée par ordinateur

La traduction automatique est distincte de la traduction assistée par ordinateur (TAO). Ce dernier terme désigne l’utilisation de logiciels de traduction automatique ou d’autres outils de traduction numérique pour aider les traducteurs humains. Il peut s’agir d’un dictionnaire numérique, d’un vérificateur de grammaire ou d’un outil de mémoire de traduction, tel qu’une base de données de paires de langues pour les mots courants. La différence essentielle entre la TAO et la traduction automatique réside dans le fait que, dans la première, la traduction proprement dite est effectuée par des humains.

Traduction automatisée

La distinction entre la traduction automatique et la traduction automatisée est indéfinie. Certaines sources utilisent la traduction automatique et la traduction automatisée de manière interchangeable, mais les distinguent de la traduction automatisée, tandis que d’autres distinguent la première des deux dernières. En général, ces distinctions considèrent que la traduction automatique englobe toute méthodologie de traduction qui incorpore des outils de machine learning, en particulier l’intelligence artificielle, et inclut donc la TAO.

La traduction automatisée, en revanche, est une forme de traduction automatique qui automatise les étapes d’un workflow, comme la pré-édition du texte source ou la post-édition de la production. Les systèmes de gestion de contenu peuvent souvent inclure des outils de gestion des traductions pour automatiser les tâches de traduction courantes. Les sources qui font cette distinction associent la traduction automatique à la TAO.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Problèmes de traduction

Les outils de traduction automatique sont confrontés à peu près aux mêmes problèmes que la traduction humaine. Les développements de la traduction automatique impliquent des méthodes de plus en plus sophistiquées pour face face à ces problèmes, un aperçu de certains problèmes centraux est utile pour le contexte.

L’un des principaux problèmes est l’ambiguïté des mots. La phrase « The chicken is ready to eat » est un exemple illustratif classique. Ici, le terme chicken peut désigner l’animal vivant ou sa viande cuite. C’est un exemple de la façon dont les mots polysémiques et synonymes affectent la traduction. Les expressions idiomatiques sont un autre exemple notable d’une telle ambiguïté. « Beat around the bush », par exemple, n’a rien à voir avec les buissons. Les pronoms peuvent également rester ambigus dans de nombreuses phrases, en particulier lorsqu’ils sont traités indépendamment.2

Les modifications des règles linguistiques, telles que la syntaxe et la grammaire, entre les différentes langues affectent également la traduction. Par exemple, les verbes allemands peuvent souvent apparaître en fin de phrase, alors qu’ils apparaissent souvent au milieu en anglais, tandis que l’ordre des mots n’a pas d’importance en latin. Cela explique les différences dans les méthodes de traduction entre les traducteurs professionnels. Dans certains cas, la traduction se fait mot à mot, tandis que d’autres approches visent à saisir le sens et l’importance culturelle du texte par le biais de traductions libres.3

Les textes poétiques posent un défi unique à la création de traductions précises. Le mètre, le rime et l’allitération sont autant de préoccupations qui affectent de manière unique la qualité de la traduction poétique.4 La recherche en traduction automatique se concentre généralement sur le texte en prose. Cet aperçu présente certaines des préoccupations liées au processus de traduction humaine qui existent également dans la technologie de traduction automatique.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types de traduction automatique

Il n’existe pas de processus unique pour tous les types de traduction automatique. La manière dont un système traduit le texte dépend du type de traduction automatique. Les chercheurs examinent une grande variété de systèmes, mais les trois suivants sont parmi les plus populaires

Traduction automatique basée sur des règles

Comme son nom l’indique, la traduction automatique basée sur des règles (RBMT) fournit un ensemble de règles qui précisent comment tirer parti des informations linguistiques stockées pour la traduction. Par exemple, il peut s’agir d’une liste de paires de langues au niveau des mots et d’étiquettes de parties du discours qui aident l’ordinateur à combiner les mots en structures grammaticalement cohérentes. L’utilisateur peut ensuite créer un ensemble de règles qui indiquent à l’ordinateur comment les mots et autres groupes textuels d’une langue s’associent à ceux d’une autre.5

La complexité des systèmes RBMT dépend du niveau d’analyse linguistique mis en œuvre. La littérature illustre souvent ces niveaux d’analyse linguistique avec un diagramme appelé triangle de Vauquois :

diagramme des différentes approches de la traduction automatique

Ce diagramme illustre trois approches de la RBMT :

  • Traduction directe. Cette approche utilise généralement un dictionnaire prédéfini pour générer des traductions mot à mot du texte source. Après cette étape, une série de règles tentent de réorganiser le texte de sortie dans l’ordre des mots de la langue cible. Ces règles n’impliquent aucune analyse syntaxique des textes sources ou cible.

  • Transférer. Cette approche adopte un degré limité d’analyse syntaxique. Les méthodes courantes d’analyse de ce type comprennent l’étiquetage des parties du discours, la désambiguïsation du sens des mots et l’analyse morphologique (telle qu’elle est utilisée dans la lemmatisation). Grâce à elles, le système peut utiliser la connaissance linguistique des langues source et cible pour générer des traductions plus idiomatiques et moins littérales que les approches directes.

  • Interlingua. Cette approche utilise une représentation intermédiaire formalisée et artificielle entre les textes sources et traduits. Cet intermédiaire est, essentiellement, une version encore plus abstraite que celle produite dans les systèmes de transfert par analyse morphologique. Le système code le texte source dans ce langage artificiel abstrait, qu’il décode ensuite dans le langage cible.6

Pour une prise en charge efficace des cas réels, les approches RBMT nécessitent de grands dictionnaires. De plus, les langues naturelles ne suivent pas un ensemble de règles immuables : une est autorisée dans une culture, une période ou un dialecte ne s’applique pas linguistiquement à une autre. Compte tenu de la nature changeante et changeante des langages naturels, la RBMT n’offre pas de solution complète à la traduction automatique. Les méthodes de traduction basées sur les statistiques constituent une tentative pour s’adapter à la nature en constante évolution du langage.

Traduction automatique statistique

La traduction automatique statistique (SMT) est une approche qui construit des modèles statistiques à partir des données d’entraînement des paires de langues. Un jeu de données d’entraînement SMT se compose de mots ou de n-grammes dans une langue associés aux mots et n-grammes correspondants dans une ou plusieurs langues. À partir de ces données, l’approche SMT construit deux modèles de machine learning qui divisent le processus de traduction en deux étapes.

Le premier modèle est un modèle de traduction. Il utilise les données d’apprentissage pour apprendre des paires linguistiques avec des distributions de probabilité. Lorsqu’un n-gramme est fourni dans le langage source, le résultat du modèle produit des n-grammes de langage cible potentiels avec des valeurs de probabilité. Ces valeurs indiquent la probabilité, sur la base de ce que le modèle a appris grâce aux données d’apprentissage, que le n-gramme cible soit une traduction appropriée du n-gramme source. Par exemple, un modèle de traduction latino-anglais peut produire cette sortie pour le trigramme source mihi canes placent :

tableau comparant la traduction de la traduction des canes latin mihi placent

Dans cette sortie hypothétique, le modèle prédit les traductions anglaises potentielles pour l’expression latine mihi canes placent. L’anglais I like dogs a la valeur de probabilité la plus élevée, soit 0,8. Cela signifie que, sur la base de ce que le modèle a appris grâce aux combinaisons latino-anglais, il est probable à 80 % qu’il s’agisse de la meilleure traduction en anglais.

Le deuxième modèle est un modèle monolingue pour la langue cible. Ce modèle prédit essentiellement la probabilité que les sorties en n-gramme du modèle de traduction apparaissent dans la langue cible. Par exemple, prenons la sortie hypothétique « I like dogs » de notre modèle de traduction. Le modèle monolingue prédit la probabilité que dog apparaissent après I like en fonction des données de dressage en anglais fournies. Ainsi, le modèle monolingue peut être considéré comme une approche stochastique de la post-édition qui vise à confirmer le sens et la pertinence d’une traduction.7

Bien que le SMT améliore les méthodes basées sur des règles, il présente de nombreux problèmes communs aux modèles de machine learning. Par exemple, un surajustement ou un sous-ajustement des données d’entraînement. Le premier peut particulièrement entraver la capacité d’un système SMT d’adresse les termes hors du vocabulaire, les expressions idiomatiques et les différents ordres de mots. Les systèmes SMT prétraitent les séquences de texte dans des longueurs fixes de n mots.

Traduction automatique neuronale

La traduction par réseaux de neurones (NMT) fournit une traduction plus flexible qui s’adapte aux entrées et aux sorties de longueurs variables. Tout comme les systèmes SMT, les approches NMT peuvent être divisées en deux étapes générales. Tout d’abord, un modèle lit le texte d’entrée et le contextualise dans une structure de données qui résume l’entrée. Cette représentation contextuelle est souvent un modèle vectoriel, comme dans les modèles de bag of words, mais elle peut également prendre d’autres formes, telles que des tenseurs. Un réseau de neurones récurrent ou convolutif lit cette représentation et génère une phrase dans la langue cible.8 Plus récemment, les chercheurs se sont tournés vers les architectures de transformeur pour le NMT. Un exemple clé est mBART, un transformer entraîné sur des données multilingues pour récupérer des lacunes artificielles, puis affiné pour la traduction.9

Les approches NMT ont également adopté de grands modèles de langage (LLM). Plus précisément, plutôt que de régler un réseau de neurones ou un transformer pour la traduction, les chercheurs ont affiné les grands modèles de langage génératifs pour la traduction. Une de ces études examine les modèles GPT pour la traduction automatique. Les systèmes NMT sont constitués de l’architecture d’encodeur-décodeur décrite précédemment, entraînée sur de grandes quantités de données multilingues. Les modèles GPT, en revanche, consistent uniquement en des configurations de décodeur entraînées sur des données principalement anglaises. En testant dans plusieurs langues (comme l’anglais, le français, l’espagnol, l’allemand, le chinois et le russe), l’étude suggère que les approches hybrides des modèles NMT et GPT produisent des traductions de pointe de haute qualité.10

Cela suggère que les systèmes NMT, en particulier lorsqu’ils sont associés à des LLM et à des modèles génératifs, sont capables de mieux gérer les expressions idiomatiques et les termes hors du vocabulaire que les méthodes SMT. De plus, alors que les SMT traitent les n-grammes, les NMT traitent la phrase source complète. Il gère donc mieux les fonctionnalités linguistiques telles que la discontinuité qui nécessitent d’aborder les phrases comme des unités. Cependant, l’ambiguïté des pronoms peut rester un problème pour les NMT.11

Cas d’utilisation

Les services de traduction automatique sont largement disponibles, et l’un des moteurs de traduction automatique basés sur les neurones est Watson Language Translator d’IBM.

Un domaine clé dans lequel la traduction automatique peut aider à surmonter les barrières linguistiques est la traduction vocale, potentiellement en temps réel. Des études récentes ont découvert les applications de la reconnaissance vocale automatique et des NMT basés sur des transformateurs pour la reconnaissance vocale, avec des résultats positifs.12 Parce que les systèmes de traduction vocale nécessitent généralement de transcrire la parole puis de traduire le texte résultant. Une étude récente examine la concaténation de la parole et du texte lors du prétraitement pour une traduction multimodale avec des résultats prometteurs.13

Solutions connexes
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP
Notes de bas de page

1 Miles Osborne, « Statistical Machine Translation », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Philippines Koehn, Neural Machine Translation, Cambridge University Press, 2020.

3 Thierry Poibeau, Machine Translation, MIT Press, 2017.

4 Translating poetry essay

5 Dorothy Kenny, « Human and machine translation », Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

6 Thierry Poibeau, Machine Translation, MIT Press, 2017.

7 Dorothy Kenny, « Human and machine translation », Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

8 Ian Goodfellow, Yoshua Bengio, et Aaron Courville, Deep Learning, MIT Press, 2016.

9 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer, « Multilingual Denoising Pre-training for Neural Machine Translation, » Transactions of the Association for Computational Linguistics, Vol. 8, 2020, https://aclanthology.org/2020.tacl-1.47/ (lien externe à ibm.com).

10 Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla, « How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation », https://arxiv.org/abs/2302.09210 (lien externe à ibm.com).

11 Dorothy Kenny, « Human and machine translation », Machine Translation for everything: Empowering Users in the age of artificial intelligence, Language Science Press, 2022.

12 Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, et Tie-Yan Liu, « SimulSpeech: End-to-End Simultaneous Speech to Text Translation », Proceedings of the 58th Annual Meeting of the Association for Computational Language, 2020, https://aclanthology.org/2020.acl-main.350/ (lien externe à ibm.com). Parnia Bahar, Patrick Wilken, Tamer Alkhouli, Andreas Guta, Pavel Golik, Evgeny Matusov, et Christian Herold, « Start-Before-End and End-to-End: Neural Speech Translation by AppTek and RWTH Aachen University, » Proceedings of the 17th International Conference on Spoken Language Translation, 2020, https://aclanthology.org/2020.iwslt-1.3/ (lien externe à ibm.com).

13 Linlin Zhang, Kai Fan, Boxing Chen, et Luo Si, « A Simple Contedation can Effectively Speech Translation », Proceedings of the 61st Annual Meeting of the Association for Computational Language, 2023, https://aclanthology.org/2023. acl-short.153/ (lien externe à ibm.com).