什么是机器翻译?

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

机器翻译定义

机器翻译是一种跨语言映射文本的自然语言处理 (NLP) 任务。翻译方法涵盖从简单启发式方法到大型语言模型 (LLM) 的广泛技术。

机器学习研究通常将机器翻译视为一个随机过程。1二十世纪中期诞生以来,机器翻译系统已从简单启发式算法发展到由神经网络驱动的深度学习方法。

计算机辅助翻译

机器翻译不同于计算机辅助翻译 (CAT)。后者指使用机器翻译软件或其他数字翻译工具辅助人工翻译。此类工具可以是数字词典、语法检查器或翻译记忆工具,例如常用词语言对数据库。CAT 和机器翻译之间的主要区别在于,前者的实际翻译任务是由人工完成的。

自动翻译

机器翻译与自动化翻译的区分尚无定论。有些资料将机器翻译自动翻译混用但区别于自动化翻译,而另一些资料则将前者与后两者区分。通常这些区分将机器翻译视为包含任何融合机器学习工具(特别是人工智能)的翻译方法论,因此包括 CAT。

相比之下,自动化翻译是机器翻译的一种形式,可自动化翻译工作流中的步骤,如源文本的预编辑或输出文本的后期编辑。内容管理系统通常包含翻译管理工具,以帮助自动执行常见的翻译任务。按此方式区分的资料将自动化翻译与 CAT 并列。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

翻译问题

机器翻译工具面临许多与人工翻译相同的问题。机器翻译发展涉及通过日益复杂的方法来解决这些问题,了解部分核心问题有助于把握背景。

一个核心问题是词语歧义。一个经典示例是句子:鸡肉可以吃了。此处,可以指活鸡,也可以指熟鸡肉。这是多义词和同义词如何影响翻译的一个例子。此类歧义的另一个显著例子是习语表达。例如“Beat around the bush”与灌木丛无关。代词在许多句子中也可能有歧义,特别是在孤立处理时。2

不同语言间语法规则(如句法和语法)的差异也会影响翻译。例如,德语句子中动词常出现在末尾,而英语中常出现在中间,拉丁语中词序则无关紧要。这解释了专业翻译人员采用不同翻译方法的原因。某些情况下采用逐字翻译,而其他方法旨在通过意译捕捉文本的意义和文化内涵。3

诗歌文本对准确翻译提出了独特的挑战。格律、韵律和头韵都是特别影响诗歌翻译质量的因素。4 机器翻译研究通常专注于散文文本。本概述介绍了人工翻译过程中的一些问题,这些问题在机器科技中也同样存在。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

机器翻译的类型

不存在适用于所有类型机器翻译的单一流程。系统翻译文本的方式取决于机器翻译类型。虽然研究人员研究了各种各样的系统,但以下三个系统最受欢迎

基于规则的机器翻译

顾名思义,基于规则的机器翻译(RBMT)提供一组规则,指定如何利用存储的语言信息进行翻译。例如,这可能涉及单词级语言对列表和词性标签,帮助计算机将单词组合成语法连贯的结构。用户也可创建规则集,指示计算机如何将一种语言的单词和其他文本组映射到另一种语言。5

RBMT 系统的复杂性取决于所实现的语言分析级别。文献常用名为 Vauquois 三角形的图示说明这些语言分析级别:

不同机器翻译方法的示意图

该图说明了 RBMT 的三种方法:

  • 直接翻译。此方法通常使用预定义词典生成源文本的逐字翻译。此后通过一系列规则尝试将输出文本重新排序为目标语言的词序。这些规则不涉及源文本或目标文本的任何句法分析。

  • 转换法。此方法采用有限程度的句法分析。此类分析的常用方法包括词性标注、词义消歧和形态分析(如用于词形还原)。通过这些操作,系统可利用源语言和目标语言的语言知识,生成比直接方法更地道、更少直译的译文。

  • 中间语言。此方法在源文本和翻译文本间使用形式化的中间表示。该中间表示本质上是通过形态分析在转换系统中产生的表示的更抽象版本。系统将源文本编码为这种抽象的人工语言,然后解码为目标语言。6

为有效适应实际案例,RBMT 方法需要大型词典。此外,自然语言并不遵循一套一成不变的规则——在一种文化、时期或方言中允许使用的规则,在另一种文化、时期或方言中并不适用。鉴于自然语言不断增长且多变的特性,RBMT 并不能提供全面的机器翻译解决方案。基于统计的翻译方法是适应语言不断变化性质的一种尝试。

统计机器翻译

统计机器翻译 (SMT) 是一种利用语言对的训练数据构建统计模型的方法。SMT 训练数据集由一种语言中的单词或 n-gram 与一种或多种语言中的相应单词和 n-gram 组成。基于此数据,SMT方法构建两个机器学习模型,将翻译过程分为两个阶段。

第一个模型是翻译模型。它使用训练数据来学习具有概率分布的语言对。当给定源语言的 n-gram 时,该模型会输出可能的目标语言 n-gram 及其概率值。这些值基于模型从训练数据中学到的内容,指示目标 n-gram 是源 n-gram 适当翻译的可能性。例如,对于源语言 tri-gram mihi canes placent,拉丁语与英语翻译模型可能会生成以下输出:

拉丁文 mihi canes placent 的译文对照表

在此假设输出中,模型预测拉丁短语 mihi canes placent 的可能英语译文。英语 I like dogs 的概率值最高,为 0.8。这意味着基于模型从拉丁语与英语配对中学到的内容,此为最佳英语译文的可能性为 80%。

第二个模型是目标语言的单语模型。该模型本质上预测翻译模型的 n-gram 输出在目标语言中出现的可能性。例如,以翻译模型中假设的 I like dogs 输出为例。单语模型根据提供的英语训练数据预测dogs出现在I like之后的概率。这样,单语模型可视为是一种随机的译后编辑方法,旨在确认翻译的意义和适当性。7

虽然 SMT 改进了基于规则的方法,但它存在许多机器学习模型的常见问题。例如, 训练数据过拟合欠拟合。前者尤其会阻碍 SMT 系统处理词汇表之外的术语、习语和不同词序的能力。SMT 系统预处理固定长度为 n 个单词的文本序列。

神经机器翻译

神经网络翻译 (NMT) 提供更灵活的翻译,可适应不同长度的输入和输出。与 SMT 系统非常相似,NMT 方法可分为两个常规步骤。首先,模型读取输入文本,并将输入文本上下文放在一个数据结构中,对输入内容进行总结。这种上下文表示通常是向量模型(如Bag of words模型),但也可以采用张量等其他形式。递归神经网络或卷积神经网络读取这种表示并生成目标语言的句子。8最近,研究人员开始采用转换器架构进行神经机器翻译。一个关键示例是 mBART,这是一种在多语言数据上训练的转换器,用于恢复人工缺陷,然后对译文进行微调。9

NMT 方法也采用了大型语言模型 (LLM)。具体来说,研究人员探索的不是微调神经网络或转换器进行翻译,而是提示生成大型语言模型进行翻译。其中一项研究检验了用于机器翻译的 GPT 模型。NMT系统由前述在大量多语言数据上训练的编码器-解码器架构组成。相比之下,GPT模型仅由主要在英语数据上训练的解码器设置组成。跨多种语言(包括英语、法语、西班牙语、德语、中文和俄语)的测试表明,NMT 和 GPT 模型的混合方法可产生高质量、一流的译文。10

这表明 NMT 系统,特别是与 LLM 和生成式模型结合时,能够比 SMT 方法更好地处理习语表达和词汇表外的术语。此外,SMT 处理 n-gram,而 NMT 处理完整的源语句。因此,它可以更好地处理语言特征,例如需要将句子作为单元处理的不连续性。代词歧义可能仍然是 NMT 的问题。11

用例

机器翻译服务随处可见,其中一个基于神经元的机器翻译引擎是 IBM 的 Watson Language Translator

机器翻译可以帮助跨越语言障碍的一个关键领域是语音到语音翻译,而且可能是实时翻译。最近的研究已经探索了自动语音识别和基于转换器的 NMT 在语音到语音翻译中的联合应用,并取得了积极的成果。12 因为语音翻译系统通常需要先转录语音,然后翻译生成的文本。最近一项研究探讨了在多模态翻译的预处理过程中将语音和文本连接起来的方法,并取得了令人鼓舞的结果。13

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案
脚注

1 Miles Osborne, “Statistical Machine Translation,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

2 Philipp Koehn, Neural Machine Translation, Cambridge University Press, 2020.

3 Thierry Poibeau, Machine Translation, MIT Press, 2017.

4 Translating poetry essay

5 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

6 Thierry Poibeau, Machine Translation, MIT Press, 2017.

7 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

8 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

9 Yinhan Liu, Jiatao Gu, Naman Goyal, Xian Li, Sergey Edunov, Marjan Ghazvininejad, Mike Lewis, and Luke Zettlemoyer, “Multilingual Denoising Pre-training for Neural Machine Translation,” Transactions of the Association for Computational Linguistics, Vol. 8, 2020, https://aclanthology.org/2020.tacl-1.47/ (ibm.com 外部链接)。

10 Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr, Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, and Hany Hassan Awadalla, “How Good Are GPT Models at Machine Translation? A Comprehensive Evaluation,” https://arxiv.org/abs/2302.09210 (link resides outside of ibm.com).

11 Dorothy Kenny, “Human and machine translation,” Machine translation for everyone: Empowering users in the age of artificial intelligence, Language Science Press, 2022.

12 Yi Ren, Jinglin Liu, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, and Tie-Yan Liu, “SimulSpeech: End-to-End Simultaneous Speech to Text Translation,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, https://aclanthology.org/2020.acl-main.350/ (ibm.com 外部链接)。Parnia Bahar, Patrick Wilken, Tamer Alkhouli, Andreas Guta, Pavel Golik, Evgeny Matusov, and Christian Herold, “Start-Before-End and End-to-End: Neural Speech Translation by AppTek and RWTH Aachen University,” Proceedings of the 17th International Conference on Spoken Language Translation, 2020, https://aclanthology.org/2020.iwslt-1.3/ (ibm.com 外部链接)。

13 Linlin Zhang, Kai Fan, Boxing Chen, and Luo Si, “A Simple Concatenation can Effectively Improve Speech Translation,” Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-short.153/ (ibm.com 外部链接)。