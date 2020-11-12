虽然自然语言处理（NLP）、自然语言理解（NLU）和自然语言生成（NLG）是相互关联的领域，但它们本质上是不同的概念。从宏观层面看，NLU 和 NLG 只是 NLP 的组成部分。由于这些概念之间存在交叉，在日常交流中经常被混淆。本文将分别定义每个术语，并通过总结它们之间的差异来澄清任何模糊之处。
自然语言处理 是从计算语言学演变而来的，它使用计算机科学、人工智能、语言学和数据科学等不同学科的方法，使计算机能够理解书面与口头形式的人类语言。计算语言学更关注语言本身的特性，而自然语言处理则着重采用机器学习和深度学习技术来完成机器翻译、智能问答等任务。自然语言处理通过将非结构化数据转化为结构化数据格式来实现其功能。具体而言，系统通过识别命名实体（该过程称为命名实体识别）和词汇模式来实现这一目标，其中运用了 token 化、词干提取和词形还原等技术来追溯词汇的原生形态。例如："called"通过后缀-ed表示过去时态，但其与现在分词"calling"拥有相同的不定式词根（to call）。
虽然存在多种 NLP 算法，但不同类型的语言任务往往会采用不同的方法。例如：隐马尔可夫链常用于词性标注。循环神经网络有助于生成适当的文本序列。N-gram 作为一种简单的语言模型，通过为句子或短语分配概率来预测回答的准确性。这些技术共同支撑了流行技术的实现，如聊天机器人，或像亚马逊 Alexa 和苹果 Siri 这样的语音识别产品。然而，其应用范围远不止于此，还影响了教育和医疗等其他行业。
自然语言理解是自然语言处理的一个子集，它通过对文本和语音进行句法和语义分析来确定句子的含义。句法指的是句子的语法结构，而语义则暗示其预期含义。NLU 还建立了相关的本体：一种规定单词和短语之间关系的数据结构。虽然人类在对话中自然会这样做，但机器需要结合这些分析才能理解不同文本的预期含义。
我们区分同音异义词和同形异义词的能力很好地说明了语言的微妙之处。例如，请看以下两个句子：
在第一个句子中，"current" 是一个名词。它前面的动词 "swimming" 为读者提供了额外的上下文，使我们可以得出结论：这里指的是海洋中的水流。第二个句子也使用了 "current"，但作为形容词。它描述的名词 "version" 表示报告有多个版本，使我们能够确定这里指的是文件的最新状态。
这些方法也常用于数据挖掘中以了解消费者态度。特别是，情感分析使品牌能够更密切地监控客户反馈，使他们能够聚类正面和负面的社交媒体评论，并跟踪净推荐值。通过审查带有负面情绪的评论，公司能够更快地识别并解决其产品或服务中的潜在问题领域。
自然语言生成是自然语言处理的另一个子集。自然语言理解侧重于机器的阅读理解能力，而自然语言生成则赋予机器书写表达能力。NLG 是基于数据输入生成人类语言文本响应的过程。生成的文本还可通过语音合成服务转换为语音格式。
NLG 同样包含文本摘要能力，能够从输入文档中生成摘要同时保持信息完整性。提取式摘要正是驱动"That’s Debatable"中关键点分析功能的 AI 创新技术。
早期 NLG 系统采用模板生成文本。基于特定数据或查询，NLG 系统会像填词游戏般完成文本填充。但随着技术演进，隐马尔可夫链、循环神经网络和 Transformer 架构的应用使得自然语言生成系统能够实现更动态的实时文本生成。
与 NLU 类似，NLG 应用程序需要考虑基于词法、词典、句法和语义的语言规则，以选择最恰当的表述方式。这一过程包含三个阶段：
自然语言处理及其子技术在现代社会拥有广泛的应用场景，涵盖医疗诊断、在线客服等诸多领域。
