什么是自然语言处理 (NLP)?
了解 IBM 的 NLP 解决方案 订阅 AI 主题最新消息
处理人类谈话并从中学习的机器人面孔
什么是 NLP?

自然语言处理 (NLP) 将计算语言学(基于规则的人类语言建模)与统计和机器学习模型相结合,使计算机和数字设备能够识别、理解和生成文本和语音。

NLP 是人工智能 (AI) 的一个分支,是应用程序和设备的核心,可以

  • 将文本从一种语言转换成另一种语言
  • 对输入的命令或口头命令做出响应
  • 根据语音识别或验证用户
  • 对大量文本进行概括总结
  • 评估文本或语音的意图或情感
  • 按需生成文本、图形或其他内容

通常都可以实时完成。如今,在日常生活中,大多数人都会通过多种形式与 NLP 互动,如语音操作的 GPS 系统、数字助理、语音转文本听写软件、客服聊天机器人以及其他为消费者提供便利的系统。此外,NLP 在企业解决方案中也发挥着越来越大的作用,可以帮助简化和自动化业务运营、提高员工生产力并简化任务关键型业务流程。

如何选择合适的 AI 基础模型

使用此模型选择框架选择最合适的模型,同时平衡性能要求与成本、风险和部署需求。

相关内容

立即注册,获取 AI 治理白皮书

NLP 任务

人类语言充满了歧义,因此,要编写能准确确定文本或语音数据预期含义的软件非常困难。同音异义词、同音异形词、讽刺、习语、隐喻、语法和用法例外、句子结构的变化 – 这些只是人类语言中不规则现象的少数例子,我们尚且需要花费数年才能掌握,如果想让自然语言驱动的应用程序发挥作用,程序员必须让这些应用程序从一开始就能准确地识别和理解人类语言。

一些 NLP 任务可以分解人类文本和语音数据,帮助计算机理解所采集的内容。其中包括:

  • 语音识别,也称为语音转文本,是将语音数据以可靠的方式转换为文本数据的任务。任何遵循语音命令或回答口头问题的应用程序都需要语音识别功能。语音识别之所以特别具有挑战性,是因为人们说话的方式 – 语速很快,单词含糊不清,各种重音和语调,不同口音,而且经常带有语法错误。
  • 词性标注,也称为语法标注,是根据特定单词或文本的用法和上下文确定其词性的过程。词性标注将“I can make a paper plane”中的“make”识别为动词,将“What make of car do you own?”中的“make”识别为名词。
  • 词义消歧用于为多义单词选择含义,通过语义分析过程确定单词在特定上下文中最准确的意思。例如,词义消歧有助于区分动词“make”在“make the grade”(达到)和“make a bet”(做出)中的含义。
  • 命名实体识别 (NEM) 用于将单词或短语识别为有意义的实体。NEM 可将“Kentucky”识别为地点或将“Fred”识别为男士姓名。
  • 共指消解用于确定两个词是否以及何时指代同一实体。最常见的例子是确定某个代词所指的人或物体(例如,“她”=“Mary”),但它也可能涉及识别文本中的隐喻或习语(例如,“熊”不是动物,而是一个身材魁梧、毛发旺盛的人)。
  • 情感分析尝试从文本中提取主观特质 – 态度、情感、讽刺、困惑、怀疑等。
  • 自然语言生成有时被描述为语音识别或语音转文本的反向操作;它的任务是将结构化信息转换为人类语言。

请参阅博客文章NLP、NLU 与 NLG:三种自然语言处理概念之间的差异,以更深入地了解这些概念之间的关系。

现在可用:watsonx.ai

全新的企业工作室,结合了传统机器学习与由基础模型提供支持的新生成式 AI 功能。

NLP 工具和方法

Python 和 Natural Language Toolkit (NLTK)

Python 编程语言提供了广泛的工具和库,用于完成特定的 NLP 任务。其中很多工具和库都包含在 Natural Language Toolkit (NLTK) 中,该工具包提供了一系列用于构建 NLP 程序的开放源代码库、程序和教育资源。

NLTK 包含用于完成以上许多自然语言处理 (NLP) 任务的库,以及用于完成一些子任务的库,这些子任务包括句法分析、分词、词干提取和词形还原(提取单词词根的方法)和分词(将短语、句子、段落和篇章分解为有助于计算机更好地理解文本的符号)。它还包括用于实现语义推理等功能(即根据从文本中提取的事实得出逻辑结论的能力)的库。

统计 NLP、机器学习和深度学习

最早的 NLP 应用程序是手动编码、基于规则的系统,可以执行某些 NLP 任务,但无法轻松扩展以适应看似无穷无尽的异常流或不断增加的文本和语音数据量。

谈到统计 NLP,它是将计算机算法与机器学习和深度学习模型相结合,自动提取、分类和标记文本和语音数据的元素,然后为这些元素的每个可能含义分配一个统计似然值。如今,基于卷积神经网络 (CNN) 和循环神经网络 (RNN) 的深度学习模型和学习技术使 NLP 系统能够在工作时“学习”并从大量原始、非结构化和未标记的文本和语音数据集中提取更准确的含义。

要更深入地了解这些技术及其学习方法之间的细微差别,请参阅“AI vs. Machine Learning vs. Deep Learning vs. Neural Networks: What’s the Difference?

NLP 用例

在许多现代的实际应用程序中,自然语言处理是机器智能背后的驱动力量。以下是几个示例:

  • 垃圾邮件检测:您可能认为垃圾邮件检测不是一种 NLP 解决方案,但最好的垃圾邮件检测技术正是使用 NLP 的文本分类功能来扫描电子邮件,查找通常表明是垃圾邮件或网络钓鱼的语言。这些迹象可能包括过度使用金融术语、典型的语法错误、威胁性语言、不恰当的紧迫感、公司名称拼写错误等。垃圾邮件检测是专家认为为数不多的“基本已解决”的 NLP 问题之一(尽管您可能会认为这与您的电子邮件体验不符)。
  • 机器翻译:Google Translate 就是 NLP 技术得到广泛应用的一个例子。真正有用的机器翻译不仅仅是将一种语言的单词替换成另一种语言。有效的翻译必须准确捕捉输入语言的含义和语气,并将其翻译为在输出语言中具有相同含义和预期效果的文本。机器翻译工具在准确性方面取得了很大的进步。测试任何机器翻译工具的一个好方法是,先将文本翻译成一种语言,然后再翻译回原始语言。有一个经常被引用的经典例子:不久前,将“心有余而力不足”从英语翻译成俄语,然后再翻译回英语,结果是“伏特加很好,但肉坏了”。现在的翻译结果是“心里渴望,但身体力量不足”,虽然这并不完美,但提振了人们对英俄翻译的信心。
  • 虚拟代理和聊天机器人:苹果的 Siri 和亚马逊的 Alexa 等虚拟代理使用语音识别来识别语音命令和自然语言生成中的模式,以通过适当的操作或有用的意见做出回应。聊天机器人会用同样的魔法来响应键入的文本条目。其中的佼佼者还能学会识别人类请求的语境线索,并随着时间的推移利用这些线索提供更好的响应或选项。这些应用程序的下一项增强是回答问题的功能,即它们可以使用自己的话语,针对问题(无论它们是否预测到这些问题)提供有帮助的相关答案。
  • 社交媒体情感分析:NLP 已成为从社交媒体渠道中发掘隐藏数据洞察分析的重要商业工具。情感分析可以分析社交媒体帖子、回复、评论等文本中使用的语言,以提取用户对产品、促销和活动的态度和情绪 — 公司可以将这些信息用于产品设计、广告活动等。
  • 文本摘要:文本摘要利用 NLP 技术采集大量数字文本,为索引、研究数据库或没有时间阅读全文的繁忙读者创建摘要和概要。最好的文本摘要应用程序会使用语义推理和自然语言生成 (NLG) 为摘要添加有用的上下文和结论。
相关解决方案
Watson 自然语言处理解决方案

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解自然语言处理
Watson Natural Language Processing Library for Embed

利用旨在增强 IBM 合作伙伴灵活性的容器化库,将强大的自然语言 AI 融入商业应用程序。

深入了解 Watson Natural Language Processing Library for Embed
资源 生成式 AI 技术的免费实践学习

了解 AI 和生成式 AI 的基本概念,包括提示工程、大型语言模型和最佳开源项目。

借助 Watson 进行自然语言处理

通过此 NLP 讲解工具了解不同的 NLP 用例。

利用 IBM 嵌入式 AI 增强您的应用程序

访问 IBM 开发人员网站以获取博客、文章、时事通讯等。立即成为 IBM 合作伙伴,并将 IBM Watson 嵌入式 AI 融入您的商业解决方案中。将 IBM Watson NLP 库嵌入您的解决方案中。

Watson 理解您的业务语言

观看 IBM 数据与 AI 总经理 Rob Thomas 与 NLP 专家和客户的会谈,展示 NLP 技术如何优化各行各业的业务。

超越合规性,推进 AI 伦理

考虑 AI 伦理问题空前重要。

让非英语人士轻松接触到更多知识

IBM 推出了新的开源工具包 PrimeQA,旨在推动多语言问答系统的进步,让任何人都能更轻松地在网络上快速查找信息。

采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai 预约实时演示