更新日期:2024 年 6 月 6 日
撰稿人:Jim Holdsworth
自然语言处理 (NLP) 是计算机科学和人工智能 (AI) 的一个子领域,它使用机器学习使计算机能够理解人类语言并与之交流。
NLP 通过将计算语言学(基于规则的人类语言建模)与统计建模、机器学习 (ML) 和深度学习相结合,使计算机和数字设备能够识别、理解和生成文本和语音。
NLP 研究开启了生成式 AI 时代,这涵盖了从大型语言模型 (LLM) 的沟通技巧到图像生成模型理解请求的能力。NLP 已经成为许多人日常生活的一部分,其应用场景包括为搜索引擎提供支持,通过语音命令提示聊天机器人以进行客户服务、语音操作的 GPS 系统和智能手机上的数字助理。
此外,NLP 在企业解决方案中也发挥着越来越大的作用,可以帮助简化和自动化业务运营、提高员工生产力并简化任务关键型业务流程。
使用此模型选择框架选择最合适的模型,同时平衡性能要求与成本、风险和部署需求。
立即注册,获取 AI 治理白皮书
自然语言处理系统可以快速有效地工作:在对 NLP 模型进行适当训练后,它可以承担管理任务,让员工腾出时间从事更富有成效的工作。优势包括:
更快的洞察发现:组织可以发现不同内容之间隐藏的模式、趋势和关系。文本数据检索可支持更深入的洞察和分析,从而做出更明智的决策并提出新的业务想法。
节省更多预算:借助大量可用的非结构化文本数据,NLP 可用于自动收集、处理和组织信息而几乎无需手动操作。
快速访问企业数据: 企业可以建立组织信息知识库,以便通过 AI 搜索高效访问。对于销售代表而言,NLP 可以帮助快速返回相关信息,改善客户服务并帮助完成销售。
NLP 模型并不完美,而且可能永远不会完美,就像人类语音容易出错一样。风险可能包括:
有偏见的训练:与任何 AI 功能一样,训练中使用的有偏见的数据会使答案产生偏差。NLP 功能的用户越多样化,这种风险就越大,例如在政府服务、医疗保健和人力资源互动中。例如,从网络上获取的训练数据集很容易带有偏见。
曲解:与编程一样,存在“垃圾进,垃圾出”(GIGO) 的风险。如果语音输入是晦涩的方言、含糊不清、充满俚语、同音异义词、语法不正确、习语、片段、发音错误、缩写或在背景噪音太强的情况下录制,NLP 解决方案可能会困惑。
新词汇:新词不断被发明或引进。语法习惯可能会演变,也可能被故意打破。在这些情况下,NLP 要么尽力去猜测,要么承认自己不确定 - 无论哪种方式,都会造成复杂化。
语调:当人们说话时,他们语言要表达的意思或肢体语言所表达的含义可能与字面的言辞完全不同。为了表达效果而夸大其词、为了强调重要性而强调单词或讽刺可能会被 NLP 混淆,从而使语义分析变得更加困难且不太可靠。
人类语言充满了许多歧义,这使得程序员很难编写能够准确确定文本或语音数据预期含义的软件。人类学习语言可能需要数年时间,而且许多人从未停止过学习。但是,程序员必须教会自然语言驱动的应用程序识别和理解不规则语法现象,这样他们的应用程序才能准确和有用。
NLP 将计算语言学的强大功能与机器学习算法和深度学习相结合。计算语言学是一门使用数据科学来分析语言和语音的语言学学科。它包括两种主要类型的分析:句法分析和语义分析。句法分析通过解析单词的语法并应用预先编程的语法规则来确定单词、短语或句子的含义。语义分析使用句法输出从单词中提取含义,并在句子结构中解释它们的含义。
单词的解析可以采用两种形式之一。依赖关系解析着眼于单词之间的关系,例如识别名词和动词,然后成分分析会生成解析树(或语法树):句子或单词串的句法结构的寻根和有序表示。生成的解析树是语言翻译器和语音识别功能的基础。理想情况下,这种分析使输出(文本或语音)可为 NLP 模型和人所理解。
自监督学习 (SSL) 对于支持 NLP 特别有用,因为 NLP 需要大量标记数据来训练最先进的人工智能 (AI) 模型。由于这些标记的数据集需要耗时的注释(该过程涉及人工标记),因此收集足够的数据可能非常困难。自监督方法可以更省时,更具成本效益,因为它们替代了部分或全部需要手动标记的训练数据。
三种不同的 NLP 方法包括:
基于规则的 NLP:最早的 NLP 应用是简单的“if-then”决策树,需要预编程规则。他们只能根据特定提示提供答案,例如 Moviefone 的原始版本。由于基于规则的 NLP 没有机器学习或 AI 功能,因此该功能非常有限且不可扩展。
统计 NLP:统计 NLP 是较晚发展起来的,它能自动提取、分类和标记文本和语音数据中的元素,然后为这些元素的每种可能含义分配统计可能性。这依赖于机器学习,能够进行复杂的语言学细分,如语音部分标记。
统计 NLP 引入了将语言元素(例如单词和语法规则)映射到向量表示的基本技术,以便可以使用数学(统计)方法(包括回归或马尔可夫模型)对语言进行建模。这为早期的 NLP 开发提供了信息,例如拼写检查器和 T9 短信(使用 9 个键的文本,用于按键式电话)。
深度学习 NLP:最近,深度学习模型已成为 NLP 的主导模式,通过使用大量原始、非结构化数据(文本和语音)来变得更加准确。深度学习可以看作是统计 NLP 的进一步发展,不同之处在于它使用神经网络模型。模型有几个子类别:
要更深入地了解这些技术及其学习方法之间的细微差别,请参阅“人工智能 vs. 机器学习 vs. 深度学习 vs. 神经网络:有什么区别?”
一些 NLP 任务通常有助于处理人类文本和语音数据,从而帮助计算机理解它所摄取的内容。其中一些任务包括:
语言任务
用户支持任务
请参阅博客文章“NLP、NLU 与 NLG:三种自然语言处理概念之间的差异”,以更深入地了解这些概念之间的关系。
全新的企业开发平台,将传统机器学习与由基础模型提供支持的生成式 AI 新功能融合在一起。
组织可以使用 NLP 来处理电子邮件、短信、音频、视频、新闻源和社交媒体等通信。在许多现代现实世界应用中,NLP 是 AI 背后的推动力。以下是几个示例:
Python 编程语言为执行特定的 NLP 任务提供了广泛的工具和库。这些 NLP 工具中有许多位于自然语言工具包 (NLTK) 中,这是一个用于构建 NLP 程序的库、程序和教育资源的开源集合。
NLTK 包含用于完成许多 NLP 任务和子任务的库,这些任务和子任务包括句法分析、分词、词干提取和词形还原(提取单词词根的方法)和分词(将短语、句子、段落和篇章分解为有助于计算机更好地理解文本的符号)。它还包括用于实现语义推理等功能(即根据从文本中提取的事实得出逻辑结论的能力)的库。
使用 NLTK,组织可以看到词性标注的产物。标注单词可能看起来并不复杂,但是单词会因使用位置而具有不同含义,因此该过程实际很复杂。
企业可以利用用户友好的生成式 AI 平台将 NLP 的强大功能注入其数字解决方案中,此类平台包括 IBM® Watson NLP Library for Embed,这是一个旨在为 IBM 合作伙伴提供更强大 AI 功能的容器化库。开发人员可以在自己选择的环境中访问该解决方案,并将其集成到应用程序中,从而创建具有强大 AI 模型、广泛语言覆盖范围和可扩展容器编排的企业级解决方案。
更多选项包括 IBM® watsonx.ai AI Studio,它支持多种选项来制作模型配置,支持一系列 NLP 任务,包括问答、内容生成和摘要、文本分类和提取。集成还可以实现更多的 NLP 功能。例如,借助 watsonx 和 Hugging Face,AI 构建器可以使用预训练模型来支持一系列 NLP 任务。
通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。
利用旨在增强 IBM 合作伙伴灵活性的容器化库,将强大的自然语言 AI 融入商业应用程序。
了解 AI 和生成式 AI 的基本概念,包括提示工程、大型语言模型和最佳开源项目。
通过此 NLP 讲解工具了解不同的 NLP 用例。
访问 IBM 开发人员网站以获取博客、文章、时事通讯等。立即成为 IBM 合作伙伴,并将 IBM Watson 嵌入式 AI 融入您的商业解决方案中。在您的解决方案中使用 IBM Watson NLP Library for Embed。
观看 IBM 数据与 AI 总经理 Rob Thomas 与自然语言处理 (NLP) 专家和客户的会谈,展示自然语言处理 (NLP) 技术如何优化各行各业的业务。
通过示例请求和指向其他资源的链接了解自然语言理解 API。
IBM 推出了新的开源工具包 PrimeQA,旨在推动多语言问答系统的进步,让任何人都能更轻松地在网络上快速查找信息。