什么是命名实体识别?

医生在医院查看病人的 CT 扫描结果

什么是命名实体识别?

命名实体识别 (NER),也称为实体分块或实体提取,是自然语言处理 (NLP) 的一个组件,用于识别文本正文中预定义类别的对象。

这些类别可包括但不限于个人、组织、地点的名称,时间和数量的表达,医疗代码,货币价值和百分比等。从本质上讲,NER 是获取一串文本(即一个句子、一个段落或整个文档),并对引用每个类别的实体进行识别和分类的过程。

"NER" 一词是在第六届信息理解会议 (MUC-6) 上提出的,其目标是简化信息提取任务,包括处理大量非结构化文本和识别关键信息。从那时起,NER 不断发展壮大,其演变很大程度上归功于机器学习深度学习技术的进步。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

NER 技术

根据 2019 年的一项调查,约 64% 的公司依赖内部资源提供的结构化数据,但只有不到 18% 的公司利用非结构化数据和社交媒体评论为业务决策提供信息1

利用 NER 进行非结构化数据提取的组织依赖于各种各样的方法,但大多数可分为三大类:基于规则的方法、机器学习方法和混合方法。

  • 基于规则的方法涉及为一种语言的语法创建一套规则。然后,根据文本的结构和语法特征,使用这些规则来识别文本中的实体。这些方法可能会耗费大量时间,而且对于未见过的数据的泛化能力也不理想。
  • 机器学习方法涉及使用条件随机场和最大熵(两种类型的复杂统计语言模型)等算法在标记数据集上训练人工智能驱动的机器学习模型。技术范围涵盖传统的机器学习方法(例如决策树和支持向量机)以及更复杂的深度学习方法,如递归神经网络 (RNN) 和转换器。这些方法对于未见过的数据具有更好的泛化能力,但它们需要大量已标记的训练数据,并且计算成本可能很高。
  • 混合方法结合了基于规则的方法和机器学习方法,以发挥两者的优势。它们可以使用基于规则的系统来快速识别易于识别的实体,也可以使用机器学习系统来识别更复杂的实体。
Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

NER 方法

NER 自成立以来在方法论方面取得了重大进展,尤其是那些依赖于深度学习技术的进展。较新的迭代版本包括:

  • 递归神经网络 (RNN)长短期记忆 (LSTM)。RNN 是一种专为序列预测问题而设计的神经网络。LSTM 是一种特殊的 RNN,可以随着时间的推移学习识别模式,并在长序列中将信息保存在“记忆”内,这使得它们对于理解上下文和识别实体特别有用。
  • 条件随机场 (CRF)。CRF 通常与 LSTM 结合使用以执行 NER 任务。它们可以对整个标签序列的条件概率进行建模,而不仅仅是对单个标签建模,因此在单词标签取决于周围单词标签的任务中非常有用。
  • 转换器和 BERT。转换器网络,尤其是 BERT(来自转换器的双向编码器表示)模型,对 NER 产生了重大影响。BERT 使用一种衡量不同单词重要性的自注意机制,通过查看单词前后的词来解释该单词的完整上下文。

NER 流程

第 1 步. 数据收集

NER 的第一步是汇集注释文本数据集。数据集应包含命名实体已被标注或标记以表明其类型的文本示例。注释可以手动完成,也可以使用自动化方法完成。

第 2 步. 数据预处理

数据集收集完毕后,应对文本进行清理和格式化。您可能需要删除不必要的字符、规范文本和/或将文本拆分为句子或标记。

第 3 步.特征提取

在此阶段,从预处理的文本中提取相关特征。这些功能包括词性标注(POS 标注)、单词嵌入和上下文信息等。功能的选择将取决于组织使用的特定 NER 模型。

第  4 步。模型训练

下一步是使用带注解的数据集和提取的特征训练机器学习或深度学习模型。该模型会学习识别文本中单词之间的模式和关系,及其相应的命名实体标签。

第 5 步.模型评估

训练 NER 模型之后,应对该模型进行评估以评定其性能。您可以衡量精度、召回率和 F1 分数等指标,这些指标可以表明模型对命名实体进行识别和分类的正确程度。

第 6 步. 模型微调

根据评估结果,您将完善模型以提高其性能。这可能包括调整超参数、修改训练数据和/或使用更先进的技术(例如,集成或领域适应)。

步骤 7.推理

在此阶段,您可以开始使用该模型对未见过的新文本进行推理。该模型将获取输入文本,应用预处理步骤,提取相关特征,并最终预测每个标记或文本范围的命名实体标签。

第 8 步.后处理

NER 模型的输出可能需要执行后处理步骤,以完善结果和/或添加上下文信息。您可能需要完成实体链接之类的任务,其中命名实体链接到知识库或数据库以进一步充实信息。

实施 NER 流程

实现命名实体识别系统最简单的方法是依靠应用程序编程接口 (API)。NER API 是基于 Web 或本地的接口,可提供对 NER 功能的访问。NER API 的一些常见例子包括:

自然语言工具包 (NLTK)

NLTK 是一个领先的开源平台,用于构建 Python 程序以处理人类语言数据。它为 100 多个经过训练的提取模型提供了易于使用的界面2。它还包括用于分类、分词、词干提取、标记、解析和语义推理的文本处理库。NLKT 有自己的分类器来识别命名实体,称为 ne_chunk,但也提供了一个包装器,用于在 Python 中使用 Stanford NER 标记器。

斯坦福命名实体识别器

由斯坦福大学开发的 Stanford NER 是一种 Java 实施形式,被广泛认为是标准实体提取库。它依赖于 CRF,并提供用于提取命名实体的预训练模型。

SpaCy

SpaCy 用 Python 编写,以其速度和用户友好性而闻名,是一个高级 NLP 的开源软件库。它基于最新研究进行构建,专为与真实产品一起使用而设计。它还具有先进的统计系统,支持用户构建定制的 NER 提取器。

NER 的应用

随着技术不断发展,NER 系统只会变得更加普遍,用以帮助各个组织理解其每天遇到的数据。到目前为止,事实证明,它对多个行业都起到了重要作用,从医疗保健和金融到客户服务和网络安全。

一些最具影响力的用例是:

信息提取

NER 是从大型非结构化数据库中提取有用的结构化信息的至关重要的第一步。搜索引擎使用 NER 来提高搜索结果的相关性和精确性。

自动新闻汇总

新闻聚合商使用 NER 根据文章和报道包含的命名实体对其进行分类,从而以更有条理、更高效的方式向受众展示新闻。例如,新闻应用程序的 NER 可以自动执行分类过程,将相似的新闻报道分组在一起,并提供特定新闻事件的更全面的视图。

社交媒体监测

随着社交媒体平台的激增,可用于分析的文本数据量非常庞大。NER 在社交媒体分析中发挥着重要作用,可以识别帖子和评论中的关键实体,从而了解不同主题的趋势和公众观点(尤其是有关品牌和产品的观点)。这些信息可以帮助公司进行情感分析、制定营销策略、精心设计客户服务对策并加快产品开发工作。

聊天机器人和虚拟助理

虚拟助手和生成式人工智能聊天机器人使用 NER 来准确理解用户请求和客户支持查询。通过识别用户查询中的关键实体,这些 AI 驱动的工具可以提供精确、针对特定上下文的响应。例如,在“Piedmont 公园附近查找灵魂料理餐厅”查询中,NER 可帮助虚拟助手将“灵魂料理”理解为菜系,将“餐厅”理解为机构类型,将“Piedmont 公园”理解为位置。

网络安全

在网络安全方面,NER 可帮助公司识别网络日志和其他安全相关数据中的潜在威胁和异常。例如,它可以识别网络安全日志中可疑的 IP 地址、URL、用户名和文件名。因此,NER 可以促进更彻底的安全事件调查,并提高整体网络安全性。

使用 NER 的挑战

NER 自诞生以来已经取得了长足的进步,不断整合创新技术,并大大扩展了其实用性。但是,在评估 NER 技术时需要考虑一些值得注意的挑战。

尽管 NER 在英语等语言方面取得了很大进展,但对于许多其他语言,它的性能表现则不同。这通常是由于这些语言中缺少标签数据。跨语言 NER 涉及将知识从一种语言转移到另一种语言,是一个活跃的研究领域,可能有助于弥合 NET 语言差距。

有时,实体也可以嵌套在其他实体中,识别这些嵌套实体可能有一定难度。例如,在“宾夕法尼亚州立大学帕克分校成立于 1855 年”这句话中,“宾夕法尼亚州立大学”和“宾夕法尼亚州立大学帕克分校”都是有效实体。

此外,虽然一般的 NER 模型可以识别名称和位置等常见实体,但可能难以识别特定于某个领域的实体。例如,在医学领域,识别疾病名称或药物名称等复杂术语可能具有挑战性。特定领域的 NER 模型可以使用专门化、领域特定的数据进行训练,但获取这些信息本身就具有挑战性。

NER 模型还可能遇到更广泛的歧义问题(例如,“Apple”可能指水果或科技公司);实体名称变体(例如,“USA”、“U.S.A.”、“United States”以及“United States of America”均指同一个国家);有限的上下文信息(文本和/或句子没有包含足够的上下文,无法准确识别实体和对其进行分类)。

尽管 NER 面临挑战,但持续的进步正在不断提高其准确性和适用性,有助于最大限度地减少现有技术差距的影响。

NER 的未来

虽然 NER 是一个成熟的领域,但仍有许多工作要做。

展望未来,一个有前途的领域是 NER 的无监督学习技术。虽然监督学习技术表现良好,但它们需要大量标记数据,而获取这些数据可能具有挑战性。无监督学习技术不需要标记数据,可以帮助组织克服数据可用性挑战。

另一个有趣的方向是将 NER 与其他 NLP 任务的集成。例如,NER 和实体链接(涉及将实体链接到知识库中的相应条目)或 NER 和共指消解(涉及确定文本中的两个或多个表达何时指代同一实体)的联合模型可以使系统更好地理解和处理文本。

小样本学习和多模态 NER 还扩展了 NER 技术的功能。通过小样本学习,模型经过训练,只需几个示例即可执行任务,这在标记数据稀缺的情况下特别有用。另一方面,多模态 NER 涉及将文本与其他实体类型集成。例如,一幅图像或一段音频可以提供更多有助于识别实体的背景信息。

相关解决方案
IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案
脚注

1数据分析和人工智能驱动型企业在 With 时代蓬勃发展,Deloitte Insights,2019 年 7 月 25 日

2用于数据提取的 3 个开源 NLP 工具,InfoWorld,2023 年 7 月 10 日