命名实体识别 (NER),也称为实体分块或实体提取,是自然语言处理 (NLP) 的一个组件,用于识别文本正文中预定义类别的对象。
根据 2019 年的一项调查,约 64% 的公司依赖内部资源提供的结构化数据,但只有不到 18% 的公司利用非结构化数据和社交媒体评论为业务决策提供信息1。
利用 NER 进行非结构化数据提取的组织依赖于各种各样的方法,但大多数可分为三大类:基于规则的方法、机器学习方法和混合方法。
NER 自成立以来在方法论方面取得了重大进展,尤其是那些依赖于深度学习技术的进展。较新的迭代版本包括:
NER 的第一步是汇集注释文本数据集。数据集应包含命名实体已被标注或标记以表明其类型的文本示例。注释可以手动完成,也可以使用自动化方法完成。
数据集收集完毕后,应对文本进行清理和格式化。您可能需要删除不必要的字符、规范文本和/或将文本拆分为句子或标记。
在此阶段,从预处理的文本中提取相关特征。这些功能包括词性标注(POS 标注)、单词嵌入和上下文信息等。功能的选择将取决于组织使用的特定 NER 模型。
下一步是使用带注解的数据集和提取的特征训练机器学习或深度学习模型。该模型会学习识别文本中单词之间的模式和关系,及其相应的命名实体标签。
训练 NER 模型之后,应对该模型进行评估以评定其性能。您可以衡量精度、召回率和 F1 分数等指标,这些指标可以表明模型对命名实体进行识别和分类的正确程度。
根据评估结果,您将完善模型以提高其性能。这可能包括调整超参数、修改训练数据和/或使用更先进的技术(例如,集成或领域适应)。
在此阶段,您可以开始使用该模型对未见过的新文本进行推理。该模型将获取输入文本,应用预处理步骤,提取相关特征,并最终预测每个标记或文本范围的命名实体标签。
NER 模型的输出可能需要执行后处理步骤,以完善结果和/或添加上下文信息。您可能需要完成实体链接之类的任务,其中命名实体链接到知识库或数据库以进一步充实信息。
实现命名实体识别系统最简单的方法是依靠应用程序编程接口 (API)。NER API 是基于 Web 或本地的接口,可提供对 NER 功能的访问。NER API 的一些常见例子包括:
由斯坦福大学开发的 Stanford NER 是一种 Java 实施形式,被广泛认为是标准实体提取库。它依赖于 CRF,并提供用于提取命名实体的预训练模型。
SpaCy 用 Python 编写,以其速度和用户友好性而闻名,是一个高级 NLP 的开源软件库。它基于最新研究进行构建,专为与真实产品一起使用而设计。它还具有先进的统计系统,支持用户构建定制的 NER 提取器。
随着技术不断发展,NER 系统只会变得更加普遍,用以帮助各个组织理解其每天遇到的数据。到目前为止,事实证明,它对多个行业都起到了重要作用,从医疗保健和金融到客户服务和网络安全。
一些最具影响力的用例是:
NER 是从大型非结构化数据库中提取有用的结构化信息的至关重要的第一步。搜索引擎使用 NER 来提高搜索结果的相关性和精确性。
新闻聚合商使用 NER 根据文章和报道包含的命名实体对其进行分类,从而以更有条理、更高效的方式向受众展示新闻。例如,新闻应用程序的 NER 可以自动执行分类过程,将相似的新闻报道分组在一起,并提供特定新闻事件的更全面的视图。
随着社交媒体平台的激增,可用于分析的文本数据量非常庞大。NER 在社交媒体分析中发挥着重要作用,可以识别帖子和评论中的关键实体,从而了解不同主题的趋势和公众观点(尤其是有关品牌和产品的观点)。这些信息可以帮助公司进行情感分析、制定营销策略、精心设计客户服务对策并加快产品开发工作。
虚拟助手和生成式人工智能聊天机器人使用 NER 来准确理解用户请求和客户支持查询。通过识别用户查询中的关键实体,这些 AI 驱动的工具可以提供精确、针对特定上下文的响应。例如,在“Piedmont 公园附近查找灵魂料理餐厅”查询中,NER 可帮助虚拟助手将“灵魂料理”理解为菜系,将“餐厅”理解为机构类型,将“Piedmont 公园”理解为位置。
在网络安全方面,NER 可帮助公司识别网络日志和其他安全相关数据中的潜在威胁和异常。例如,它可以识别网络安全日志中可疑的 IP 地址、URL、用户名和文件名。因此,NER 可以促进更彻底的安全事件调查,并提高整体网络安全性。
NER 自诞生以来已经取得了长足的进步,不断整合创新技术,并大大扩展了其实用性。但是,在评估 NER 技术时需要考虑一些值得注意的挑战。
尽管 NER 在英语等语言方面取得了很大进展,但对于许多其他语言,它的性能表现则不同。这通常是由于这些语言中缺少标签数据。跨语言 NER 涉及将知识从一种语言转移到另一种语言,是一个活跃的研究领域,可能有助于弥合 NET 语言差距。
有时,实体也可以嵌套在其他实体中,识别这些嵌套实体可能有一定难度。例如,在“宾夕法尼亚州立大学帕克分校成立于 1855 年”这句话中,“宾夕法尼亚州立大学”和“宾夕法尼亚州立大学帕克分校”都是有效实体。
此外,虽然一般的 NER 模型可以识别名称和位置等常见实体,但可能难以识别特定于某个领域的实体。例如,在医学领域,识别疾病名称或药物名称等复杂术语可能具有挑战性。特定领域的 NER 模型可以使用专门化、领域特定的数据进行训练,但获取这些信息本身就具有挑战性。
NER 模型还可能遇到更广泛的歧义问题(例如,“Apple”可能指水果或科技公司);实体名称变体(例如,“USA”、“U.S.A.”、“United States”以及“United States of America”均指同一个国家);有限的上下文信息(文本和/或句子没有包含足够的上下文,无法准确识别实体和对其进行分类)。
尽管 NER 面临挑战,但持续的进步正在不断提高其准确性和适用性,有助于最大限度地减少现有技术差距的影响。
虽然 NER 是一个成熟的领域,但仍有许多工作要做。
展望未来,一个有前途的领域是 NER 的无监督学习技术。虽然监督学习技术表现良好,但它们需要大量标记数据,而获取这些数据可能具有挑战性。无监督学习技术不需要标记数据,可以帮助组织克服数据可用性挑战。
另一个有趣的方向是将 NER 与其他 NLP 任务的集成。例如,NER 和实体链接(涉及将实体链接到知识库中的相应条目)或 NER 和共指消解(涉及确定文本中的两个或多个表达何时指代同一实体)的联合模型可以使系统更好地理解和处理文本。
小样本学习和多模态 NER 还扩展了 NER 技术的功能。通过小样本学习,模型经过训练,只需几个示例即可执行任务,这在标记数据稀缺的情况下特别有用。另一方面,多模态 NER 涉及将文本与其他实体类型集成。例如,一幅图像或一段音频可以提供更多有助于识别实体的背景信息。
使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。
通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1数据分析和人工智能驱动型企业在 With 时代蓬勃发展,Deloitte Insights,2019 年 7 月 25 日
2用于数据提取的 3 个开源 NLP 工具,InfoWorld,2023 年 7 月 10 日