信息提取 (IE) 是从半结构化或非结构化文本数据中提取结构化信息,并将人类语言文本源(如 PDF)转换为经整理、可搜索和机器可读的格式的自动化过程。自然语言处理 (NLP) 依赖于信息提取来识别输入文本中的重要数据。
信息提取算法可以识别实体,包括名称、关系、事件、情绪等,然后将它们分类并存储在数据库中以供后续使用。生成的结构化信息具有标准化格式,通常以标识其属性的行和列的形式存储。标准化存储是结构化数据和非结构化数据的主要区别。
同一数据库中的所有数据值都遵循相同的结构化格式,并具有相同的定义属性。关系属性也会被强调,以便根据共享属性将数据库连接在一起。
信息提取使企业能够将文档转换为可操作的数据集并从中产生有价值的洞察分析。IE 推动的智能文档处理市场预计将从 2024 年的 23 亿美元开始,以 33.1% 的复合年增长率 (CAGR) 增长到 2030 年。1
信息提取系统为自动信息检索奠定了基础:使用人工智能 (AI) 算法从知识库中自动查找和检索相关数据。信息检索是检索增强生成 (RAG) 的重要组成部分,通过该过程,大型语言模型 (LLM) 可以获取更多数据,以便在特定领域的用例中实现高精度。
RAG 可以使 LLM 聊天机器人在应用于问答任务时更加准确,因为 LLM 可以利用其训练数据之外的更多知识来生成更好的答案。
业务领导者可以使用提取的信息来实时做出数据驱动的决策。IE 是更大的信息处理周期中的一个初步阶段,在此阶段,信息被获取、组织、存储、处理并可供使用。
数据管道为企业提供信息,将输入点(例如在线订单)连接到数据库。从那里,数据可视化工具利用这些数据实时创建图表和图形,揭示可操作的洞察分析,推动战略决策。
IE 系统输出的大型结构化数据集可用于创建报告和摘要。IE 的机器学习算法还可以执行文本摘要,将详细文档压缩为带有注释的可快速理解的摘要项,以便快速参考。
例如,医疗保健领域的 IE 可以自动从多个文件汇编患者报告,从而使医生更容易诊断问题并开出治疗方案。财务专业人员可以利用从多个报告、新闻文章和其他来源提取的信息生成更准确的预测。
信息提取任务根据被识别和标记的信息类型进行分类。IE 系统可处理的任务包括:
命名实体是在非结构化数据中识别命名实体的 IE 任务。命名实体是现实世界中可以唯一识别的对象。本质上,它们是数据的专有名词。命名实体包括人物、日期、公司、地点和产品,可以是物理的,也可以是抽象的。
在句子“As of January 2025, Arvind Krishna is the CEO of IBM”中,命名实体包括 January 2025、Arvind Krishna、CEO 和 IBM。
实体链接是确定多个实体是否指代同一现实世界对象的过程。当对提及“Arvind Krishna”、“Krishna”和“IBM’s CEO”的文章进行 IE 时,实体链接子任务会将这 3 处信息识别为对同一个人的指代。实体链接也称为共指解析。
关系提取是指对数据源中实体之间的关系进行识别和分类的信息提取任务。揭示实体之间的关系可以打开通往那些有可能被忽视的洞察分析的大门。
在本节开头的示例句子中,RE 流程将在“Arvind Krishna”和“IBM”之间绘制一个“works at”连接,职衔为“CEO”。
术语关系提取和关联提取经常互换使用,但一些数据科学家认为其间存在细微的区别。关联提取涵盖了所有辨别实体之间关联的尝试,而关系提取最常用于使用机器学习模型来完成这项任务的语境。
事件提取是 IE 系统识别输入文本主体中的离散事件的方式。“appointment”或“meeting”等单词可以触发事件提取序列,日期也可以。事件提取涵盖事件本身、发生的时间和日期以及任何提及的参与者。
在示例句子“Arvind Krishna attended the conference in January 2025”中,事件提取算法会识别出在 2025 年 1 月举行了一次会议,并且其中一位与会者是 IBM CEO Arvind Krishna。
情感分析确定一段文本所传达的感受。情感分析是进行市场研究和理解客户行为的重要工具。
如果给出一个由用户评论组成的数据集,IE 算法可以提供语义洞察分析,从而揭示对产品持积极、消极或中立态度的消费者的百分比。然后,产品经理可以利用这些洞察分析来调整产品,使其对更多现有和潜在用户更具吸引力。
信息提取的工作原理是使用机器学习算法解析非结构化数据源以识别有意义的数据。IE 系统标记发现的数据实体并将其存储在经整理、可查询的数据库中,以便有效检索。
信息提取技术包括:
这些方法并不相互排斥:IE 的进步使混合模型得以出现;这些模型将方法组合在一起以改进结果。
基于规则的信息提取可以解析文档,根据已建立的“规则”(即有关文本中实体的已知预定义模式和定义)来识别实体。基于规则的 IE 最常应用于半结构化数据源,即不完全结构化的数据,但仍具有一些标识特征(例如标签或元数据)。
自上而下基于规则的 IE 的工作原理是从一般情况发展到特定情况,而自下而上的方法则相反。
使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。
通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。