我的 IBM 登录 订阅

什么是文本摘要?

2024 年 5 月 6 日

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

文本摘要将一个或多个文本压缩成较短的摘要,以增强信息提取。

自动文本摘要(或文档摘要)是一种 自然语言处理 (NLP) 方法,可将来自一个或多个输入文本文档的信息浓缩为原始输出文本。关于输入文本在输出中出现的比例尚有争议——有些定义称仅 10%,而有些则称 50%。1文本摘要算法通常使用深度学习架构(特别是转换器)来解析文档并生成文本摘要。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

自动文本摘要类型

有两种主要类型的摘要:提取式和抽象式。

提取式摘要从原始文本文档中提取未经修改的句子。提取算法之间的一个主要区别在于它们如何评估句子重要性同时减少主题冗余。句子评分的差异决定了要提取的句子和要保留的句子。

抽象摘要使用原始文本文件中没有的句子生成原始摘要。这种生成需要 Neural Networks大型语言模型 (LLM) 来生成具有语义意义的文本序列。

正如人们可能猜到的那样,抽象文本摘要的计算成本高于抽取式,需要对人工智能生成系统有更专业的理解。当然,提取式文本摘要也可以利用 Neural Networks 转换器(例如 GPT、BERT 和 BART)来创建摘要。然而,提取方法不需要 Neural Networks。2

提取式摘要与抽象式摘要

对提取和抽象技术的比较评估显示出混合的结果。例如,虽然一些研究表明抽象式摘要更容易产生幻觉,即误导性或事实错误的信息。3然而,另一些研究表明,抽象幻觉实际上与世界知识一致,来自摘要源材料本身。4对提取和抽象技术的其他比较表明,每种技术都有其比较优势。虽然人类用户认为抽象式摘要更连贯,但他们也认为提取式摘要信息更丰富且更相关。5研究还表明,文本主题的争议性会影响用户查看相应摘要类型的方式。6因此,这些摘要类型之间可能无法进行直接的一对一评价性比较。

专家荟萃 | 播客

解码 AI:每周新闻摘要

加入我们的世界级专家团队,包括工程师、研究人员、产品负责人等,他们将穿透 AI 的喧嚣,为您带来最新的 AI 新闻和见解。

提取式文本摘要的工作原理

与其他 NLP 任务一样,文本摘要需要首先对文本数据进行预处理。这包括标记化、停用词删除以及词干提取词形还原,以便使机器学习模型能够读取数据集。预处理后,所有提取式文本摘要方法都遵循三个通用的独立步骤:表示、句子评分和句子选择。

表示

在表示阶段,算法对预处理的文本数据进行分段并表示以进行比较。这些表示中有许多是基于 Bag of Words 模型构建的,这些模型将文本片段(例如单词或句子)表示为矢量空间中的数据点。大型多文档数据集使用词项词频-逆文档频率(TF-IDF),这是 Bag of Words 的一种变体,它对每个词项进行加权以反映其在文本集中的重要性。主题建模工具(例如潜在语义分析 (LSA))是另一种表示方法,可生成跨文档加权的摘要关键字组。另一些算法(例如 LexRank 和 TextRank)则使用图表。这些基于图形的方法将句子表示为节点(或顶点),这些节点(或顶点)根据语义相似性分数通过线条连接。算法如何衡量语义相似性?7

句子评分

句子评分,顾名思义,根据文本中的每个句子对该文本的重要性对其进行评分。不同的表现形式实现不同的评分方法。例如, 主题表示方法根据每个句子单独表达或组合关键主题的程度进行评分。更具体地说,这可能涉及根据主题关键词的同频对句子进行加权。图基法,计算句子中心度。这些算法使用 TF-IDF 确定中心性,以计算给定句子节点在矢量空间中与文档质心的距离。8

句子选择

提取算法的最后一个一般步骤是句子选择。根据句子的重要性加权后,算法会为文档或文档集选出 n 个最重要的句子。这些句子构成了生成的摘要。但是,如果这些句子中存在语义和主题重叠呢?句子选择步骤旨在减少最终摘要中的冗余。最大边际相关性方法采用迭代方法。具体来说,它们根据该句子与已选句子的相似性重新计算句子重要性分数。全局选择方法选择最重要句子的子集,以最大限度地提高总体重要性并减少冗余。9

正如该概述所示,提取文本摘要最终是一个文本(通常是句子)排名问题。提取文本摘要技术按顺序对文档及其测试字符串(例如句子)进行排序,或生成与给定文本中识别的中心主题最佳匹配的摘要。通过这种方式,抽取式摘要可以理解为一种信息检索形式。10

抽象式文本摘要的工作原理

如前所述,抽象文本摘要技术使用 Neural Networks 来生成汇总一个或多个文档的原始文本。尽管有许多类型的抽象文本摘要方法,但文献并未使用任何一种总体分类系统来描述这些方法。11 但是,可以概述这些不同方法的总体目标。

句子压缩

与许多人工智能应用一样,抽象文本摘要的最终目的是模仿人类生成的摘要。后者的一个关键功能是句子压缩——人类通过缩短较长的文本和句子来总结它们。句子压缩有两种通用方法:基于规则的方法和统计方法。

前者利用句法知识来解析语法片段。这些使用关键字、句法线索甚至词性标签来提取文本片段,然后根据预定义的模板进行合并。此模板可以从其他自动文本分析或用户定义的规则中提取。2

在统计方法中,模型(无论是从预训练还是微调中获得的)会学习要删除哪些句子片段。例如,树解析器可以从输入文本中识别相似的句子,并将可比较的句子填充到树形结构中。依赖关系树就是这样一种结构,它根据单词之间的感知关系对句子进行建模,与主谓安排保持一致。这种结构中的句子可能以动词作为其中心节点,主语和宾语(即名词)以及连词分支。然后,附加动词将从其所依附的名词中分支出来。在树结构中表示文本后,算法会选择常用单词或短语,供生成网络在创建新摘要时使用。12

信息融合

正如本文对句子压缩的简要概述所暗示的那样,信息融合是抽象摘要的另一个关键方面。人们通过将来自多个段落的信息连接成一个句子或短语来总结文档。2一种模拟这种情况的拟议方法是跨多文档集进行句子融合。这种方法识别一组文档中常见的短语,并通过一种称为格计算的技术将它们融合在一起,以生成语法连贯的英语摘要。13另一种提议的方法使用神经主题模型来生成关键术语,这些术语反过来指导摘要的生成。在这种方法中,涵盖多个文档中要点的常见关键字被组合成一个句子或一组句子。14

信息顺序

抽象文本摘要的最后一个问题是信息的顺序。摘要信息的顺序不一定与最初源文件的顺序相同。例如,当人们写摘要时,他们通常会按主题编排信息。用于主题编排的一种方法是集群。具体来说,提取的句子根据主题内容(由同时出现的关键词决定)进行聚类编排。沿着这些思路,神经主题模型是另一种潜在的方法,对信息进行局部排序。2

评估指标

开发人员使用许多评估指标来进行文本摘要。量度的差异通常取决于摘要的类型以及要衡量的摘要特征。

BLEU(双语评估替补)是机器翻译领域常用的评估指标。它测量 n 个单词序列(称为 n-gram)的标准答案和模型输出之间的相似性。在文本摘要中,BLEU 测量自动摘要中的 n-gram 与人工生成的摘要中的 n-gram 重叠的频率和程度,并考虑前者中的错误单词重复。然后,它使用这些单个 n-gram 的精度分数来计算整体文本精度,称为几何平均精度。此最终值介于 0 和 1 之间,后者表示机器和人工生成的文本摘要之间完美匹配。15

ROUGE(以回忆为导向的摘要评估)是从 BLEU 衍生出来的,专门用于评估摘要任务。与 BLEU 类似,它使用 n-gram 将机器摘要与人类生成的摘要进行比较。但是,BLEU 衡量的是机器精度,而 ROUGE 衡量的是机器召回率。换言之,ROUGE 根据自动摘要中找到的人工生成摘要中的 n-gram 数量来计算自动摘要的准确性。与 BLEU 一样,ROUGE 分数是介于 0 和 1 之间的任何值,后者表示机器和人工生成的文本摘要之间完美对齐。16

请注意,这些指标评估最终的摘要文本输出。它们不同于文本摘要算法中使用的无数句子评分方法,这些方法选择合适的句子和关键词来产生最终的摘要输出。

用例

许多库允许用户轻松地在 Python 中实现文本摘要工具。例如,HuggingFace Transformers Library 预装有 BART(一种编码器-解码器转换器架构),用于生成文本摘要。OneAI 的 Language Skills API 还提供了用于轻松生成文本摘要的工具。

文本摘要最明显的应用是加速研究。这在法律、学术和营销等各个领域都有潜在用途。然而,研究人员还展示了文本摘要转换器如何推进其他任务。

新闻 - 新闻文章是用于测试和比较文本摘要技术的常见数据集。然而,摘要并不总是最终目标。一些研究调查了转换器衍生的文本摘要作为支持假新闻检测模型的特征提取模式的作用。17这项研究显示出良好的潜力,并说明了文本摘要如何被用于更广泛的用途,而不仅仅是节省阅读多篇文本的时间。

翻译 - 跨语言摘要是文本摘要的一个分支,与机器翻译重叠。诚然,这并不是一个像摘要或翻译本身那样大的研究领域。然而,以不同的目标语言总结源语言文本或文本集合的目标带来了一系列新的挑战。18一个已发表的实验探讨了使用历史文本的跨语言摘要。在这项任务中,历史上的语言变体(例如,古代中文与现代中文,或阿提卡希腊语与现代希腊语)被视为不同的语言。具体实验使用单词嵌入、提取和抽象摘要以及迁移学习方法来生成古代语言文献的现代摘要。19

相关解决方案

相关解决方案

IBM watsonx Orchestrate

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
自然语言处理工具和 API

通过强大灵活的库、服务和应用组合,加速实现人工智能的商业价值。

深入了解 NLP 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

使用 IBM® watsonx Orchestrate 轻松设计可扩展的 AI 助手和代理、自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate 深入了解 NLP 解决方案
脚注

1  Juan-Manuel Torres-Moreno, 自动文本摘要,Wiley,2014 年。

2 Aggarwal,文本机器学习,Springer。Bettina Berendt,“新闻和博客分析中的文本挖掘”,《机器学习和数据科学百科全书》,Springer,2020 年。

3  Haopeng Zhang、Xiao Liu 和 Jiawei Zhang,“通过 ChatGPT 提取摘要生成忠实摘要”,计算语言学协会的研究结果:EMNLP,2023 年, https://aclanthology.org/2023.findings-emnlp.214

4  Meng Cao、Yue Dong 和 Jackie Cheung,“幻觉但真实!检查抽象摘要中幻觉的真实性”,2022 年计算语言学协会第60届年会论文集, https://aclanthology.org/2022.acl-long.236

5  Jonathan Pilault、Raymond Li、Sandeep Subramanian 和 Chris Pal,《使用转换器语言模型进行提取和抽象神经文档摘要》,2020 年自然语言处理 (EMNLP) 经验方法会议论文集,2020 年,  https:// alanthology.org/2020.emnlp-main.748

6  Giuseppe Carenini 和 Jackie CK Cheung,“评价性文本的提取式总结与基于 NLG 的抽象式总结: 语料库争议性的影响”,第五届国际自然语言生成会议论文集,2008 年, https://aclanthology.org/W08-1106

7 Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”,《文本挖掘数据》,Springer,2012 年。Wafaa S. El-Kassas、Cherif R. Salama、Ahmed A. Rafea 和 Hoda K. Mohamed,“自动文本摘要:全面调查”,《专家系统与应用》,165,2021 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030

8 Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”, 文本挖掘数据,Springer,2012 年。Steven Shearing、Abigail Gertner、Benjamin Wellner 和 Liz Merkhofe,《自动文本摘要:回顾和建议》技术报告,MITRE Corporation,2020 年。

9  Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”,  文本挖掘数据,Springer,2012 年。

10  Jade Goldsteiny、Mark Kantrowitz、Vibhu Mittal 和 Jaime Carbonell,“总结文本文档:句子选择和评估指标”,第 22 届年度国际 ACM SIGIR 信息检索研究与开发会议记录,1999 年,第 121-128 页, https://www.cs.cmu.edu/~jgc/publication/Summarizing_Text_Documents_Sentence_SIGIR_1999.pdf 

11  Som Gupta 和 S.K. Gupta,“抽象摘要:最新技术概述”,Expert Systems With Applications,2019 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 。Wafaa S. El-Kassas、Cherif R. Salama、Ahmed A. Rafea 和 Hoda K. Mohamed,“自动文本摘要:综合调查”,Expert Systems With Applications,2021 年, https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030 。Hui Lin 和 Vincent Ng,“抽象摘要:现状调查”,AAAI 人工智能会议论文集,第 33 卷,第 1 期,2019 年,第 9815-9822 页, https://ojs.aaai.org/index.php/AAAI/article/view/5056 

12  Som Gupta 和 SK Gupta,“抽象摘要:最先进的概述”,Expert Systems With Applications,2019 年, https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 。Regina Barzilay 和 Kathleen R. McKeown,“用于多文档新闻摘要的句子融合”, 计算语言学,第 31 卷,第 3 期,2005 年,第 297-328 页, https://aclanthology.org/J05-3002

13  Regina Barzilay 和 Kathleen R. McKeown,“多文档新闻摘要的句子融合”,计算语言学,第 31 卷,第 3 期,2005 年,第 297-328 页, https://aclanthology.org/J05-3002

14 Peng Cui 和 Le Hu,“主题引导的抽象多文档摘要”,计算语言学协会的调查结果:EMNLP 2021,https://aclanthology.org/2021.findings-emnlp.126

15  Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Julie,Beu:一种自动评估机器翻译的方法,计算语言学协会第 40 届年会论文集,2002 年, https://aclanthology. .org/P02-1040/

16  Chin-Yew Lin,“ROUGE:用于自动评估摘要的软件包”,文本摘要分支, https://aclanthology.org/W04-1013

17 Soheil Esmaeilzadeh、Gao Xian Peh 和 Angela Xu,“神经抽象文本摘要和虚假新闻检测”,2019 年,https://arxiv.org/abs/1904.00788。Philipp Hartl 和 Udo Kruschwitz,“应用自动文本摘要检测假新闻”,第十三届语言资源与评估会议论文集,2022 年,https://aclanthology.org/2022.lrec-1.289/

18  Jiaan Wang、Fandong Qiang、Duo Cheng、Yun Long Qiang、Zhixu Li、Jianfei Qu 和 Jie Zhou,“跨语言摘要研究”,《计算语言学协会会刊》,第 10 卷, 2022 年, https://aclanthology.org/2022.tacl-1.75

19 Xutan Peng、Yi Zheng、Chenghua Lin 和 Advaith Siddharthan,“现代语言中的历史文本总结”,计算语言学协会欧洲分会第 16 届会议论文集,2021 年,https://aclanthology.org/2021.eacl-main.273