发布日期:2024 年 5 月 6 日
撰稿人:Jacob Murel 博士、Eda Kavlakoglu
文本摘要将一个或多个文本压缩成较短的摘要,以增强信息提取。
了解采用 AI 的障碍,特别是缺乏 AI 治理和风险管理解决方案。
注册以获取有关基础模型的指南
有两种主要类型的摘要:提取式和抽象式。
提取式摘要从原始文本文档中提取未经修改的句子。提取算法之间的一个主要区别在于它们如何评估句子重要性同时减少主题冗余。句子评分的差异决定了要提取的句子和要保留的句子。
抽象摘要使用原始文本文件中没有的句子生成原始摘要。这种生成需要 neural networks 和 大型语言模型 来生成具有语义意义的文本序列。
正如人们可能猜到的那样,抽象文本摘要的计算成本高于抽取式,需要对 人工智能 和 生成系统有更专业的理解。当然,提取式文本摘要也可以利用 neural networks 转换器(例如 GPT、BERT 和 BART)来创建摘要。然而,提取方法不需要 neural networks2
句子评分,顾名思义,根据文本中的每个句子对该文本的重要性对其进行评分。不同的表现形式实现不同的评分方法。例如, 主题表示方法根据每个句子单独表达或组合关键主题的程度进行评分。更具体地说,这可能涉及根据主题关键词的同频对句子进行加权。图基法,计算句子中心度。这些算法使用 TF-IDF 确定中心性,以计算给定句子节点在向量空间中与文档质心的距离。8
提取算法的最后一个一般步骤是句子选择。根据句子的重要性加权后,算法会为文档或文档集选出n个最重要的句子。这些句子构成了生成的摘要。但是,如果这些句子中存在语义和主题重叠呢?句子选择步骤旨在减少最终摘要中的冗余。最大边际相关性方法采用迭代方法。具体来说,他们根据该句子与已选句子的相似性重新计算句子重要性分数。全局选择方法选择最重要句子的子集,以最大限度地提高总体重要性并减少冗余。9
正如该概述所示,提取文本摘要最终是一个文本(通常是句子)排名问题。提取文本摘要技术按顺序对文档及其测试字符串(例如句子)进行排序,或生成与给定文本中识别的中心主题最佳匹配的摘要。通过这种方式,抽取式摘要可以理解为一种信息检索形式。10
如前所述,抽象文本摘要技术使用neural networks来生成汇总一个或多个文档的原始文本。尽管有许多类型的抽象文本摘要方法,但文献并未使用任何一种总体分类系统来描述这些方法。11 但是, 可以概述这些不同方法的总体目标.
与许多人工智能应用一样,抽象文本摘要的最终目的是模仿人类生成的摘要。后者的一个关键功能是句子压缩——人类通过缩短较长的文本和句子来总结它们。句子压缩有两种通用方法:基于规则的方法和统计方法。
前者利用句法知识来解析语法片段。这些使用关键字、句法线索甚至词性标签来提取文本片段,然后根据预定义的模板进行合并。此模板可以从其他自动文本分析或用户定义的规则中提取。2
在统计方法中,模型(无论是从预训练还是微调中获得的)会学习要删除哪些句子片段。例如,树解析器可以从输入文本中识别相似的句子,并将可比较的句子填充到树形结构中。依赖关系树就是这样一种结构,它根据单词之间的感知关系对句子进行建模,与主谓安排保持一致。这种结构中的句子可能以动词作为其中心节点,主语和宾语(即名词)以及连词分支。然后,附加动词将从其所依附的名词中分支出来。在树结构中表示文本后,算法会选择常用单词或短语,供生成网络在创建新摘要时使用。12
抽象文本摘要的最后一个问题是信息的顺序。摘要信息的顺序不一定与最初源文件的顺序相同。例如,当人们写摘要时,他们通常会按主题编排信息。用于主题编排的一种方法是集群。具体来说,提取的句子根据主题内容(由同时出现的关键词决定)进行聚类编排。沿着这些思路,神经主题模型是另一种潜在的方法,对信息进行局部排序。2
开发人员使用许多评估指标来进行文本摘要。量度的差异通常取决于摘要的类型以及要衡量的摘要特征。
BLEU (双语评估替补)是机器翻译领域常用的评估指标。-它测量 n 个单词序列(称为 n-gram)的 ground truth 和模型输出之间的相似性。在文本摘要中,BLEU 测量自动摘要中的 n-gram 与人工生成的摘要中的 n-gram 重叠的频率和程度,并考虑前者中的错误单词重复。然后,它使用这些单个 n-gram 的精度分数来计算整体文本精度,称为几何平均精度。此最终值介于 0 和 1 之间,后者表示机器和人工生成的文本摘要之间完美对齐。15
ROUGE(以回忆为导向的摘要评估)是从 BLEU 衍生出来的,专门用于评估摘要任务。与 BLEU 类似,它使用 n-gram 将机器摘要与人类生成的摘要进行比较。但是,BLEU 衡量的是机器精度,而 ROUGE 衡量的是机器召回率。换言之,ROUGE 根据自动摘要中找到的人工生成摘要中的 n-gram 数量来计算自动摘要的准确性。与 BLEU 一样,ROUGE 分数是介于 0 和 1 之间的任何值,后者表示机器和人工生成的文本摘要之间完美对齐。16
请注意,这些指标评估最终的摘要文本输出。它们不同于文本摘要算法中使用的无数句子评分方法,这些方法选择合适的句子和关键词来产生最终的摘要输出。
许多库允许用户轻松地在 Python 中实现文本摘要工具。例如,HuggingFace Transformers Library 预装有 BART(一种编码器-解码器转换器架构),用于生成文本摘要。OneAI 的 Language Skills API 还提供了用于轻松生成文本摘要的工具。
文本摘要最明显的应用是加速研究。这在法律、学术和营销等各个领域都有潜在用途。然而,研究人员还展示了文本摘要转换器如何推进其他任务。
新闻新闻文章是用于测试和比较文本摘要技术的常见数据集。然而,总结并不总是最终目标。一些研究调查了转换器衍生的文本摘要作为支持假新闻检测模型的特征提取模式的作用。17 这项研究显示出良好的潜力,并说明了文本摘要如何被用于更广泛的用途,而不仅仅是节省阅读多篇文本的时间。
翻译跨语言摘要是文本摘要的一个分支,与机器翻译重叠。诚然,这并不是一个像摘要或翻译本身那样大的研究领域。然而,以不同的目标语言总结源语言文本或文本集合的目标带来了一系列新的挑战。18 一本出版物探讨了历史文本的跨语言摘要。在这项任务中,历史上的语言变体(例如,古代中文与现代中文,或阿提卡希腊语与现代希腊语)被视为不同的语言。具体实验使用单词嵌入以及抽取和抽象摘要和迁移学习方法来生成古语言文档的现代摘要。19
1 Juan-Manuel Torres-Moreno, 《自动文本摘要》,Wiley,2014 年。
2 Aggarwal,文本机器学习,施普林格。Bettina Berendt,"用于新闻和博客分析的文本挖掘",《机器学习和数据科学百科全书》,施普林格,2020 年。
3 Haopeng Zhang、Xiao Liu 和 Jiawei Zhang,“通过 ChatGPT 提取摘要生成忠实摘要”,计算语言学协会的研究结果:EMNLP 2023,https://aclanthology.org/2023.findings-emnlp.214/。
4 Meng Cao、Yue Dong 和 Jackie Cheung,“幻觉但真实!检查抽象摘要中幻觉的真实性,” 2022 年计算语言学协会第60届年会论文集,https://aclanthology.org/2022.acl-long.236/ 。
5 Jonathan Pilault、Raymond Li、Sandeep Subramanian 和 Chris Pal,《使用转换器语言模型进行提取和抽象神经文档摘要》,2020 年自然语言处理 (EMNLP) 经验方法会议论文集,2020 年,https:// alanthology.org/2020.emnlp-main.748/ 。
6 Giuseppe Carenini 和 Jackie CK Cheung,评价性文本的提取与基于 NLG 的抽象摘要:语料库争议的影响”,第五届国际自然语言生成会议论文集,2008 年,https://aclanthology.org/W08- 1106/。
7 Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”, 文本挖掘数据,施普林格,2012 年。Wafaa S. El-Kassas、Cherif R. Salama、Ahmed A. Rafea 和 Hoda K. Mohamed,“自动文本摘要:一项综合调查”,专家系统与应用,第 165 期,2021 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030。
8 Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”, 文本挖掘数据,施普林格,2012 年。Steven Shearing、Abigail Gertner、Benjamin Wellner 和 Liz Merkhofe,《自动文本摘要:回顾和建议》技术报告,MITRE Corporation,2020 年。
9 Ani Nenkova 和 Kathleen McKeown,“文本摘要技术调查”, 文本挖掘数据,施普林格,2012 年。
10 Jade Goldsteiny、Mark Kantrowitz、Vibhu Mittal 和 Jaime Carbonell,“总结文本文档:句子选择和评估指标”,第 22 届年度国际 ACM SIGIR 信息检索研究与开发会议记录,1999 年,第121-128 页, https://www.cs.cmu.edu/~jgc/publication/Summarizing_Text_Documents_Sentence_SIGIR_1999.pdf。
11 Som Gupta 和 S.K. Gupta,“抽象摘要:最新技术概述”,Expert Systems With Applications,2019 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735。Wafaa S. El-Kassas、Cherif R. Salama、Ahmed A. Rafea 和 Hoda K. Mohamed,“自动文本摘要:综合调查”,《专家系统与应用程序》,2021 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030。Hui Lin 和 Vincent Ng,“抽象摘要:现状调查”,AAAI 人工智能会议论文集,第 33 卷,第 1 号,2019 年,第 9815-9822 页,https://ojs.aaai.org/index.php/AAAI/article/view/5056。
12 Som Gupta 和 S.K. Gupta,“抽象摘要:最新技术概述”,Expert Systems With Applications,2019 年,https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735。Regina Barzilay 和 Kathleen R. McKeown,“用于多文档新闻摘要的句子融合”, 计算语言学,第 31 卷,第 3 号,2005 年,第 297-328 页,https://aclanthology.org/J05-3002/。
13 Regina Barzilay 和 Kathleen R. McKeown,“多文档新闻摘要的句子融合”,计算语言学,第31 卷,第 3 号,2005 年,第 297-328 页,https://aclanthology.org/J05-3002/。
14 Peng Cui 和 Le Hu,“主题引导抽象多文档摘要”,计算语言学协会的调查结果:EMNLP 2021,https://aclanthology.org/2021.findings-emnlp.126/。
15 Kishore Papineni、Salim Roukos、Todd Ward 和 Wei-Jing Julie,Beu:一种自动评估机器翻译的方法,Proceedings of the Association for the 40thAnnual Conference of the Association for Computationallinguistics,2002,https://aclanthology. org/P02-1040/。
16 Chin-Yew Lin,“ROUGE:摘要自动评估包”,Text Summarization Branches Out,https://aclanthology.org/W04-1013/。
17 Soheil Esmaeilzadeh、Gao Xian Peh 和 Angela Xu,“神经抽象文本摘要和假新闻检测”,2019 年,https://arxiv.org/abs/1904.00788。Philipp Hartl 和 Udo Kruschwitz,《应用自动文本摘要检测假新闻》,第十三届语言资源与评估会议论文集,2022 年, https://aclanthology.org/2022.lrec-1.289/。
18 Jiaan Wang、Fandong Qiang、Duo Cheng、Yun Long Qiang、Zhixu Li、Jianfei Qu 和 Jie Zhou,“跨语言摘要研究”,《计算语言学协会会刊》,第 10 卷, 2022 年, https://aclanthology.org/2022.tacl-1.75/。
19 Xutan Peng、Yi Zheng、Chenghua Lin 和 Advaith Siddharthan,“现代语言中的历史文本总结”,计算语言学协会欧洲分会第 16 届会议论文集,2021 年,https://aclanthology.org/2021.eacl-main.273/。