公開日:2024年5月6日
寄稿者:Jacob Murel Ph.D.、Eda Kavlakoglu
テキストの要約は、情報の抽出を強化するために、1つ以上のテキストをより短い要約に凝縮します。
特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。
基盤モデルについてのガイドに登録する
テキスト要約には、大きく分けて抽出型と抽象型の2種類があります。
抽出型要約は、元のテキスト文書から変更されていない文章を抽出します。抽出アルゴリズムの主な違いは、トピックの冗長性を削減しながら、文章の重要性をスコアリングする方法にあります。文章のスコアリングの差により、どの文章を抽出し、どの文章を保持するを決定します。
抽象的要約は、元のテキスト文書にはない文章を使用して、オリジナルの要約を生成します。抽象的要約を生成するには、意味のあるテキスト・シーケンスを生成するために ニューラル・ネットワークと大規模言語モデル(LLM)が必要です。
ご想像のとおり、抽象型要約は抽出型要約よりも計算コストが高く、人工知能と生成システムに対する、より専門的な理解が必要になります。抽出的テキスト要約では、GPT、BERT、BARTなどのニューラル・ネットワークのトランスフォーマーを使用して要約を生成することもできますが、抽出的要約には、ニューラル・ネットワークは必要ありません。2
抽出型の手法と抽象型の手法の比較・評価では、結果が混在しています。例えば、抽象型要約はハルシネーション、つまり誤解を招く情報や事実に反する情報になりやすいという研究報告もあります。3 しかし、その他の研究では、抽象的なハルシネーションが実際には世界の知識と一致し、要約のソース資料自体に由来することを示唆しています。4 抽出型の手法と抽象型の手法を比較したその他の研究では、それぞれに比較可能な利点があることが示されています。人間のユーザーは、抽象型要約の方がより一貫性があると考えている一方で、抽出型要約の方が有益で関連性が高いとも考えています。5 また、テキストの主題に関する論争性は、ユーザーがそれぞれの要約のタイプをどのように捉えているかに影響を与えることも示唆されています。6 したがって、抽出型要約と抽象型要約の間で、1対1の直接の評価・比較することができないかもしれません。
表現段階では、アルゴリズムによって前処理されたテキスト・データをセグメント化して表現し、比較します。これらの表現の多くは、単語や文章などのテキスト・セグメントをベクトル空間内のデータ・ポイントとして表すBag of Words(BoW)モデルで構築されています。大規模な複数の文書のデータ・セットでは、テキスト集合内での重要度を反映するように各単語に重み付けをするBag of Wordsのバリエーションである、Term Frequency-Inverse Document Frequency(TF-IDF)を使用します。潜在的意味解析(LSA)などのトピック・モデリング・ツールは、文書全体で重み付けされた要約キーワードのグループを生成する別の表現方法です。LexRankやTextRankなどの他のアルゴリズムでは、グラフを使用します。これらのグラフ・ベースのアプローチは、意味的類似性のスコアに従って線で結ばれたノード(または頂点)として文章を表現します。アルゴリズムは、意味的類似性をどのように測定するのでしょうか。7
文章のスコアリングでは、その名のとおり、テキスト内の各文章をテキストに対する重要度に基づいてスコア付けします。表現が異なれば、スコアリング方法も異なります。たとえば、トピック表現アプローチでは、主要なトピックを個別に表現または組み合わせた度合いに応じて、各文章にスコアを付けます。より具体的には、トピック・キーワードの共起度に応じて文章に重み付けすることが含まれます。グラフ・ベースのアプローチでは、文章の中心性を計算します。これらのアルゴリズムは、TF-IDFを使用して中心性を判断し、特定の文章ノードがベクトル空間の文書の重心からどれだけ離れているかを計算します。8
抽出型アルゴリズムの一般的な最後のステップは、文章の選択です。重要度によって文章に重み付けをしたアルゴリズムは、文書またはその集合から最も重要なn個の文章を選択します。これらの文は、生成された要約を構成します。しかし、これらの文章に意味上およびテーマ上の重複がある場合はどうなるでしょうか。文章の選択ステップでは、最終的な要約の冗長性を減らすことを目的としています。最大限の周辺的関連性(MMR)では、反復的なアプローチをとります。具体的には、選択された文章との類似性に応じて、文章の重要度スコアを再計算します。グローバル選択方法では、最も重要な文章のサブセットを選択して、全体的な重要度を最大化し、冗長性を減らします。9
この概要が示すように、抽出型テキスト要約は、最終的にはテキスト(およびほとんどの場合、文章)のランキングの問題です。抽出型テキスト要約の手法では、文書とテスト文字列(サンプル、文章ど)を順番にランク付けするか、特定のテキストで特定された中心的なトピックに最も一致する要約を生成します。このように、抽出型要約は情報検索の一形態として理解できるかもしれません。10
上述したように、抽象型テキスト要約はニューラル・ネットワークを使用して、1つ以上の文書を要約するオリジナル・テキストを生成します。抽象型テキスト要約には多くの種類がありますが、それらの手法を説明するための単一の包括的な分類はありませんが11、一般的な目的を概観することは可能です。
人工知能の多くの用途と同様に、抽象型テキスト要約は、究極的には人間が生成した要約を模倣することを目的としています。後者の重要な特徴の1つは、文章の圧縮です。人間は長文のテキストや文章を短く要約できます。文章の圧縮には、ルール・ベースの方法と統計的方法の2種類の一般的なアプローチがあります。
前者は、構文の知識に基づいて、文法セグメントを解析します。これらは、キーワード、構文の手がかり、あるいは品詞ラベルを使用してテキスト・スニペットを抽出し、あらかじめ定義されたテンプレートに従ってマージします。このテンプレートは、追加の自動テキスト分析またはユーザー定義のルールから取り出すことができます。2
統計的アプローチでは、モデル(事前トレーニングまたはファイン・チューニングされたモデル)は、どの文章セグメントを削除するかを学習します。例えば、ツリー・パーサーは、入力テキストから類似の文章を識別し、ツリー構造全体で比較可能な文章を入力することができます。依存関係ツリーは、単語間の認識された関係に従って文章をモデル化し、主語と口述の配置に合わせて動作する構造の1つです。この構造の文では、動詞を中心ノードとして持ち、主語と目的語(つまり名詞)や接続詞が分岐している場合があります。その後、追加の動詞は、それらが関連付けられている名詞から分岐します。テキストがツリー構造で表現されると、アルゴリズムは一般的な単語やフレーズを選択し、生成ネットワークが新たな要約を生成する際に使用します。12
文章の圧縮のヒントに関する簡潔な概要として、情報融合は抽象型要約のもう1つの重要な側面です。人間は、複数のパッセージからの情報を1つの文またはフレーズに連結して文書を要約します。2 これを模倣するために提案されているアプローチの1つは、複数文書のセットにわたる文章の融合です。このアプローチでは、一連の文書全体で頻出するフレーズを特定し、格子計算と呼ばれる手法を通じて融合し、文法的に一貫性のある英語の要約を生成します。13 もう1つの提案されている方法では、ニューラル・トピック・モデルを使用して主要なキーワードを生成し、要約の生成をガイドします。このアプローチでは、複数の文書にわたる主要なポイントをカバーする頻出キーワードが、1つの文章またはそのグループに結合されます。14
抽象型テキスト要約において、最後に懸念されるのは、情報の順序です。要約された情報は、必ずしも元の文書と同じ順序になるとは限りません。たとえば、人間が要約を作成するにあたって、テーマに基づいて情報を整理することがよくあります。テーマに基づいた整理で使用される方法の1つは、クラスターです。具体的には、抽出された文は、(共起キーワードによって決定される)トピックの内容に従ってクラスターに編成されます。同じように、ニューラル・トピック・モデルは、情報をトピックごとに順序付けた別のアプローチです。2
開発者は、テキスト要約に多くの評価指標を使用しています。測定基準の違いは一般的に、要約の種類と測定したい要約の特徴に依存します。
BLEU(Bilingual Evaluation Understudy)は、機械翻訳でよく使われる評価指標です。n-gramとして知られるn個の単語列について、グラウンド・トゥルースとモデル出力の類似度を測定します。テキスト要約では、BLEUは、自動要約におけるn-gramsと人間が生成した要約におけるn-gramsがどの程度の頻度でどの程度重なるかを測定し、前者における誤った単語の繰り返しを考慮します。次に、個々のn-gramのこれらの精度スコアを使用して、幾何平均精度として知られる、全体的なテキスト精度を計算します。この最終的な値は、 0~1の間で、後者は機械と人間が生成したテキスト要約との完全な一致を示します。15
ROUGE(Record-Oriented Understudy for Gisting Evaluation)は、要約タスクを評価するためにBLEUから派生した方法です。BLEUと同様に、n-gramsを使用して、人間が生成した要約と機械の要約を比較しますが、BLEUは機械の精度を測定するのに対し、ROUGEは機械のリコールを測定します。言い換えると、ROUGEは、自動要約内の人間が生成した要約のn-gramの数に応じて、自動要約の精度を計算します。ROUGEのスコアは、BLEUと同様に、0~1の任意の値であり、1は機械と人間が生成したテキストの要約との完全な一致を示します。16
これらのメトリクスは、最終的な要約テキスト出力を評価することに注意してください。最終的な要約出力を生成するために適切な文章とキーワードを選択するテキスト要約アルゴリズムで使用される多くの文章スコアリング方法とは区別されます。
多くのライブラリーを使用することで、ユーザーはPythonでテキスト要約ツールを簡単に実装できます。例えば、HuggingFaceトランスフォーマー・ライブラリーには、テキスト要約を生成するためのエンコーダー-デコーダーTransformer(トランスフォーマー)アーキテクチャーであるBARTが搭載されています。OneAIのLanguage SkillsのAPIは、テキスト要約を簡単に生成するツールも提供しています。
テキスト要約の明確な用途は、調査のスピードを速めることです。法務、学術、マーケティングなどのさまざまな分野での活用の可能性があります。ただし、研究者は、テキスト要約トランスフォーマーが追加のタスクを進める方法も示しています。
ニュース:ニュース記事は、テキスト要約手法をテストし、比較するための一般的なデータ・セットです。ただし、要約が必ずしも最終目標であるとは限りません。いくつかの研究では、フェイク・ニュース検出モデルを強化するための特徴抽出モードとしてのトランスフォーマー・ベースのテキスト要約の役割を調査しています。17 この研究は有望な可能性を示しており、テキスト要約が単に複数のテキストを読む時間を節約するだけでなく、より広範な用途にどのように応用できるかが示されています。
翻訳:言語間の要約は、機械翻訳と重なるテキスト要約の一分野です。要約や翻訳自体ほど大規模な研究分野ではありませんが、ソース言語のテキストまたはテキストの集合を別のターゲット言語で要約するという目的には、さまざまな新しい課題が伴います。18 ある出版物では、歴史的なテキストによる言語横断的な要約を探求しています。このタスクでは、歴史的な言語の差異(たとえば、古代中国と現代の中国語、またはアティック・ギリシャ語と現代のギリシャ語)は個別の言語として扱われます。この実験では、抽出型および抽象型要約と転移学習の方法とともに単語埋め込みを用いて、古代言語の文書の現代的な要約を生成しています。19
1 Juan-Manuel Torres-Moreno, Automatic Text Summarization, Wiley, 2014.
2 Aggarwal, Machine Learning for Text, Springer. Bettina Berendt, “Text Mining for News and Blogs Analysis,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.
3 Haopeng Zhang, Xiao Liu, and Jiawei Zhang, “Extractive Summarization via ChatGPT for Faithful Summary Generation,” Findings of the Association for Computational Linguistics: EMNLP 2023, https://aclanthology.org/2023.findings-emnlp.214/
4 Meng Cao, Yue Dong, and Jackie Cheung, “Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization,” Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.236/
5 Jonathan Pilault, Raymond Li, Sandeep Subramanian, and Chris Pal, “On Extractive and Abstractive Neural Document Summarization with Transformer Language Models,” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020, https://aclanthology.org/2020.emnlp-main.748/
6 Giuseppe Carenini and Jackie C. K. Cheung, “Extractive vs. NLG-based Abstractive Summarization of Evaluative Text: The Effect of Corpus Controversiality,” Proceedings of the Fifth International Natural Language Generation Conference, 2008, https://aclanthology.org/W08-1106/
7 Ani Nenkova and Kathleen McKeown, “A Survey of Text Summarization Techniques,” Text Mining Data, Springer, 2012. Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea, and Hoda K. Mohamed, “Automatic text summarization: A comprehensive survey,” Expert Systems with Applications, 165, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030
8 Ani Nenkova and Kathleen McKeown, “A Survey of Text Summarization Techniques,” Text Mining Data, Springer, 2012. Steven Shearing, Abigail Gertner, Benjamin Wellner, and Liz Merkhofe, “Automated Text Summarization: A Review and Recommendations,” Technical Report, MITRE Corporation, 2020.
9 Ani Nenkova and Kathleen McKeown, “A Survey of Text Summarization Techniques,” Text Mining Data, Springer, 2012.
10 Jade Goldsteiny, Mark Kantrowitz, Vibhu Mittal, and Jaime Carbonell, “Summarizing Text Documents: Sentence Selection and Evaluation Metrics,” Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999, pp. 121-128, https://www.cs.cmu.edu/~jgc/publication/Summarizing_Text_Documents_Sentence_SIGIR_1999.pdf
11 Som Gupta and S.K. Gupta, “Abstractive summarization: An overview of the state of the art,” Expert Systems With Applications, 2019, https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea, and Hoda K. Mohamed, “Automatic text summarization: A comprehensive survey,” Expert Systems With Applications, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030 Hui Lin and Vincent Ng, “Abstractive Summarization: A Survey of the State of the Art,” Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33, No. 1, 2019, pp. 9815-9822, https://ojs.aaai.org/index.php/AAAI/article/view/5056
12 Som Gupta and S.K. Gupta, “Abstractive summarization: An overview of the state of the art,” Expert Systems With Applications, 2019, https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 Regina Barzilay and Kathleen R. McKeown, “Sentence Fusion for Multidocument News Summarization,” Computational Linguistics, Vol. 31, No. 3, 2005, pp. 297-328, https://aclanthology.org/J05-3002/
13 Regina Barzilay and Kathleen R. McKeown, “Sentence Fusion for Multidocument News Summarization,” Computational Linguistics, Vol. 31, No. 3, 2005, pp. 297-328, https://aclanthology.org/J05-3002/
14 Peng Cui and Le Hu, “Topic-Guided Abstractive Multi-Document Summarization,” Findings of the Association for Computational Linguistics: EMNLP 2021, https://aclanthology.org/2021.findings-emnlp.126/
15 Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, “Bleu: a Method for Automatic Evaluation of Machine Translation,” Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002, https://aclanthology.org/P02-1040/
16 Chin-Yew Lin, “ROUGE: A Package for Automatic Evaluation of Summaries,” Text Summarization Branches Out, https://aclanthology.org/W04-1013/
17 Soheil Esmaeilzadeh, Gao Xian Peh, and Angela Xu, “Neural Abstractive Text Summarization and Fake News Detection,” 2019, https://arxiv.org/abs/1904.00788 (ibm.com外部へのリンク)Philipp Hartl and Udo Kruschwitz, “Applying Automatic Text Summarization for Fake News Detection,” Proceedings of the Thirteenth Language Resources and Evaluation Conference, 2022, https://aclanthology.org/2022.lrec-1.289/
18 Jiaan Wang, Fandong Meng, Duo Zheng, Yunlong Liang, Zhixu Li, Jianfeng Qu, and Jie Zhou, “A Survey on Cross-Lingual Summarization,” Transactions of the Association for Computational Linguistics, Vol. 10, 2022, https://aclanthology.org/2022.tacl-1.75/
19 Xutan Peng, Yi Zheng, Chenghua Lin, and Advaith Siddharthan, “Summarising Historical Text in Modern Languages,” Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021, https://aclanthology.org/2021.eacl-main.273/