My IBM Se connecter S’abonner

Qu’est-ce que la récapitulation de texte ?

6 mai 2024

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

La récapitulation de texte condense un ou plusieurs textes en résumés plus courts pour améliorer l’extraction d’informations.

La récapitulation automatique de texte (ou récapitulation de documents) est une méthode de traitement automatique du langage naturel (NLP) qui condense les informations d’un ou plusieurs documents texte d’entrée dans un texte de sortie original. La quantité de texte d’entrée présente dans la sortie fait l’objet de débats : certaines définitions indiquent qu’elle ne doit pas être supérieure à 10 %, tandis que d’autres vont jusqu’à 50 %.1 Les algorithmes de récapitulation de texte utilisent souvent des architectures d’apprentissage profond, en particulier des transformeurs, pour analyser les documents et générer des résumés de texte.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Types de récapitulation automatique de texte

Il existe deux principaux types de récapitulation : la récapitulation extractive et la récapitulation abstractive.

La récapitulation extractive extrait des phrases non modifiées des documents texte originaux. L’une des principales différences entre les algorithmes extractifs est la façon dont ils notent l’importance des phrases tout en réduisant la redondance thématique. Les différences dans la notation des phrases déterminent les phrases à extraire et celles à conserver.

La récapitulation abstractive génère des résumés originaux avec des phrases qui ne se trouvent pas dans les documents texte d’origine. Une telle génération nécessite des réseaux neuronaux et de grands modèles de langage (LLM) pour produire des séquences de texte valides d’un point de vue sémantique.

Comme on peut s’en douter, la récapitulation de texte abstractive est plus coûteuse en matière de calcul que la récapitulation de texte extractive, ce qui nécessite une compréhension plus spécialisée de l’intelligence artificielle et des systèmes génératifs. Bien entendu, la récapitulation de texte extractive peut également utiliser des transformeurs de réseaux neuronaux, tels que GPT, BERT et BART, pour créer des résumés. Néanmoins, les approches extractives ne nécessitent pas de réseaux neuronaux.2

Récapitulation extractive et récapitulation abstractive

Les évaluations comparatives des techniques d’extraction et d’abstraction donnent des résultats mitigés. Par exemple, certaines recherches suggèrent que la récapitulation abstractive est plus sujette aux hallucinations, c’est-à-dire aux informations trompeuses ou factuellement fausses.3 D’autres recherches, cependant, suggèrent que les hallucinations abstractives s’alignent en fait sur la connaissance du monde, étant dérivées du matériel source de récapitulation lui-même.4 D’autres comparaisons des techniques extractive et abstractive montrent que chacune a ses avantages propres. Alors que les utilisateurs humains considèrent les récapitulations abstractives comme plus cohérentes, ils considèrent également les récapitulations extractives comme plus informatives et plus pertinentes.5 Les recherches suggèrent également que la controverse concernant le sujet du texte affecte la façon dont les utilisateurs perçoivent les deux types de récapitulations.6 En conséquence, il ne peut probablement pas y avoir de comparaison évaluative directe entre ces types de récapitulation.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Fonctionnement de la récapitulation de texte extractive

Comme pour d’autres tâches de TAL (« traitement automatique des langues »), la récapitulation de texte nécessite que les données textuelles subissent d’abord un prétraitement. Cela inclut la tokenisation, la suppression des mots vides et la racinisation ou la lemmatisation, le but étant de rendre le jeu de données lisible par un modèle de machine learning . Après le prétraitement, toutes les méthodes de récapitulation de texte extractive suivent trois étapes générales et indépendantes : la représentation, la notation des phrases et la sélection des phrases.

Représentation

Lors de la phase de représentation, un algorithme segmente et représente les données textuelles prétraitées pour la comparaison. Bon nombre de ces représentations sont élaborées à partir de modèles de sac de mots (ou « bag of words »), qui représentent des segments de texte (tels que des mots ou des phrases) sous forme de points de données dans un espace vectoriel. Les grands jeux de données multidocuments peuvent utiliser la fréquence de terme/fréquence inverse de document (« term frequency-inverse document frequency » ou TF-IDF), une variante du sac de mots qui pondère chaque terme pour refléter son importance dans un ensemble de textes. Les outils de modélisation thématique tels que l’analyse sémantique latente (« latent semantic analysis » ou LSA) sont une autre méthode de représentation qui produit des groupes de mots clés récapitulatifs pondérés dans les documents. D’autres algorithmes, tels que LexRank et TextRank, utilisent des graphes. Ces approches basées sur des graphes représentent les phrases comme des nœuds (ou des sommets) qui sont reliés par des lignes selon des scores de similarité sémantique. Comment les algorithmes évaluent-ils la similarité sémantique ?7

Notation des phrases

La notation des phrases, comme son nom l’indique, note chaque phrase d’un texte en fonction de son importance pour ce texte. Différentes représentations mettent en œuvre diverses méthodes de notation. Par exemple, les approches de représentation thématique notent chaque phrase en fonction de la mesure dans laquelle elles expriment ou combinent individuellement des thèmes clés. Plus précisément, cela peut impliquer de pondérer les phrases en fonction de la cofréquence des mots-clés du thème. Les approches basées sur les graphes calculent la centralité des phrases. Ces algorithmes déterminent la centralité en utilisant la TF-IDF pour calculer la distance entre un nœud de phrase donné et le centroïde d’un document dans l’espace vectoriel.8

Sélection des phrases

La dernière étape générale des algorithmes extractifs est la sélection des phrases. Après avoir pondéré les phrases par importance, les algorithmes sélectionnent les n phrases les plus importantes pour un document ou un ensemble de ceux-ci. Ces phrases constituent le résumé généré. Mais que se passe-t-il s’il y a un chevauchement sémantique et thématique dans ces phrases ? L’étape de sélection des phrases vise à réduire la redondance dans les résumés finaux. Les méthodes de pertinence marginale maximale utilisent une approche itérative. Plus précisément, ils recalculent les scores d’importance des phrases en fonction de la similarité de cette phrase avec des phrases déjà sélectionnées. Les méthodes de sélection globale choisissent un sous-ensemble des phrases les plus importantes pour maximiser l’importance globale et réduire la redondance.9

Comme l’illustre cette présentation, la récapitulation de texte extractive est, en fin de compte, un problème de classement du texte (et, le plus souvent, des phrases). Les techniques de récapitulation de texte extractives classent les documents et leurs chaînes de test (les phrases, par exemple) dans l’ordre ou produisent un résumé qui correspond le mieux aux sujets principaux identifiés dans les textes concernés. En ce sens, la récapitulation extractive peut être comprise comme une forme de recherche d’information.10

Fonctionnement de la récapitulation de texte abstractive

Comme cela a été mentionné, les techniques de récapitulation de texte abstractives utilisent des réseaux neuronaux pour générer un texte original qui résume un ou plusieurs documents. Bien qu’il existe de nombreux types de méthodes de récapitulation de texte abstractive, l’ensemble des documents qui traitent du sujet ne présentent aucun système de classification global pour décrire ces méthodes.11 Néanmoins, il est possible de passer en revue les objectifs généraux de ces différentes méthodes.

Compression des phrases

Comme c’est le cas pour de nombreuses applications d’intelligence artificielle, la récapitulation de texte abstractive vise en fin de compte à imiter les résumés générés par l’homme. L’une des caractéristiques clés de ces derniers est la compression des phrases : les humains résument les textes et les phrases en les raccourcissant. Il existe deux approches générales de la compression des phrases : les méthodes basées sur des règles et les méthodes statistiques.

Les premières s’appuient sur des connaissances syntaxiques pour analyser les segments grammaticaux. Elles utilisent des mots-clés, des indices syntaxiques ou même des étiquettes de parties du discours pour extraire des extraits de texte qui sont ensuite fusionnés, souvent selon un modèle prédéfini. Ce modèle peut être généré à partir d’une analyse de texte automatisée supplémentaire ou de règles définies par l’utilisateur.2

Dans les approches statistiques, un modèle (qu’il soit obtenu par pré-entraînement ou par réglage fin) apprend quels segments de phrases doivent être supprimés. Par exemple, un analyseur syntaxique peut identifier des phrases similaires dans un texte d’entrée et les répartir dans une structure arborescente. Un arbre de dépendance est l’une de ces structures qui modélise les phrases en fonction de la relation perçue entre les mots, en s’alignant sur les arrangements sujet-prédicat. Une phrase de cette structure peut avoir le verbe comme nœud central, avec des sujets et des objets (c’est-à-dire des noms) et des conjonctions qui se ramifient. Des verbes supplémentaires se ramifient ensuite à partir des noms auxquels ils sont rattachés. Une fois le texte représenté dans une structure arborescente, l’algorithme sélectionne des mots ou des phrases communs qui seront utilisés par un réseau génératif pour créer un nouveau résumé.12

Fusion de l’information

Comme l’indique ce bref aperçu de la compression de phrases, la fusion d’informations est un autre aspect clé de la récapitulation abstractive. Les gens résument les documents en concentrant les informations de plusieurs passages en une seule phrase ou un seul syntagme.2 L’une des approches proposées pour imiter ce phénomène est la fusion de phrases à partir d’un ensemble de documents. Cette approche identifie les phrases qui reviennent le plus souvent dans un ensemble de documents et les fusionne au moyen d’une technique appelée calcul en treillis pour produire un résumé en anglais grammaticalement cohérent.13 Une autre méthode proposée utilise des modèles thématiques neuronaux pour générer des termes clés qui, à leur tour, guident la génération du résumé. Dans cette approche, les mots clés courants qui couvrent des points principaux sur plusieurs documents sont combinés en une seule phrase ou en un seul groupe.14

Ordre des informations

La dernière préoccupation en matière de récapitulation de texte abstractive est l’ordre des informations. Les informations résumées ne suivent pas nécessairement le même ordre que celui du document source initial. Lorsque les gens rédigent des résumés, par exemple, ils organisent souvent les informations par thème. L’une des méthodes utilisées pour l’organisation thématique est celle des clusters. Plus précisément, les phrases extraites sont organisées en clusters en fonction de leur contenu thématique (déterminé par les mots-clés cooccurrents). Dans cette lignée, les modèles thématiques neuronaux constituent une autre approche potentielle pour l’information ordonnée de manière thématique.2

Indicateurs d’évaluation

Les développeurs utilisent un certain nombre de mesures d’évaluation pour la récapitulation des textes. Les différences dans le choix des mesures dépendent généralement du type de résumé ainsi que de la caractéristique du résumé que l’on souhaite mesurer.

BLEU (« bilingual evaluation understudy ») est un indicateur d’évaluation couramment utilisé dans la traduction automatique. Il mesure la similarité entre la réalité de terrain et la sortie du modèle pour une séquence de n mots, appelés n-grammes. Dans la récapitulation de texte, l’indicateur BLEU mesure la fréquence et dans quelle mesure les n-grammes d’un résumé automatique se chevauchent avec ceux d’un résumé généré par l’humain, en tenant compte des répétitions de mots erronées dans le premier. Il utilise ensuite ces scores de précision pour les n-grammes individuels afin de calculer une précision de texte globale, appelée précision basée sur la moyenne géométrique. Cette valeur finale est comprise entre 0 et 1, la valeur de 1 indiquant un alignement parfait entre les résumés de texte générés par la machine et l’humain.15

ROUGE (« recall-oriented understudy for gisting evaluation ») est dérivé de BLEU et est spécialement conçu pour l’évaluation des tâches de récapitulation. Comme BLEU, il compare les résumés des machines aux résumés générés par les humains en utilisant des n-grammes. La différence est que BLEU mesure la précision des machines, tandis que ROUGE mesure le rappel des machines. En d’autres termes, ROUGE calcule la précision d’un résumé automatique en fonction du nombre de n-grammes provenant de la récapitulation générée par l’humain trouvé dans le résumé automatique. Le score ROUGE, comme le score BLEU, est une valeur comprise entre 0 et 1, la valeur de 1 indiquant un alignement parfait entre les résumés de texte générés par la machine et par l’humain.16

Notez que ces mesures évaluent la sortie du texte résumé final. Elles se distinguent de la myriade de méthodes de notation des phrases utilisées dans les algorithmes de récapitulation de texte, qui sélectionnent des phrases et des mots clés appropriés à partir desquels le résultat résumé final sera produit.

Cas d’utilisation

Un certain nombre de bibliothèques permettent aux utilisateurs d’implanter facilement des outils de récapitulation de texte en Python. Par exemple, la HuggingFace Transformers Library est dotée de BART, une architecture transformatrice encodeur-décodeur, qui permet de générer des résumés de texte. L’API Language Skills de OneAI fournit également des outils pour générer facilement des récapitulations de texte.

L’application la plus évidente de la récapitulation de texte est la recherche accélérée. Cela a des utilisations potentielles pour une variété de domaines, tels que le droit, l’enseignement universitaire et le marketing. Les chercheurs montrent également comment les transformers de récapitulation de texte peuvent faire avancer des tâches supplémentaires.

Actualités Les articles d’actualité constituent un ensemble de données courant pour tester et comparer les techniques de récapitulation de texte. La récapitulation n’est cependant pas toujours l’objectif final. Une poignée d’études examinent le rôle des résumés de texte issus des transformeurs comme mode d’extraction de caractéristiques pour alimenter les modèles de détection de fausses informations.17 Cette recherche montre un potentiel prometteur et illustre comment les résumés de texte peuvent être adoptés pour des utilisations plus larges que le simple fait de gagner du temps dans la lecture de nombreux textes.

Traduction La récapitulation multilingue est une branche de la récapitulation de texte qui coïncide partiellement avec la traduction automatique. Il ne s’agit pas d’un domaine de recherche aussi vaste que la récapitulation ou la traduction elles-mêmes. Néanmoins, l’objectif de la récapitulation d’un texte ou d’une collection de textes écrit(s) dans une langue source vers une langue cible différente pose de nouveaux défis.18 Une publication explore la récapitulation multilingue avec des textes historiques. Dans cette tâche, les variantes historiques de langue (par exemple, chinois ancien contre chinois moderne, ou grec Attique vers grec moderne) sont traitées comme des langues distinctes. Cette expérience spécifique utilise des plongements lexicaux, les méthodes de récapitulation extractive et abstrative et d’apprentissage par transfert pour produire des résumés modernes de documents écrits en langage ancien.19

Solutions connexes

Solutions connexes

IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP
Notes de bas de page

1 Juan-Manuel Torres-Moreno, Automatic Text Summary, Wiley, 2014.

2 Aggarwal, Machine Learning for Text, Springer. Bettina Berendt, « Text Mining for News and Blogs Analysis », Encyclopedia of Machine Learning and Data Science, Springer, 2020.

3 Haopeng Zhang, Xiao Liu et Jiawei Zhang, « Extractive Summarization via ChatGPT for Faithful Summary Generation », conclusions de l’Association for Computational Linguistics: EMNLP 2023, https://aclanthology.org/2023.findings-emnlp.214

4 Meng Cao, Yue Dong et Jackie Cheung, « Hallucinated but Factual! Inspecting the Factuality of Hallucinations in Abstractive Summarization », actes de la 60e réunion annuelle de l’Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.236

5 Jonathan Pilault, Raymond Li, Sandeep Subramanian et Chris Pal, « On Extractive and Abstractive Neural Document Summarization with Transformer Language Models », actes de la conférence 2020 sur les méthodes empiriques en matière de traitement automatique du langage naturel (EMNLP), 2020, https://aclanthology.org/2020.emnlp-main.748

6 Giuseppe Carenini et Jackie C. K. Cheung, « Extractive vs. NLG-based Abstractive Summarization of Evaluative Text: The Effect of Corpus Controversiality », actes de la cinquième conférence internationale sur la génération de langage naturel, 2008, https://aclanthology.org/W08-1106

7 Ani Nenkova et Kathleen McKeown, « A Survey of Text Summarization Techniques », Text Mining Data, Springer, 2012. Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea et Hoda K. Mohamed, « Automatic text summarization: A comprehensive survey », Expert Systems with Applications, 165, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030 

8 Ani Nenkova et Kathleen McKeown, « A Survey of Text Summarization Techniques », Text Mining Data, Springer, 2012. Steven Shearing, Abigail Gertner, Benjamin Wellner et Liz Merkhofe, « Automated Text Summarization: A Review and Recommendations », rapport technique, MITRE Corporation, 2020.

9 Ani Nenkova et Kathleen McKeown, « A Survey of Text Summarization Techniques », Text Mining Data, Springer, 2012.

10 Jade Goldstein, Mark Kantrowitz, Vibhu Mittal et Jaime Carbonell, « Summarizing Text Documents: Sentence Selection and Evaluation Metrics », actes de la 22e conférence internationale annuelle ACM SIGIR sur la recherche et le développement dans le domaine de la recherche d’information, 1999, pages 121 à 128, https://www.cs.cmu.edu/~jgc/publication/Summarizing_Text_Documents_Sentence_SIGIR_1999.pdf 

11 Som Gupta et S.K. Gupta, « Abstractive summarization: An overview of the state of the art », Expert Systems With Applications, 2019, https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 . Wafaa S. El-Kassas, Cherif R. Salama, Ahmed A. Rafea et Hoda K. Mohamed, « Automatic text summarization: A comprehensive survey », Expert Systems With Applications, 2021, https://www.sciencedirect.com/science/article/abs/pii/S0957417420305030 . Hui Lin et Vincent Ng, « Abstractive Summarization: A Survey of the State of the Art », actes de la conférence de l’AAAI sur l’intelligence artificielle, vol. 33, n° 1, 2019, pages 9815 à 9822, https://ojs.aaai.org/index.php/AAAI/article/view/5056 

12 Som Gupta et S.K. Gupta, « Abstractive summarization: An overview of the state of the art », Expert Systems With Applications, 2019, https://www.sciencedirect.com/science/article/abs/pii/S0957417418307735 . Regina Barzilay et Kathleen R. McKeown, « Sentence Fusion for Multidocument News Summarization », Computational Linguistics, vol. 31, n° 3, 2005, pages 297 à 328, https://aclanthology.org/J05-3002

13 Regina Barzilay et Kathleen R. McKeown, « Sentence Fusion for Multidocument News Summarization », Computational Linguistics, vol. 31, n° 3, 2005, pages 297 à 328, https://aclanthology.org/J05-3002

14 Peng Cui et Le Hu, « Topic-Guided Abstractive Multi-Document Summarization », conclusions de l’Association for Computational Linguistics: EMNLP 2021, https://aclanthology.org/2021.findings-emnlp.126

15 Kishore Papineni, Salim Roukos, Todd Ward et Wei-Jing Zhu, « Bleu: a Method for Automatic Evaluation of Machine Translation », actes de la 40e réunion annuelle de l’Association for Computational Linguistics, 2002, https://aclanthology.org/P02-1040/

16 Chin-Yew Lin, « ROUGE: A Package for Automatic Evaluation of Summaries », Text Summarization Branches Out, https://aclanthology.org/W04-1013

17 Soheil Esmaeilzadeh, Gao Xian Peh et Angela Xu, « Neural Abstractive Text Summarization and Fake News Detection », 2019, https://arxiv.org/abs/1904.00788 . Philipp Hartl et Udo Kruschwitz, « Applying Automatic Text Summarization for Fake News Detection », actes de la treizième conférence sur les ressources linguistiques et l’évaluation, 2022, https://aclanthology.org/2022.lrec-1.289

18 Jiaan Wang, Fandong Meng, Duo Zheng, Yunlong Liang, Zhixu Li, Jianfeng Qu et Jie Zhou, « A Survey on Cross-Lingual Summarization », transactions de l’Association for Computational Linguistics, vol. 10, 2022, https://aclanthology.org/2022.tacl-1.75

19 Xutan Peng, Yi Zheng, Chenghua Lin et Advaith Siddharthan, « Summarising Historical Text in Modern Languages », actes de la 16e conférence de la section européenne de l’Association for Computational Linguistics, 2021, https://aclanthology.org/2021.eacl-main.273