Les développeurs utilisent un certain nombre de mesures d’évaluation pour la récapitulation des textes. Les différences dans le choix des mesures dépendent généralement du type de résumé ainsi que de la caractéristique du résumé que l’on souhaite mesurer.
BLEU (« bilingual evaluation understudy ») est un indicateur d’évaluation couramment utilisé dans la traduction automatique. Il mesure la similarité entre la réalité de terrain et la sortie du modèle pour une séquence de n mots, appelés n-grammes. Dans la récapitulation de texte, l’indicateur BLEU mesure la fréquence et dans quelle mesure les n-grammes d’un résumé automatique se chevauchent avec ceux d’un résumé généré par l’humain, en tenant compte des répétitions de mots erronées dans le premier. Il utilise ensuite ces scores de précision pour les n-grammes individuels afin de calculer une précision de texte globale, appelée précision basée sur la moyenne géométrique. Cette valeur finale est comprise entre 0 et 1, la valeur de 1 indiquant un alignement parfait entre les résumés de texte générés par la machine et l’humain.15
ROUGE (« recall-oriented understudy for gisting evaluation ») est dérivé de BLEU et est spécialement conçu pour l’évaluation des tâches de récapitulation. Comme BLEU, il compare les résumés des machines aux résumés générés par les humains en utilisant des n-grammes. La différence est que BLEU mesure la précision des machines, tandis que ROUGE mesure le rappel des machines. En d’autres termes, ROUGE calcule la précision d’un résumé automatique en fonction du nombre de n-grammes provenant de la récapitulation générée par l’humain trouvé dans le résumé automatique. Le score ROUGE, comme le score BLEU, est une valeur comprise entre 0 et 1, la valeur de 1 indiquant un alignement parfait entre les résumés de texte générés par la machine et par l’humain.16
Notez que ces mesures évaluent la sortie du texte résumé final. Elles se distinguent de la myriade de méthodes de notation des phrases utilisées dans les algorithmes de récapitulation de texte, qui sélectionnent des phrases et des mots clés appropriés à partir desquels le résultat résumé final sera produit.