Entwickler verwenden verschiedene Bewertungsmetriken zur Bewertung von Textzusammenfassungen. Unterschiede in den Metriken hängen in der Regel von der Art der Zusammenfassung ab und davon, welches Merkmal der Zusammenfassung gemessen werden soll.
BLEU (Bilingual Evaluation Understudy) ist eine Bewertungsmetrik, die häufig in der maschinellen Übersetzung verwendet wird. Sie misst die Ähnlichkeit zwischen der Referenzübersetzung (Ground Truth) und der Ausgabe des Modells für eine Folge von n Wörtern, die als N-Gramme bezeichnet werden. In der Textzusammenfassung misst BLEU, wie oft und in welchem Ausmaß N-Gramme in einer automatischen Zusammenfassung mit denen einer menschlich erstellten Zusammenfassung übereinstimmen, und berücksichtigt dabei fehlerhafte Wortwiederholungen in der ersteren. Anschließend werden diese Präzisionswerte für einzelne N-Gramme verwendet, um eine Gesamtpräzision des Textes zu berechnen, die als geometrisches Mittel der Präzision bezeichnet wird. Dieser Endwert liegt zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung zwischen der maschinell und menschlich erzeugten Textzusammenfassung anzeigt.15
ROUGE (Recall-Oriented Understudy for Gisting Evaluation) wurde aus BLEU speziell zur Bewertung von Zusammenfassungsaufgaben abgeleitet. Wie BLEU vergleicht ROUGE maschinelle Zusammenfassungen mit von Menschen erstellten Zusammenfassungen unter Verwendung von N-Grammen. Aber während BLEU die Präzision der Maschine misst, misst ROUGE den Recall (Trefferquote) der Maschine. Mit anderen Worten: ROUGE berechnet die Genauigkeit einer automatischen Zusammenfassung anhand der Anzahl der N-Gramme aus der von Menschen erstellten Zusammenfassung, die in der automatischen Zusammenfassung gefunden wurden. Der ROUGE-Score liegt ebenso wie der BLEU-Score zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung zwischen der maschinellen und menschlichen Zusammenfassung anzeigt.16
Beachten Sie, dass diese Metriken das endgültige Ergebnis der Zusammenfassung auswerten. Sie unterscheiden sich von den zahlreichen Satzbewertungsmethoden, die innerhalb der Textzusammenfassungsalgorithmen verwendet werden, um geeignete Sätze und Schlüsselwörter auszuwählen, aus denen die finale Zusammenfassung erstellt wird.