Gli sviluppatori utilizzano una serie di metriche di valutazione per il riassunto del testo. Le differenze nelle metriche dipendono generalmente dal tipo di riassunto e dalla funzione del riassunto che si desidera misurare.
BLEU (bilingual evaluation understudy) è una metrica di valutazione comunemente utilizzata nella traduzione automatica. Misura la somiglianza tra la verità di base e l'output del modello per una sequenza di n parole, note come n-grammi. Nella sintesi del testo, BLEU misura la frequenza e la misura in cui gli n-grammi di un riassunto automatico si sovrappongono a quelli di un riassunto generato dall'uomo, tenendo conto delle ripetizioni di parole non corrette nel primo. Utilizza quindi questi punteggi di precisione per i singoli n-grammi per calcolare una precisione complessiva del testo, nota come precisione media geometrica. Questo valore finale è compreso tra 0 e 1, con l'1 che indica un perfetto allineamento tra la macchina e i riassunti di testo generati dall'uomo.15
ROUGE (recall-oriented understudy for gisting evaluation) è derivato dal BLEU specificamente per la valutazione delle attività di riassunto. Come BLEU, confronta i riassunti delle macchine con i riassunti generati dall'uomo utilizzando n-grammi. Ma mentre BLEU misura la precisione della macchina, ROUGE misura la capacità di richiamo della macchina. In altre parole, ROUGE calcola l'accuratezza di un riassunto automatico in base al numero di n-grammi del riassunto generato dall'uomo trovato nel riassunto automatico. Il punteggio ROUGE, come BLEU, è qualsiasi valore compreso tra 0 e 1, con l'1 che indica un perfetto allineamento tra la macchina e i riassunti di testo generati dall'uomo.16
Tieni presente che queste metriche valutano l'output finale del testo riassunto. Si distinguono dalla miriade di metodi di punteggio delle frasi utilizzati all'interno degli algoritmi di sintesi del testo che selezionano frasi e parole chiave adatte da cui produrre l'output finale riassunto.