Os desenvolvedores usam várias métricas de avaliação para resumo de texto. As diferenças nas métricas geralmente dependem do tipo de resumo, assim como da funcionalidade do resumo que se deseja medir.
O BLEU (bilíngue evaluation understudy) é uma métrica de avaliação comumente usada em tradução automática. Ele mede a similaridade entre a verdade fundamentale a saída do modelo para uma sequência de n palavras, conhecidas como n-gramas. Na sumarização de textos, o BLEU mede a frequência e a extensão da sobreposição dos n-gramas em um resumo automático com os de um resumo gerado por um ser humano, levando em conta repetições errôneas de palavras no primeiro. Em seguida, utiliza essas pontuações de precisão para n-gramas individuais para calcular uma precisão geral do texto, chamada de média geométrica da precisão. Esse valor final varia entre 0 e 1, sendo que 1 indica um alinhamento perfeito entre os resumos de texto gerados por máquinas e por seres humanos.15
O ROUGE (recall-oriented understudy for gisting evaluation) é uma métrica desenvolvida a partir do BLEU, especificamente para a avaliação de tarefas de sumarização. Assim como o BLEU, ele compara resumos gerados por máquinas com resumos feitos por seres humanos utilizando n-gramas. Mas, enquanto o BLEU avalia a precisão das máquinas, o ROUGE mede o recall das máquinas. Em outras palavras, o ROUGE calcula a precisão de um resumo automático com base na quantidade de n-gramas da sumarização gerada por seres humanos encontrados no resumo automático. A pontuação do ROUGE, assim como a do BLEU, varia entre 0 e 1, sendo que 1 indica um alinhamento perfeito entre os resumos de texto gerados por máquinas e por seres humanos.16
Observe que essas métricas avaliam o texto final resumido gerado. Essas métricas são diferentes dos inúmeros métodos de pontuação de sentenças empregados em algoritmos de resumo de texto, que escolhem sentenças e palavras-chave adequadas para gerar o output final resumido.