Los desarrolladores emplean un serial de métricas de evaluación para el resumen de texto. Las diferencias en las métricas generalmente dependen del tipo de resumen, así como de la característica del resumen que se quiere medir.
BLEU (suplente de evaluación bilingüe) es una métrica de evaluación habitualmente utilizada en la traducción automática. Mide la similitud entre la realidad fundamental y la salida del modelo para una secuencia de n palabras, conocida como n-gramas. En el resumen de texto, BLEU mide con qué frecuencia y en qué medida los n-gramas de un resumen automático se superponen con los de un resumen generado por humanos, teniendo en cuenta las repeticiones erróneas de palabras en el primero. A continuación, emplea estos puntajes de precisión para n-gramas individuales para calcular una precisión general del texto, conocida como precisión media geométrica. Este valor final está entre 0 y 1, lo que indica una alineación perfecta entre los resúmenes de texto generados por la máquina y los humanos.15
ROUGE (suplente orientado a la recuperación para la evaluación gisting) se deriva de BLEU específicamente para evaluar tareas de resumen. Al igual que BLEU, compara resúmenes de máquinas con resúmenes generados por humanos empleando n-gramas. Pero mientras BLEU mide la precisión de la máquina, ROUGE mide la recuperación de la máquina. En otras palabras, ROUGE calcula la precisión de un resumen automático según la cantidad de n-gramas del resumen generado por humanos que se encuentra en el resumen automático. El puntaje ROUGE, al igual que BLEU, es cualquier valor entre 0 y 1, siendo este último el que indica una alineación perfecta entre los resúmenes de texto generados por la máquina y por el hombre.16
Tenga en cuenta que estas métricas evalúan el resultado final del texto resumido. Son distintos de los innumerables métodos de puntaje de frases empleados en los algoritmos de resumen de textos que seleccionan frases y palabras clave adecuadas a partir de las cuales se produce el resultado final resumido.