Pengembang menggunakan sejumlah metrik evaluasi untuk ringkasan teks. Perbedaan dalam metrik umumnya bergantung pada jenis ringkasan serta fitur ringkasan yang ingin diukur.
BLEU (bilingual evaluation understudy) adalah metrik evaluasi yang biasa digunakan dalam penerjemahan mesin. Metode ini mengukur kemiripan antara kebenaran dasar dan hasil model untuk urutan n kata, yang dikenal sebagai n-gram. Dalam peringkasan teks, BLEU mengukur seberapa sering, dan sejauh mana, n-gram dalam ringkasan otomatis tumpang tindih dengan ringkasan yang dibuat oleh manusia, dengan memperhitungkan pengulangan kata yang salah pada ringkasan yang dibuat oleh manusia. Kemudian menggunakan skor presisi ini untuk masing-masing n-gram untuk menghitung presisi teks secara keseluruhan, yang dikenal sebagai presisi rata-rata geometris. Nilai akhir ini antara 0 dan 1, nilai terakhir menunjukkan keselarasan yang sempurna antara ringkasan teks yang dibuat oleh mesin dan manusia.15
ROUGE (evaluasi ringkasan khusus menggunakan standar recall) diambil dari BLEU untuk mengukur kualitas ringkasan teks. Seperti BLEU, ia membandingkan ringkasan mesin dengan ringkasan yang dibuat manusia menggunakan n-gram. Namun, sementara BLEU mengukur presisi mesin, ROUGE mengukur penarikan kembali mesin. Dengan kata lain, ROUGE menghitung keakuratan ringkasan otomatis berdasarkan jumlah n-gram dari ringkasan buatan manusia yang ditemukan dalam ringkasan otomatis. Skor ROUGE, seperti BLEU, adalah nilai antara 0 dan 1, yang terakhir menunjukkan keselarasan sempurna antara ringkasan teks yang dihasilkan mesin dan manusia.16
Perhatikan bahwa metrik ini mengevaluasi hasil akhir teks ringkasan. Mereka berbeda dari berbagai metode penilaian kalimat yang digunakan dalam algoritma peringkasan teks yang memilih kalimat dan kata kunci yang sesuai untuk menghasilkan ringkasan akhir.