Tolok ukur menerapkan metrik yang berbeda untuk mengevaluasi kinerja LLM. Berikut beberapa hal yang umum:
Akurasi atau presisi menghitung persentase prediksi yang benar.
Â
Recall, yang juga disebut tingkat sensitivitas, mengukur jumlah positif sebenarnya, yaitu prediksi yang benar.
Â
Skor F1 memadukan akurasi dan ingatan menjadi satu metrik. Metrik ini menganggap kedua ukuran memiliki bobot yang sama untuk menyeimbangkan positif palsu atau negatif palsu. Skor F1 berkisar dari 0 hingga 1, dengan 1 menandakan ingatan dan presisi yang sangat baik.
Â
Kecocokan tepat (Exact match) adalah proporsi prediksi yang dibuat oleh LLM secara tepat dan merupakan kriteria berharga untuk penerjemahan dan tanya jawab.
Â
Perplexity mengukur seberapa baik sebuah model dalam memprediksi. Makin rendah skor perplexity LLM, makin baik kemampuannya dalam memahami suatu tugas.
Â
Bilingual evaluation understudy (BLEU) mengevaluasi terjemahan mesin dengan menghitung pencocokan n-gram (sekuens n-simbol teks yang berdekatan) antara terjemahan yang diprediksi oleh LLM dan terjemahan yang dibuat oleh manusia.
Â
Recall-oriented understudy for gisting evaluation (ROUGE) mengevaluasi ringkasan teks dan memiliki beberapa jenis. ROUGE-N, misalnya, melakukan perhitungan yang serupa dengan BLEU untuk ringkasan, sementara ROUGE-L menghitung urutan umum terpanjang antara ringkasan yang diprediksi dan ringkasan yang dibuat oleh manusia.
Satu atau lebih metrik kuantitatif ini biasanya digabungkan untuk penilaian yang lebih komprehensif dan kuat.
Sementara itu, evaluasi manusia melibatkan metrik kualitatif seperti koherensi, relevansi, dan makna semantik. Penilai manusia yang memeriksa dan menilai LLM dapat memberikan penilaian yang lebih bernuansa, tetapi bisa jadi membutuhkan banyak tenaga kerja, subyektif, dan memakan waktu. Oleh karena itu, keseimbangan metrik kuantitatif dan kualitatif diperlukan.