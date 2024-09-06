Ada banyak kerangka kerja evaluasi RAG dan metrik evaluasi yang berbeda. Selain Ragas, kerangka kerja lain termasuk Unitxt dari IBM dan Evals dari OpenAI. Berbeda dengan kerangka kerja lainnya, Ragas menggunakan LLM sebagai penilai lain untuk mengevaluasi kinerja saluran RAG.

Ada beberapa metrik evaluasi yang tersedia untuk mengukur kinerja saluran RAG kami. Metrik yang akan kita gunakan dalam kerangka kerja Ragas sumber terbuka dapat dibagi menjadi dua bagian:

Evaluasi pembuatan Kesetiaan mengukur apakah semua jawaban yang dihasilkan dapat disimpulkan dari konteks yang diambil. Relevansi jawaban mengukur relevansi jawaban yang dihasilkan terhadap pertanyaan.

Evaluasi pengambilan Ketepatan konteks mengukur peringkat entitas yang relevan dengan kebenaran dasar dalam konteks. Presisi konteks yang lebih tinggi berarti item yang relevan dengan kebenaran dasar diberi peringkat lebih tinggi daripada “ketidakakuratan.” Mengingat konteks mengukur sejauh mana jawaban yang dihasilkan LLM untuk pertanyaan pengguna dapat ditemukan dalam konteks yang diambil .



Metrik ini dimaksudkan sebagai proksi subjektif untuk mengukur seberapa baik saluran RAG mengambil informasi yang relevan dari basis pengetahuannya untuk membentuk respons. Penting untuk dicatat, tidak ada yang ideal untuk data, prompt, atau LLM. Bahkan konteks yang dengan skor context_relevance rendah belum tentu merupakan konteks yang buruk. Skor rendah mungkin disebabkan oleh sejumlah "ketidakakuratan", atau informasi yang kurang relevan, atau hanya karena tugas itu sendiri memiliki berbagai interpretasi. Ketidakakuratan juga tidak selalu buruk. Kita, sebagai manusia, menghasilkan sejumlah ketidakakuratan dalam respons kita, dan juga dapat dimengerti dalam menjawab pertanyaan.

Ada juga bias yang memengaruhi evaluasi saluran RAG seperti preferensi untuk respons yang lebih pendek atau lebih panjang, atau dikenal sebagai bias rentang. Jenis bias ini dapat menyebabkan satu respons dievaluasi lebih tinggi daripada yang lain karena rentang dan bukan substansinya.

Karena alasan inilah, praktik terbaik adalah melakukan beberapa evaluasi. Latihan ini dapat dilakukan dengan mengubah templat prompt LLM, metrik, urutan evaluasi, dan banyak lagi. Jika Anda membuat kumpulan data sendiri untuk saluran RAG Anda, disarankan juga untuk menggunakan model yang berbeda untuk LLM yang menghasilkan tanggapan dan LLM yang mengkritik tanggapan. Jika model yang sama digunakan untuk keduanya, ada potensi yang lebih besar untuk bias evaluasi diri. Karena metrik evaluasi ini bersifat subjektif, hasil yang dihasilkan oleh kerangka kerja ini juga harus diperiksa oleh juri manusia.

Dalam tutorial ini, kami tidak membuat sistem RAG. Sebagai gantinya, kami menggunakan Ragas untuk mengevaluasi output dari sistem RAG yang dibuat sebelumnya. Untuk informasi lebih lanjut tentang cara membangun sistem RAG Anda menggunakan LangChain, lihat tutorial RAG terperinci kami.