다양한 RAG 평가 프레임워크와 평가 지표가 존재합니다. Ragas 외에도 IBM의 Unitxt 및 OpenAI의 Evals과 같은 프레임워크가 있습니다. 다른 프레임워크와 달리 Ragas는 또 다른 LLM을 심판 역할로 사용하여 RAG 파이프라인의 성능을 평가합니다.

RAG 파이프라인의 성능을 측정하기 위해 사용할 수 있는 여러 평가 지표가 있습니다. 오픈 소스 Ragas 프레임워크에서 사용할 지표는 두 부분으로 나눌 수 있습니다.

생성 평가 충실도 는 생성된 모든 답변이 검색된 컨텍스트로부터 도출될 수 있는지를 측정합니다. 답변 관련성 은 생성된 응답이 질문과 얼마나 관련이 있는지를 측정합니다.

검색 평가 컨텍스트 정밀도 는 컨텍스트 내에서 참값과 관련된 엔티티의 순위를 측정합니다. 컨텍스트 정밀도가 높을수록 실제 관련 항목이 '노이즈'보다 높은 순위에 위치함을 의미합니다. 컨텍스트 재현율 은 LLM이 생성한 사용자 쿼리의 응답이 검색된 컨텍스트에서 얼마나 발견될 수 있는지를 측정합니다.



이러한 지표는 RAG 파이프라인이 지식 베이스에서 관련 정보를 검색하여 응답을 형성하는 능력을 측정하는 주관적인 대체 척도로 사용됩니다. 데이터, 프롬프트 또는 LLM에 대해 완벽한 기준은 존재하지 않는다는 점에 유의해야 합니다. context_relevance 점수가 낮은 컨텍스트라도 반드시 나쁜 컨텍스트라고 할 수는 없습니다. 낮은 점수는 일부 '노이즈' 또는 관련성이 낮은 정보 때문일 수도 있고 단순히 작업 자체가 여러 가지로 해석될 수 있기 때문일 수 있습니다. 노이즈 또한 반드시 부정적인 것은 아닙니다. 인간 역시 질문에 답변할 때 일정 수준의 노이즈를 포함하여 응답하면서도 이해 가능한 답변을 제공합니다.

RAG 파이프라인의 평가에는 짧은 응답이나 긴 응답을 선호하는 경향, 즉 길이 편향과 같은 여러 가지 편향도 영향을 미칩니다. 이러한 편향 때문에 한 응답이 내용이 아닌 길이로 인해 다른 응답보다 더 높은 평가를 받을 수 있습니다.

이러한 이유로 여러 평가를 수행하는 것이 최선의 방법입니다. 이 작업은 LLM의 프롬프트 템플릿, 지표, 평가 순서 등을 변경함으로써 수행할 수 있습니다. RAG 파이프라인용 데이터 세트를 생성하는 경우, 응답을 생성하는 LLM과 응답을 평가하는 LLM에 서로 다른 모델을 사용하는 것이 좋습니다. 두 작업에 동일한 모델을 사용하면 자기 평가 편향이 발생할 위험이 커집니다. 이러한 평가 지표는 주관적이기 때문에 프레임워크에서 생성된 결과는 사람에 의한 검증도 함께 이루어져야 합니다.

이 튜토리얼에서는 RAG 시스템을 구축하지 않습니다. 대신 Ragas를 사용하여 이전에 생성된 RAG 시스템의 아웃풋을 평가합니다. LangChain을 사용하여 RAG 시스템을 구축하는 방법에 대한 자세한 내용은 자세한 RAG 튜토리얼을 참조하세요.