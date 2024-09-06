有许多不同的 RAG 评估框架和评估指标。除了 Ragas 评估框架之外，其他评估框架还包括 IBM 的 Unitxt 以及 OpenAI 的 Evals 评估工具包。与其他框架不同，Ragas 使用另一个 LLM 作为评判者来评估 RAG 管道的性能。

针对评估 RAG 管道性能的需求，目前存在多种可用的评估指标。在开源 Ragas 框架中，我们将使用的评估指标可分为两部分：

生成结果评估 忠实度 衡量所有生成的答案是否均能从检索到的上下文中推断得出。 答案相关性 衡量生成的答案与问题的相关性。

检索评估 上下文精确度 用于衡量真实相关实体在上下文中的排序质量。上下文精确度越高，表明真实相关条目在排序中优先于“噪声”条目。 上下文召回率 衡量的是 LLM 对用户查询生成的回答有多大程度能够在所检索到的上下文中找到。



这些指标旨在主观地衡量 RAG 管道从其知识库中检索相关信息以形成响应的能力。值得注意的是，没有理想完美的数据、提示或 LLM。即使上下文相关性得分较低，也不一定是糟糕的上下文。较低的分数可能是由于存在一定程度的“噪声”或不太相关的信息，或者仅仅是因为任务本身存在多种解释空间。噪音也不一定是坏事。我们人类在回答问题时，即使能够表达清晰，也会在回答中产生一定程度的噪声。

在评估 RAG 管道时，还会受到一些偏差的影响，例如对较短或较长回答的偏好，这通常被称为长度偏差。这种类型的偏差可能导致一种响应因其长度而不是实质内容而被评估得高于另一种响应。

因此，进行多次评估是最佳实践。这一操作可以通过调整 LLM 的提示模板、评估指标、评估顺序等方式来完成。如果您正在为 RAG 管道创建自己的数据集，建议对生成响应的 LLM 和对响应进行评判的 LLM 使用不同的模型。如果两者使用的是同一个模型，则更有可能出现自我评估偏差。由于这些评估指标具有主观性，这些框架产生的结果也应由人工评审进行核查。

在本教程中，我们将不会创建 RAG 系统。相反，我们使用 Ragas 来评估先前创建的 RAG 系统的输出。有关如何使用 LangChain 构建 RAG 系统的更多信息，请参阅我们详细的 RAG 教程。