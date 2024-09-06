RAGの評価フレームワークや評価メトリクスは多岐にわたります。Ragas以外のフレームワークとしては、 IBMのUnitxtやOpenAIのEvalsなどがあります。他のフレームワークとは異なり、Ragasは別のLLMを審判として使用し、RAGパイプラインの性能を評価します。

RAGパイプラインの性能を測定するために利用できるメトリクスはいくつかあります。オープンソースのRagasフレームワークで今回使用するメトリクスは、以下の2つの部分に分割できます。

生成評価 忠実度 は、生成されたすべての答えが、検索されたコンテキストから推測できるかどうかを測定します。 回答の関連性 は、質問に対して生成された回答の関連性を測定します。

検索評価 コンテキストの精度 は、グラウンド・トゥルースに関連するエンティティのコンテキスト内での順位を測定します。コンテキストの精度が高いということは、グラウンド・トゥルースに関連する項目が「ノイズ」よりも高い順位に置かれていることを意味します。 コンテキスト想起 は、取得されたコンテキスト内で、LLMが生成したユーザー・クエリに対する回答がどの程度見つかるかを測定します。



これらのメトリクスは、RAGパイプラインがナレッジ・ベースから関連情報をどの程度適切に取得して応答を形成するかについての、主観的なプロキシーを意図したものです。データ、プロンプト、LLM に理想的なものは存在しないことに注意することが重要です。context_relevanceのスコアが低いコンテキストであっても、必ずしも不良コンテキストであるとは限りません。スコアが低いのは、ある程度の「ノイズ」や関連性の低い情報に起因しているか、あるいは単にタスク自体に複数の解釈が必要な可能性があるためです。また、ノイズは必ずしも悪いものとは限りません。私たち人間が質問に答える際も、理解可能な仕方で答えながらも、ある程度のノイズを作り出しています。

また、短い応答と長い応答のどちらかを優先するなど、RAGパイプラインの評価に影響を与えるバイアス（長さバイアスとも呼ばれる）もあります。このタイプのバイアスでは、内容ではなくその長さのために、ある回答が別の回答よりも高く評価される場合があります。

こうした理由から、複数の評価を実行することがベスト・プラクティスとなります。この演習は、LLMのプロンプト・テンプレート、メトリクス、評価のシーケンスなどを変更することで実施できます。また、RAGパイプライン用に独自のデータセットを作成している場合は、応答を生成するLLMと応答を批評するLLMにはそれぞれ異なるモデルを使用することが推奨されます。両方に同じモデルを使用すると、自己評価バイアスが生じる可能性が大きくなります。これらの評価メトリクスは主観的なものであるため、これらのフレームワークが出力した結果は人間の判断によって確認する必要があります。

このチュートリアルでは、RAGシステムの作成は行いません。代わりに、Ragasを使用して、以前に作成したRAGシステムのアウトプットを評価します。LangChainを使用してRAGシステムを構築する方法の詳細については、詳しいRAGチュートリアルを参照してください。