生成AIの品質評価の設定

生成AIの品質評価を設定することで、基盤モデルがタスクをどの程度うまくこなしているかを測定できます。

プロンプトテンプレートを評価する際、以下のタスクタイプについて、生成AIの品質評価結果の概要を確認できます:

  • テキストの要約
  • コンテンツの生成
  • エンティティー抽出
  • 質問への回答
  • 検索拡張生成 (RAG)

この概要には、デフォルト設定で計算されたメトリックトリクスのスコアと違反状況が表示されます。

生成AIの品質評価を独自の設定で構成するには、以下の例に示すように、最小サンプルサイズを設定し、 メトリックの閾値を設定することができます

生成AIの品質評価を設定する

最小サンプルサイズは、評価対象とするモデル取引レコードの最小数を示し、しきい値は、 メトリックスコアがしきい値を超えた場合にアラートを発する閾値となります。 違反を回避するためには、 メトリックスコアが下限値を上回っている必要があります。 メトリック値が高いほど、スコアが良いことを示します。

また、LLM-as-a-judge モデルを使用してメトリクスを計算するように設定することもできます。 「LLM-as-a-judge」モデルとは、他のモデルの性能を評価するために使用できるLLMモデルのことです。

LLM-as-a-judge モデルを使用してメトリクスを計算するには、評価設定を構成する際に [管理] を選択し、システム generative_ai_evaluator を追加する必要があります。

LLM-as-a-judgeモデルの評価用に、ジェネレーティブAI評価ツールを追加する

回答の品質や検索結果の品質に関する指標を算出するために、評価者を選択することができます。

メトリクスの設定用にGen AI評価器を選択する

また、 watsonx.governance でプロンプトテンプレートを設定したり、RAGタスクの評価結果を確認したりする際にも、 ノートブックを使用して評価器を作成することができます。