出力メタデータのドリフト評価指標

出力メタデータドリフトメトリックは、LLM出力テキストメタデータの分布の変化を測定します。

メトリックの詳細

出力メタデータのドリフトは、 v2 評価指標であり、モデルの一貫した結果を確保するために、時間の経過とともにデータに生じる変化を測定するのに役立ちます。

LLMの出力テキストのメタデータで、出力メタデータのドリフトが測定されるのは、以下の種類です

文字数 : 出力テキストの合計文字数
単語数 : 出力テキスト内の単語の総数
トークン数 : 出力テキスト内のトークンの総数
文数 : 出力テキスト内の文の総数
平均単語長 : 出力テキスト内の単語の平均長
総単語長 : 出力テキスト内の単語の合計長
平均文長 : 出力テキスト内の文の平均長

有効範囲 (Scope)

出力メタデータのドリフトは、生成型AI 資産のみを評価します。

  • AI 資産の種類: テンプレートを即座に表示
  • 生成型AIのタスク
    • テキストの要約
    • テキストの分類
    • コンテンツの生成
    • 質問への回答
  • 対応言語 :英語

スコアと価値

出力メタデータドリフトスコアは、LLM出力テキストメタデータの分布の変化を示します。

  • 値の範囲 : 0.0-1.0
  • 最高得点 : 0.0
  • 比率:
    • 0:変化は検出されません。
    • 0以上:変化が増加していることが検出された。

評価プロセス

Watsonx.governance メタデータ列の分布の変化を測定することで、出力メタデータのドリフトを計算します。 ペイロードに存在する場合、出力トークンカウントの列は出力メタデータのドリフトを計算するためにも使用されます。 また、ペイロードテーブルにレコードを追加する際に任意のメタフィールドを指定することもできます。 これらのメタフィールドは、出力メタデータのドリフトを計算するためにも使用されます。

計算

離散的な数値出力メタデータ列を特定するために、以下の2進対数式が使用されます

2進対数表記が表示されます

If the `distinct_values_count` is less than the binary logarithm of the `total_count`, the feature is identified as discrete.

For discrete output metadata columns, watsonx.governance uses the [Jensen Shannon distance](#jensen-shannon-distance) formula to calculate output metadata drift.

For continuous output metadata columns, watsonx.governance uses the [total variation distance](#total-variation-distance) and [overlap coefficient](#overlap-coefficient) formulas to calculate output metadata drift: 

離散的な出力メタデータ列の出力メタデータのドリフトを計算するには、以下のJensen Shannon距離の公式を使用します

Jensen Shannonの距離公式が表示されます

Jensen Shannon Distanceは、ある確率分布が2番目の確率分布とどの程度異なるかを測定する、正規化されたKullback-Leibler(KL)発散の形式です。 Jensen Shannon Distanceは対称的なスコアであり、常に有限の値を持つ。

KLダイバージェンスが表示されます KLダイバージェンスである。

総変動距離とオーバーラップ係数の計算式は、連続出力メタデータ列の出力メタデータのドリフトを計算するために使用されます。

総変動距離は、次の式で示されるように、2つの確率分布、ベースライン(B)と生産(P)が同じトランザクションに割り当てる確率の最大差を測定します

確率分布式が表示されます

2つの分布が等しい場合、それらの間の総変動距離は0になります。

総変動距離の計算には、以下の式が使用されます

総変動距離の計算式が表示されます

  • 𝑥は、 アクサンツルフは表示されます のドメインにわたる等間隔のサンプルの系列であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲である。

  • d(x)の記号が表示されます は、2つの連続した𝑥サンプル間の差分です。

  • 式の説明 𝑥サンプルにおける生産データの密度関数値です。

  • 式の説明 𝑥サンプルにおけるベースラインデータの密度関数値です。

式の説明 の分母は、生産データとベースラインデータの密度関数プロットの総面積を表します。 これらの合計は、ドメイン空間における積分の近似値であり、両方の項は1、合計は2であるべきです。

重複係数は、2つの確率分布の交差部分の総面積を測定することで算出されます。 分布間の非類似性を測定するには、交差または重複領域を1から減算してドリフト量を算出します。 重複係数の算出には、以下の公式が使用されます

重なり係数式が表示されます

  • 𝑥は、 アクサンツルフは表示されます のドメインにわたる等間隔のサンプルの系列であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲である。

  • d(x)の記号が表示されます は、2つの連続した𝑥サンプル間の差分です。

  • 式の説明 𝑥サンプルにおける生産データの密度関数値です。

  • 式の説明 𝑥サンプルにおけるベースラインデータの密度関数値です。

親トピック: 評価基準