出力メタデータのドリフト評価指標
出力メタデータドリフトメトリックは、LLM出力テキストメタデータの分布の変化を測定します。
メトリックの詳細
出力メタデータのドリフトは、 v2 評価指標であり、モデルの一貫した結果を確保するために、時間の経過とともにデータに生じる変化を測定するのに役立ちます。
LLMの出力テキストのメタデータで、出力メタデータのドリフトが測定されるのは、以下の種類です
文字数 : 出力テキストの合計文字数
単語数 : 出力テキスト内の単語の総数
トークン数 : 出力テキスト内のトークンの総数
文数 : 出力テキスト内の文の総数
平均単語長 : 出力テキスト内の単語の平均長
総単語長 : 出力テキスト内の単語の合計長
平均文長 : 出力テキスト内の文の平均長
有効範囲 (Scope)
出力メタデータのドリフトは、生成型AI 資産のみを評価します。
- AI 資産の種類: テンプレートを即座に表示
- 生成型AIのタスク :
- テキストの要約
- テキストの分類
- コンテンツの生成
- 質問への回答
- 対応言語 :英語
スコアと価値
出力メタデータドリフトスコアは、LLM出力テキストメタデータの分布の変化を示します。
- 値の範囲 : 0.0-1.0
- 最高得点 : 0.0
- 比率:
- 0:変化は検出されません。
- 0以上:変化が増加していることが検出された。
評価プロセス
Watsonx.governance メタデータ列の分布の変化を測定することで、出力メタデータのドリフトを計算します。 ペイロードに存在する場合、出力トークンカウントの列は出力メタデータのドリフトを計算するためにも使用されます。 また、ペイロードテーブルにレコードを追加する際に任意のメタフィールドを指定することもできます。 これらのメタフィールドは、出力メタデータのドリフトを計算するためにも使用されます。
計算
離散的な数値出力メタデータ列を特定するために、以下の2進対数式が使用されます
If the `distinct_values_count` is less than the binary logarithm of the `total_count`, the feature is identified as discrete.
For discrete output metadata columns, watsonx.governance uses the [Jensen Shannon distance](#jensen-shannon-distance) formula to calculate output metadata drift.
For continuous output metadata columns, watsonx.governance uses the [total variation distance](#total-variation-distance) and [overlap coefficient](#overlap-coefficient) formulas to calculate output metadata drift:
離散的な出力メタデータ列の出力メタデータのドリフトを計算するには、以下のJensen Shannon距離の公式を使用します
Jensen Shannon Distanceは、ある確率分布が2番目の確率分布とどの程度異なるかを測定する、正規化されたKullback-Leibler(KL)発散の形式です。 Jensen Shannon Distanceは対称的なスコアであり、常に有限の値を持つ。
KLダイバージェンスである。
総変動距離とオーバーラップ係数の計算式は、連続出力メタデータ列の出力メタデータのドリフトを計算するために使用されます。
総変動距離は、次の式で示されるように、2つの確率分布、ベースライン(B)と生産(P)が同じトランザクションに割り当てる確率の最大差を測定します
2つの分布が等しい場合、それらの間の総変動距離は0になります。
総変動距離の計算には、以下の式が使用されます
𝑥は、
のドメインにわたる等間隔のサンプルの系列であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲である。
は、2つの連続した𝑥サンプル間の差分です。
𝑥サンプルにおける生産データの密度関数値です。
𝑥サンプルにおけるベースラインデータの密度関数値です。
の分母は、生産データとベースラインデータの密度関数プロットの総面積を表します。 これらの合計は、ドメイン空間における積分の近似値であり、両方の項は1、合計は2であるべきです。
重複係数は、2つの確率分布の交差部分の総面積を測定することで算出されます。 分布間の非類似性を測定するには、交差または重複領域を1から減算してドリフト量を算出します。 重複係数の算出には、以下の公式が使用されます
𝑥は、
のドメインにわたる等間隔のサンプルの系列であり、ベースラインと生産データの最小値の合計から最大値の合計までの範囲である。
は、2つの連続した𝑥サンプル間の差分です。
𝑥サンプルにおける生産データの密度関数値です。
𝑥サンプルにおけるベースラインデータの密度関数値です。
親トピック: 評価基準