評価結果のレビュー
評価を設定すると、評価結果を分析してモデルのパフォーマンスに関する洞察を得ることができます。 ダッシュボードには、パフォーマンスの詳細を確認したり、アラートに関する情報を共有したり、レポートを印刷したりするためのツールが用意されています。
インサイトダッシュボードで確認できる詳細には、以下のようなものがあります:
- 品質結果を確認して、デプロイされたモデルがトランザクションを正しく分析したかどうかを判別するのに役立つコンフュージョン・マトリックスを確認します。
- ドリフト結果を表示して、正確度の低下、データ整合性の低下、またはその両方の原因となっているトランザクションを確認します。
- モデルの正常性評価結果を検査します。この結果には、異なるディメンションに相関するスコアカード・タイルを使用して、前回の評価中に生成された評価指標の要約が表示されます。

「洞察」ダッシュボードで結果を表示するには、以下のようにします。
Watson OpenScaleで、アクティビティーアイコン
をクリックして、「Insights ダッシュボード」を開きます。結果を表示するデプロイメント・モデル・タイルを選択します。 前回の評価結果が表示されます。
評価セクションの矢印
をクリックすると、指定した 「時間フレーム」 設定および 「日付範囲」 設定内の評価結果のデータ可視化が表示されます。 選択した時間フレームの最後の評価も、関連付けられたデータ範囲の間に表示されます。以下のいずれかの分析オプションを選択して、モデルに関する詳細を表示するには、 「アクション」 メニューを使用します。
- すべての評価: 実動前モデルの場合、評価の履歴を表示して、時間の経過とともに結果がどのように変化するかを把握します。
- 比較: モデルをマトリックス・グラフと比較して、主要なメトリックを強調表示します。これは、モデルのどのバージョンが実動に対応しているか、または追加のトレーニングを必要とする可能性があるモデルを判別するのに役立ちます。
- モデル情報の表示: モデルに関する詳細を表示して、デプロイメント環境がどのようにセットアップされているかを理解します。
- レポート PDF のダウンロード: すべてのメトリックと、それらがどのようにスコアリングされたかについての説明を提供するモデル・サマリー・レポートを生成します。
- アラートのセットアップ: しきい値違反に関するアラートを E メール・アドレスに送信します。
「アクション」 メニューを使用して、モデル評価のデータを管理することもできます。 詳しくは、 モデル・トランザクションの送信を参照してください。
時系列チャートでは、集計された評価がデータポイントとして表示され、特定の時間の結果を表示するために選択することができます。 デフォルトの集計動作により、時系列チャートにカーソルを置いたときに表示される各データポイントのタイムスタンプが、最新の評価のタイムスタンプと一致しない。
バッチ・デプロイメントの場合、時系列グラフには以下のメトリックも表示できます。
- 評価間隔は、デフォルトで1週間に設定されています。 PythonSDKでは、評価間隔を1ヶ月または1年に設定できます。
- 「時間フレーム」 メトリックで指定された間隔は、評価用に構成した評価間隔に設定されます。
以下のセクションでは、モデル評価の結果を分析する方法について説明します:
公平性の結果の検討
公正な結果を確認するために、以下のタイプのデータセットに対する計算が提供されている:
- 平衡型: 平衡型計算には、選択した時間に受信した評価要求が含まれます。 評価に必要な最小レコード数に達していない場合、計算にはそれ以前の数時間のレコードも含まれます。 監視対象の特徴量の値が変化した際のモデルの応答を検証するために使用される、より多くの擾乱データおよび合成データが含まれています。
- ペイロード :選択された時間帯について、モデルが受け取った実際の採点リクエスト。
- トレーニング :モデルの学習に使用されるトレーニングデータレコード。
- バイアス緩和済み: ランタイムと摂動済みのデータを処理した後のバイアス緩和アルゴリズムの出力。
バッチ・デプロイメント・サブスクリプションのバランス・データ・セット計算を表示するには、デプロイメントの詳細を指定するときにモデル・エンドポイントを指定する必要があります。 詳細については、 「バッチプロセッサの設定」 を参照してください。 バッチデプロイメントの偏ったデータセット計算は、モデル評価ではサポートされていません。

このグラフを使用すると、バイアスが発生しているグループを監視し、それらのグループの予期される結果のパーセンテージを確認できます。 また、参照グループの予期される結果のパーセンテージも表示できます。これは、すべての参照グループにおける予期される結果の平均です。 グラフは、データ範囲内のモニター対象グループの予期される結果のパーセンテージと参照グループの結果のパーセンテージの比率を比較することにより、バイアスの存在を示します。
この図には、バイアスを特定するために分析されたペイロード・テーブルのデータにおいて、属性の各異なる値に対する基準値と監視値の分布も示されています。 ペイロード・データの分布は、属性の個別の値ごとに表示されます。 このデータを使用して、バイアスの量を、モデルによって受信されるデータの量と相関させることができます。 また、期待される結果を持つグループのパーセンテージを確認して、結果に偏りがあり、参照グループの期待される結果のパーセンテージが増加したバイアスの原因を特定することもできます。
品質結果を見直す
品質結果を確認するために、混乱マトリックスが表示され、導入したモデルがトランザクションを誤って分析していないかどうかを判断するのに役立ちます。 バイナリ分類モデルの場合、取引記録は偽陽性または偽陰性として分類され、マルチクラスモデルでは誤ったクラス割り当てとして分類される。 バイナリ分類問題では、ターゲット・カテゴリはpositiveまたはnegativeレベルのいずれかに割り当てられる。 混同行列は、正しく分析された正と負のトランザクションの割合も表示する。 正しさを識別するために、このマトリックスでは、取引のカテゴリーを緑と青の色調で強調し、最も正しいカテゴリーと最も正しくないカテゴリーのレベルを示している。 Predicted value(予測値)およびActual value(実績値)メニューを使用して、分析するトランザク ションのカテゴリーを指定することができます。

ドリフト v2 の結果の確認
ドリフトv2の評価結果を確認する際、折りたたみ可能なタイルが表示され、それを開くことでメトリクスの詳細を確認することができます。 時系列グラフを使用して、時間の経過とともに各評価指標スコアがどのように変化するかの履歴を表示したり、スコアの出力と特徴量のドリフトがどのように計算されるかの詳細を表示したりできます。 また、各機能の詳細を見ることで、生成されるスコアにどのように貢献しているかを理解することもできる。

モデルの正常性の結果の確認
モデルの健全性評価結果をレビューする際、前回の評価で生成されたメトリクスの要約が、異なるディメンションに相関するスコアカード・タイルとともに提供されます。 複数のディメンションを持つメトリックの場合、タイル上のドロップダウン・メニューをクリックして、分析するメトリックを選択できます。 時間の経過とともにメトリックがどのように変化するかを分析するには、各カテゴリーの省略表示可能なタイルをクリックして、時系列グラフを表示できます。

詳しくは、 モデルの正常性評価メトリックを参照してください。