精度分析ノードの「精度分析」タブ
「分析」タブでは、分析の詳細を指定することができます。
一致行列 (シンボル対象またはカテゴリー対象): カテゴリー対象 (フラグ型、名義型、または順序型) の各生成 (予測) フィールドとその対象フィールド間の一致パターンを示します。実際値で構成される行と予測値で構成される列から成るテーブルが作成されます。 各セルには、そのパターンを含むレコード数が表示されます。これは、予測時の系統誤差を判別する場合に役に立ちます。異なるモデルによって生成された複数の生成フィールドが、同じ出力フィールドに関連している場合は、これらのフィールドが一致する場合と一致しない場合がカウントされ、合計に表示されます。一致する場合は、別の正/誤統計が表示されます。
パフォーマンス評価: カテゴリー出力を行うモデルのパフォーマンス評価統計量を表示します。この統計量は、出力フィールドの各カテゴリーに対して報告され、そのカテゴリーに属するレコードを予測するためにモデルの平均情報量 (ビット数) を測定します。分類の難しさを考慮して、まれなカテゴリーについて正確な予測を行うために、一般的なカテゴリーの予測時よりも高いパフォーマンス評価インデックスが与えられます。あるカテゴリーに関するモデルの予測が推量にすぎない場合は、そのカテゴリーのパフォーマンス評価インデックスは 0 になります。
評価メトリックス (AUC と Gini、バイナリー分類子のみ): バイナリ分類子の場合、 このオプションは、AUC (曲線下の領域) および Gini 係数の評価メトリックを報告します。これらの評価メトリックは、 いずれもそれぞれの 2 項モデルから一括して計算されます。メトリックの値は、 分析出力ブラウザーに表形式で報告されます。
AUC 評価メトリックは ROC (受信者操作特性) 曲線の下の面積として計算され、 分類子の予測されるパフォーマンスをスカラー値で表します。AUC は常に 0 と 1 の間であり、 数値が大きいほどよい分類子であることを示します。座標 (0,0) と (1,1) の間の ROC 曲線が対角線である場合は ランダムな分類子を表し、AUC は 0.5 になります。したがって、 現実的な分類子の AUC が 0.5 未満になることはありません。
Gini 係数の評価メトリックは、AUC の代わりとなる評価メトリックとして使用されることがあります。 これら 2 つのメトリックは密接に関連しています。Gini 係数は ROC 曲線と対角線の間の面積の 2 倍として計算されます (Gini = 2AUC - 1)。Gini 係数は常に 0 と 1 の間であり、 数値が大きいほどよい分類子であることを示します。ROC 曲線が対角線より下に位置するという非現実的な状況では、Gini 係数は負になります。
確信式 (ある場合): 確信度フィールドを生成するモデルの場合に、確信度の値およびその値と予測値の関係に関する統計量が報告されます。この項目には 2 つの設定があります。
- 閾値: 精度が指定されたパーセントに達する確信度レベルを報告します。
- 精度の改善: 指定した因子によって精度が改善される確信度レベルを報告します。例えば、全体的な精度が 90% で、このオプションを 2.0 に設定した場合、報告される値は、95% の精度を達成するのに必要な確信度です。
次を使用する予測済み/予測フィールドの検出: 予測フィールドが元の対象フィールドにどのように一致するかを指定します。
- モデル出力フィールドのメタデータ: モデル・フィールド情報に基づいて、予測フィールドを対象に一致させます。予測フィールドの名前が変更されている場合でも一致は可能です。予測フィールドのモデル・フィールド情報は、データ型ノードを使用して、「値」ダイアログ・ボックスからアクセスすることができます。 詳しくは、「値」ダイアログ・ボックスの使用のトピックを参照してください。
- フィールド名形式: 名前の表記方法に基づいて、フィールドのマッチングを行います。例えば、回答という名の対象に C5.0 モデル・ナゲットが生成した予測値が、$C-response というフィールド内にある必要があります。
データ区分によって分割: レコードを、学習、テスト、および検定用の各サンプルに分割するためにデータ区分フィールドが使用される場合、このオプションを選択すると、各データ区分ごとに、別々の結果が表示されます。 詳しくは、データ区分ノードのトピックを参照してください。
注 : データ区分を分割する場合、データ区分フィールドにあるヌル値を持つレコードは、分析から除外されます。データ区分ノードは、ヌル値を生成しないため、データ区分ノードを使用している場合は、問題になりません。
ユーザー定義分析: 各自のモデル評価に使用する独自の分析計算式を指定できます。各レコードに対して何を計算するのかを CLEM 式を使用して指定し、さらにレコードレベルのスコアを全体的なスコアに組み込む方法を指定します。また、@TARGET 関数と @PREDICTED 関数を使用して、対象 (実際の出力) 値と予測値をそれぞれ参照します。
- If: 条件に応じて異なる計算を使う必要がある場合は、条件式を指定します。
- Then: IF 条件が真 (true) の場合に実行する計算式を指定します。
- Else: IF 条件が偽 (false) の場合に実行する計算式を指定します。
- Use: 個々のスコアから全体的なスコアを算出するための統計量を選択します。
フィールドによる評価対象分析: 精度分析の対象として使用できるカテゴリー・フィールドを表示します。全体的な分析に加えて、各対象フィールドのカテゴリーごとに個別に分析を行うこともできます。