異常値検査ノード

異常値検査モデルは、外れ値、つまりデータ内の通常とは異なるケースを識別するのに使用されます。通常と異なるケースに対処するルールを格納するほかのモデル作成の手法とは異なり、異常値検査モデルでは、通常の動作がどのようなものかという情報を格納します。このことで、既知のパターンを確認しなくても外れ値の識別が可能になり、新しいパターンが常に緊急事態になり得る不正検出のようなアプリケーションでは、このモデルが特に役立ちます。異常値検査は、管理抜きの手法です。つまり、開始時に使用する既知の不正が含まれた学習データ・セットが必要ありません。

外れ値を識別する伝統的な手法では、通常一度に 1 つか 2 つの変数を調べますが、異常値検査では、同類のレコードと見なされるクラスターまたはピア・グループを識別するために、大量のフィールドを検査できます。その後各レコードが、異常の可能性を識別するためにピア・グループ内で他のレコードと比較されます。ケースが正常の中心から離れるほど、通常とは異なる可能性が大きくなります。例えば、アルゴリズムによってレコードが 3 つの異なるクラスターへ一括分類され、いずれかのクラスターの中心からかなり離れたところに収まるレコードには、フラグが設定されます。

各レコードには、異常値の指標が割り当てられます。これは、ケースが属するクラスターの平均に対するグループ偏差指標の割合です。この指標の値が大きいほど、ケースの平均からの偏差が大きくなります。通常の状況では、異常値指標の値が 1 または 1.5 より小さいケースは、偏差が平均とほとんど同じか、わずかに大きいだけなので、異常値とは見なされません。ただし、指標の値が 2 より大きいケースは、偏差が少なくとも平均の 2 倍であるため、異常値の有力な候補になります。

異常値検査は、以後の分析の候補となる通常でないケースやレコードを迅速に検査するために設計された、予備的な手法です。この手法は、異常性が疑わしいものを検査すると見なされるべきです。この手法では、異常性が疑われる ものが検出されます。つまり、さらに詳しい調査によって、その疑いが現実になる場合も、ならない場合もあります。レコードが完全に有効であっても、モデル構築の目的でデータからレコードをスクリーニングすることを選択することもできます。または、アルゴリズムによって偽 (false) の異常値だということが繰り返し判明した場合、このことは、データ収集の過程でのエラーまたは作為である可能性があります。

異常値検査は、クラスター分析を通じて普通でない (通常でない) レコードまたはケースを識別するということに留意してください。このクラスター分析は、特定の対象 (従属) フィールドを考慮せず、また、予測しようとするパターンに関連するフィールドかどうかを無視して、モデル内で選択されたフィールドのセットに基づいて行われます。このため、異常値検出は、特徴量選択またはフィールドのスクリーニングやランク付けのための別の手法と組み合わせて使用できます。例えば、特徴量選択を使用して特定の対象に関連するもっとも重要なフィールドを識別し、その後、異常値検査を使用して、そのようなフィールドにとってもっとも通常でないレコードを特定することができます。(別のアプローチとして、ディシジョン・ツリー・モデルを構築し、潜在する異常値として誤って分類されたレコードを検査する方法があります。ただし、この方法は、大規模に繰り返したり自動化したりすることが困難です)。

: 不正の疑いのあるケースの農業開発補助金のスクリーニングでは、異常値検査を使用して平均からの偏差を発見し、異常で詳しい調査が必要なレコードを強調表示します。特に注目するのは、農場の種類と規模から見て補助金の申請金額が多すぎる (または少なすぎる) と考えられる場合です。

要件: 1 つ以上の入力フィールドが必要です。入力ノードまたはデータ型ノードを使用して、役割が 「入力」 に設定されたフィールドだけを、入力として使用できます。対象フィールド (役割が 「対象」 または 「両方」 に設定されている) は、無視されます。

利点: 既知のルール・セットに従うのではなく、むしろ従わない ケースにフラグを立てることで、前もって知らされているパターンに従わない場合でさえ、異常値検査モデルは通常ではないケースを識別することができます。特徴量選択と組み合わせて使用すると、異常値検査により、最も興味あるレコードを識別するために、大量のデータを比較的迅速にスクリーニングすることが可能になります。