ディシジョン・ツリー・モデル

ディシジョン・ツリー・モデルを使用すると、ディシジョン・ルールのセットに基づいて将来の観測値を予測または分類する、分類システムを開発できます。ローンのリスクの高低、購読者と非購読者、投票者と非投票者、バクテリアの種類などの、興味があるいくつかのクラスに分割できるデータがある場合、そのデータを使用して最大限の精度で、新旧のケースを分類するためのルールを作成できます。例えば、やその他の要素に基づいて、クレジットのリスクや、購入の意志を分類するツリーを作成できます。

この方法は、ルール算出としても知られており、いくつかの利点があります。まず、ツリーを参照するときに、モデルが使用する判断の過程が非常に明快です。これは、内部ロジックの理解が困難な他の「ブラック・ボックス」的なモデル作成技法とは対照的です。

2 番目に、プロセスが、決定において実際に問題になる属性だけを自動的にルールに取り込むという点です。ツリーの精度に関係のない属性は無視されます。これにより、データに関する非常に有益な情報が得られます。また、この機能を使用することにより、ニューラル・ネットワークなどの別の手法で学習する前に、関連するフィールドが残るようにデータを減らすことができます。

ディシジョン・ツリー・モデルは、一連の If-Then ルール (ルールセット) に変換できます。多くの場合、このルールを使用すると情報をさらにわかりやすく表示できます。ディシジョン・ツリーによる表示は、データの属性が問題と関連したサブセットにデータを分割または区分する方法を調べる場合に役立ちます。Tree-AS ノードの出力は、他のデシジョン・ツリー・ノードとは異なります。これは、ルールのリストがナゲットに直接含まれており、ルール・セットを作成する必要がないためです。ルール・セットによる表示は、あるグループと結果の関連を調べる場合に役立ちます。例えば、次のルールを使用すると、購入価値のある車のグループのプロファイルを得ることができます。

IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.

ツリー構築アルゴリズム

分類とセグメント化分析の実行には、いくつかのアルゴリズムを使用できます。これらすべてのアルゴリズムは、基本的には同じ処理を行います。つまり、ユーザーのデータセットのすべてのフィールドを検査して、データをサブグループに分割することで、最も適切な分類または予測が得られるデータを探し出します。このプロセスは再帰的に適用され、ツリーが完了するまで、サブグループは小さい単位に繰り返し分割されます (完了は、何らかの停止基準により定義されます)。ツリー構築で使用される対象フィールドまたは入力フィールドは、使用するアルゴリズムによって、連続型 (数値範囲) またはカテゴリー型で使用できます。連続型目標が使用される場合、回帰ツリーが生成され、カテゴリー目標が使用される場合、分類ツリーが生成されます。

C&R Tree (分類と回帰ツリー) ノードは、ディシジョン・ツリーを生成し、将来の観測値を予測または分類できるようにします。この方法は再帰的なデータ区分を使用して学習レコードを複数のセグメントに分割し、各ステップで不純性を最小限に抑えます。ツリーのノードが「純粋」であると考えられるのは、ノード中にあるケースの 100% が、対象フィールドのある特定のカテゴリーに分類される場合です。対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。
CHAID ノードはディシジョン・ツリーを生成し、カイ二乗統計値を使用して最適な分割を識別します。C&R ツリーおよび QUEST ノードと違って、CHAID は、非 2 分岐ツリーを生成できます。これは、ある分岐が 3 個以上のブランチを持つことを意味します。対象フィールドおよび入力フィールドは、数値範囲 (連続型) またはカテゴリーとなります。Exhaustive CHAID は CHAID の修正版で、可能性のある分割すべてを調べることで、よりよい結果を得られますが、計算時間も長くなります。
QUEST ノードには、ディシジョン・ツリーの構築用に2 分岐の方法が用意されています。これは、大規模な C&R ツリー分析が必要とする処理時間を短縮すると同時に、より多くの分割を可能にする入力値が優先される分類ツリー内の傾向を低減するように設計されています。入力フィールドは、数値範囲 (連続型) にできますが、目標変数はカテゴリーでなければなりません。すべての分割は 2 分岐です。
C5.0 ノードは、ディシジョン・ツリーとルール・セットのどちらかを構築します。このモデルは、各レベルで最大の情報の対応をもたらすフィールドに基づいてサンプルを分割します。対象フィールドは、カテゴリーでなければなりません。複数の分割を 2 つ以上のサブグループに分割できます。
Tree-AS ノードは既存の CHAID ノードに似ていますが、Tree-AS ノードはビッグデータを処理して 1 つのツリーを作成することを目的に設計されており、結果モデルが SPSS® Modeler バージョン 17 で追加された出力ビューアーに表示されます。このノードは、カイ 2 乗統計量 (CHAID) を使用して最適な分割を特定することで、ディシジョン・ツリーを生成します。CHAID をこのように使用することで、非 2 分岐ツリーを生成できます。これは、3 個以上のブランチを持つ分岐が存在することを意味します。対象フィールドおよび入力フィールドは、数値範囲 (連続型) またはカテゴリーとなります。Exhaustive CHAID は CHAID の修正版で、可能性のある分割すべてを調べることで、よりよい結果を得られますが、計算時間も長くなります。
ランダム ツリー ノードは既存の C&RT ノードと似ていますが、ランダム ツリー ノードはビッグデータを処理して単一のツリーを作成することを目的に設計されており、結果のモデルが SPSS Modeler バージョン 17 で追加された出力ビューアーに表示されます。ランダム ツリー ノードは、将来の観測値を予測または分類するために使用するディシジョン ツリーを生成します。この方法では、再帰的なデータ分岐を使用して、各ステップで不純性を最小限に抑えることで、学習レコードがセグメントに分割されます。ツリー内のノードは、ノード内のケースの 100% が対象フィールドの特定のカテゴリーに分類される場合に、純粋 と見なされます。対象フィールドおよび入力フィールドは、数値範囲またはカテゴリー (名義型、順序型、フラグ) が使用できます。すべての分岐は 2 分割です (2 つのサブグループのみ)。

ツリー・ベースの分析の一般的な使用方法

次にいくつかのツリー・ベースの分析の一般的な使用方法を示します。

セグメンテーション: 特定のクラスのメンバーである可能性が高い人物を特定します。

ストラータ: 高、中、低の各リスクを持つグループなど、複数のカテゴリーのどれか 1 つにケースを割り当てます。

予測: ルールを作成し、そのルールを使用して将来のイベントを予測します。また、予測は、予測属性を連続した値に関連付けようとする試みであるとも言えます。

データの分解と変数のスクリーニング: 形式的なパラメトリック・モデルの構築で使用するために、大規模な変数のセットから有用な予測変数のサブセットを選択します。

交互作用識別: 特定のサブグループにのみ関連する関係を特定し、形式的なパラメトリック・モデル内でそれらの関係を指定します。

カテゴリーの結合と連続変数のバンド化: 情報の損失を最小限に抑えながら、グループ予測カテゴリーと連続変数を再コード化します。