デシジョン・ツリーの作成

Decision Tree のプロシージャーは、ツリー・ベースの分類モデルを作成します。ケースをグループに分類したり、独立 (予測) 変数の値に基づいて従属 (ターゲット) 変数の値を予測します。このプロシージャーには、探索的および確証的な分類分析のための検証ツールが用意されています。

このプロシージャーは、以下の目的に使用できます。

セグメンテーション。特定のグループのメンバーだと考えられる人物を識別します。

層化。 高リスク、中リスク、低リスクなど、複数のカテゴリーの 1 つにケースを割り当てます。

予測。規則を作成し、それを使用して、誰かが債務不履行になる可能性や、自動車や家の潜在的再販価値など、将来的な出来事を予測します。

データの分解と変数のスクリーニング。変数の大きなセットから、形式的なパラメトリック・モデルを構築するために使用する予測値の有用なサブセットを選択します。

相互作用の識別。特定のサブグループにのみ関連する関係を識別し、それらを形式的なパラメトリック・モデル内で指定します。

カテゴリーの結合と連続型変数の離散化。グループ予測カテゴリーと連続型変数を、情報の損失を最小限に抑えながら再コード化します。

: ある銀行が、貸し出し申込者をそれぞれの信用リスクが適切であるかどうかに基づいて分類しようと考えています。過去の顧客に関する既知の信用格付けなど、さまざまな要因に基づいて、将来の顧客が債務不履行になりそうかどうかを予測するモデルを構築できます。

ツリー・ベースの分析には、以下のような優れた機能が用意されています。

データの考慮事項

「データ」。従属変数および独立変数として、以下を使用できます。

度数による重み付け。重み付けが有効な場合、小数表記の重み付けは最も近い整数に丸められます。したがって、重みの値が 0.5 未満のケースには重み 0 が割り当てられ、それにより分析から除外されます。

仮定: このプロシージャーでは、すべての分析変数に適切な測定レベルが割り当てられていることが前提です。また、一部の機能では、分析に含まれる従属変数のすべての値に値ラベルが定義されていることが前提です。

表 1. 測定レベルのアイコン
アイコン 測定レベル
スケール変数アイコン
スケール
名義変数アイコン
名義
順序変数アイコン
順序

ソース変数リストの変数を右クリックし、ポップアップ・メニューから測定レベルを選択することにより、その変数の測定レベルを一時的に変更できます。

測定レベルと値のラベルのどちらを定義する際にも、「変数プロパティーの定義」が役立ちます。

デシジョン・ツリーを取得するには

この機能を使用するには、SPSS® Statistics Professional Edition または Decision Trees オプションが必要です。

  1. メニューから次の項目を選択します。

    「分析」 > 「分類」 > 「ツリー...」

  2. 従属変数を選択します。
  3. 1 つ以上の独立変数を選択します。
  4. 成長手法を選択します。

オプションとして、以下を行うことができます。

不明な尺度のフィールド

データ・セット内の 1 つ以上の変数 (フィールド) の測定レベルが不明な場合、測定レベルの警告が表示されます。測定レベルはこの手続きの結果の計算に影響を与えるため、すべての変数について測定レベルを定義する必要があります。

データをスキャン: アクティブ・データ・セットのデータを読み込み、デフォルトの測定レベルを、測定レベルが現在不明なすべてのフィールドに割り当てます。データ・セットのサイズが大きい場合、この処理には時間がかかります。

手動で割り当てる: 不明な測定レベルを持つフィールドをすべて表示するダイアログが開きます。このダイアログを使用して、測定レベルをこれらのフィールドに割り当てることができます。データ・エディターの「変数ビュー」でも、測定レベルを割り当てることができます。

この手続きでは測定レベルが重要であるため、すべてのフィールドに対して測定レベルが定義されるまで、ダイアログにアクセスしてこの手続きを実行することはできません。

測定レベルの変更

  1. ソース・リストで変数を右クリックします。
  2. ポップアップ・メニューから測定レベルを選択します。

これにより、Decision Tree のプロシージャーで使用する測定レベルが一時的に変更されます。

変数の測定レベルを完全に変更するには、『変数の測定レベル (Variable Measurement Level)』を参照してください。

成長手法

使用可能な成長手法は、以下のとおりです。

CHAID. カイ 2 乗自動反復検出。各ステップにおいて、CHAID は、従属変数と最も強い交互作用を持つ独立 (予測) 変数を選択します。各予測のカテゴリーは、従属変数に関して有意な差がない場合に統合されます。

Exhaustive CHAID. 各予測について可能なすべての分割を調べる CHAID の修正版。

CRT. 分類ツリーと回帰ツリー。CRT は、従属変数に関して可能なかぎり等質なセグメントにデータを分割します。すべてのケースの従属変数が同じ値であるターミナル・ノードは、等質な「純粋」ノードです。

QUEST. Quick, Unbiased, Efficient Statistical Tree。多くのカテゴリーを持つ予測変数を考慮に入れ、 他の方式での偏りを回避する高速な手法。QUEST は、 従属変数が名義変数である場合に限って指定することができます。

それぞれの成長手法には、以下のような利点と制約があります。

表 2. 成長手法の機能
機能 CHAID* CRT QUEST
カイ 2 乗を基にする** X    
独立 (予測) 変数の代理変数   X X
ツリーの剪定   X X
ノードの多重分割 X    
ノードの 2 分割   X X
影響度変数 X X  
事前確率   X X
誤分類コスト X X X
高速計算 X   X

*Exhaustive CHAID を含みます。

**QUEST では名義独立変数に対してもカイ 2 乗測度が使用されます。