デシジョン・ツリーの作成

Decision Tree のプロシージャーは、ツリー・ベースの分類モデルを作成します。ケースをグループに分類したり、独立 (予測) 変数の値に基づいて従属 (ターゲット) 変数の値を予測します。このプロシージャーには、探索的および確証的な分類分析のための検証ツールが用意されています。

このプロシージャーは、以下の目的に使用できます。

セグメンテーション。特定のグループのメンバーだと考えられる人物を識別します。

層化。 高リスク、中リスク、低リスクなど、複数のカテゴリーの 1 つにケースを割り当てます。

予測。規則を作成し、それを使用して、誰かが債務不履行になる可能性や、自動車や家の潜在的再販価値など、将来的な出来事を予測します。

データの分解と変数のスクリーニング。変数の大きなセットから、形式的なパラメトリック・モデルを構築するために使用する予測値の有用なサブセットを選択します。

相互作用の識別。特定のサブグループにのみ関連する関係を識別し、それらを形式的なパラメトリック・モデル内で指定します。

カテゴリーの結合と連続型変数の離散化。グループ予測カテゴリーと連続型変数を、情報の損失を最小限に抑えながら再コード化します。

例: ある銀行が、貸し出し申込者をそれぞれの信用リスクが適切であるかどうかに基づいて分類しようと考えています。過去の顧客に関する既知の信用格付けなど、さまざまな要因に基づいて、将来の顧客が債務不履行になりそうかどうかを予測するモデルを構築できます。

ツリー・ベースの分析には、以下のような優れた機能が用意されています。

高リスクまたは低リスクの等質なグループを識別できます。
個々のケースについて予測を行うための規則を簡単に構成できます。

データの考慮事項

「データ」。従属変数および独立変数として、以下を使用できます。

Nominal (名義). 本質的な順位を持たないカテゴリーを表す値である場合 (従業員の勤務先企業での部署など)、変数を名義変数として取り扱うことができます。名義変数の例としては、地域、郵便番号、宗教上の所属などが挙げられます。
Ordinal (順序データ). 値が本質的な順位を持つカテゴリーを表す場合 (例えば、サービス満足度のレベルを「非常に不満」から「非常に満足」までの順位で評価する場合) は、変数を順序変数として扱うことができます。順序変数の例としては、満足度や信頼度を表す得点や嗜好得点などが挙げられます。
Scale (スケール). 意味のある測定基準を持つ順序カテゴリーを値が表しており、値の間の距離の比較が可能である場合は、変数をスケール (連続型) として扱うことができます。スケール変数の例としては、年齢や、千ドル単位で表した所得が挙げられます。

度数による重み付け。重み付けが有効な場合、小数表記の重み付けは最も近い整数に丸められます。したがって、重みの値が 0.5 未満のケースには重み 0 が割り当てられ、それにより分析から除外されます。

仮定: このプロシージャーでは、すべての分析変数に適切な測定レベルが割り当てられていることが前提です。また、一部の機能では、分析に含まれる従属変数のすべての値に値ラベルが定義されていることが前提です。

測定レベル: 測定レベルはツリーの計算に影響するため、すべての変数に適切な測定レベルを割り当てる必要があります。デフォルトでは、数値変数がスケール変数、文字列変数が名義変数という前提であり、これは実際の測定レベルを反映していない場合があります。変数リストで各変数の隣に表示されているアイコンは、変数の型を識別します。

表 1. 測定レベルのアイコン
アイコン	測定レベル
	スケール
	名義
	順序

ソース変数リストの変数を右クリックし、ポップアップ・メニューから測定レベルを選択することにより、その変数の測定レベルを一時的に変更できます。

値のラベル。このプロシージャーのダイアログ・ボックス・インターフェースでは、カテゴリー (名義、順序) 従属変数のすべての非欠損値に値ラベルが定義されているか、いずれの非欠損値にも定義されていないことが前提です。一部の機能は、カテゴリー従属変数の少なくとも 2 つの非欠損値に値ラベルが定義されている場合にのみ使用できます。少なくとも 2 つの非欠損値に値ラベルが定義されている場合、値ラベルのない他の値を含むすべてのケースは分析から除外されます。

測定レベルと値のラベルのどちらを定義する際にも、「変数プロパティーの定義」が役立ちます。

デシジョン・ツリーを取得するには

この機能を使用するには、SPSS® Statistics Professional Edition または Decision Trees オプションが必要です。

メニューから次の項目を選択します。
「分析」 > 「分類」 > 「ツリー...」
従属変数を選択します。
1 つ以上の独立変数を選択します。
成長手法を選択します。

オプションとして、以下を行うことができます。

ソース・リスト内の変数について、測定レベルを変更する。
独立変数リストの最初の変数を最初の分割変数としてモデルに適用する。
ツリーの成長プロセスにケースが与える影響を定義する影響度変数を選択する。影響度の値が小さいケースは影響が少なく、値が大きいと影響も多くなります。影響度変数の値は、正でなければなりません。
ツリーの検証を行う。
ツリーの成長基準をカスタマイズする。
ターミナル・ノード番号、予測値、および予測確率を変数として保存する。
モデルを XML (PMML) 形式で保存する。

不明な尺度のフィールド

データ・セット内の 1 つ以上の変数 (フィールド) の測定レベルが不明な場合、測定レベルの警告が表示されます。測定レベルはこの手続きの結果の計算に影響を与えるため、すべての変数について測定レベルを定義する必要があります。

データをスキャン: アクティブ・データ・セットのデータを読み込み、デフォルトの測定レベルを、測定レベルが現在不明なすべてのフィールドに割り当てます。データ・セットのサイズが大きい場合、この処理には時間がかかります。

手動で割り当てる: 不明な測定レベルを持つフィールドをすべて表示するダイアログが開きます。このダイアログを使用して、測定レベルをこれらのフィールドに割り当てることができます。データ・エディターの「変数ビュー」でも、測定レベルを割り当てることができます。

この手続きでは測定レベルが重要であるため、すべてのフィールドに対して測定レベルが定義されるまで、ダイアログにアクセスしてこの手続きを実行することはできません。

測定レベルの変更

ソース・リストで変数を右クリックします。
ポップアップ・メニューから測定レベルを選択します。

これにより、Decision Tree のプロシージャーで使用する測定レベルが一時的に変更されます。

変数の測定レベルを完全に変更するには、『変数の測定レベル (Variable Measurement Level)』を参照してください。

成長手法

使用可能な成長手法は、以下のとおりです。

CHAID. カイ 2 乗自動反復検出。各ステップにおいて、CHAID は、従属変数と最も強い交互作用を持つ独立 (予測) 変数を選択します。各予測のカテゴリーは、従属変数に関して有意な差がない場合に統合されます。

Exhaustive CHAID. 各予測について可能なすべての分割を調べる CHAID の修正版。

CRT. 分類ツリーと回帰ツリー。CRT は、従属変数に関して可能なかぎり等質なセグメントにデータを分割します。すべてのケースの従属変数が同じ値であるターミナル・ノードは、等質な「純粋」ノードです。

QUEST. Quick, Unbiased, Efficient Statistical Tree。多くのカテゴリーを持つ予測変数を考慮に入れ、他の方式での偏りを回避する高速な手法。QUEST は、従属変数が名義変数である場合に限って指定することができます。

それぞれの成長手法には、以下のような利点と制約があります。

表 2. 成長手法の機能
機能	CHAID*	CRT	QUEST
カイ 2 乗を基にする**	X
独立 (予測) 変数の代理変数		X	X
ツリーの剪定		X	X
ノードの多重分割	X
ノードの 2 分割		X	X
影響度変数	X	X
事前確率		X	X
誤分類コスト	X	X	X
高速計算	X		X

*Exhaustive CHAID を含みます。

**QUEST では名義独立変数に対してもカイ 2 乗測度が使用されます。