概要 (TREE コマンド)

TREE プロシージャーは、ツリー・ベースのモデルを作成します。予測変数の値に基づいて、ケースをグループに分類したり、従属変数の値を予測したりします。このプロシージャーには、探索的および確証的な分類分析のための検証ツールが用意されています。

オプション

モデル: 従属 (対象) 変数と 1 つ以上の独立 (予測) 変数を指定できます。オプションで、1 つの独立変数を最初の変数としてモデルに強制することができます。

成長方法。 CHAID (デフォルト)、Exhaustive CHAID、CRT、および QUEST の 4 つの成長アルゴリズムが使用可能です。それぞれが再帰的分割のタイプを実行します。まず、すべての予測値が調べられ、サンプルをサブグループ (ノード) に分割することで、最適な分類または予測を提供する予測値が検出されます。このプロセスは再帰的に適用され、サブグループがより小さいグループに分割されます。 1 つ以上の停止基準が満たされると停止します。

成長する 4 つの方法には、異なるパフォーマンス特性と機能があります。

CHAID は、従属変数との相互作用が最も強い予測値を選択します。予測変数のカテゴリーは、従属変数 (Kass、1980) に関して有意差がない場合に結合されます。
包括的 CHAID は、各予測子 (Biggs et al.,, 1991)。
CRT は、ノード内の同質性 (Breiman et al., など) を最大化する方法のファミリーです。 1984)。
QUEST ツリーは迅速に計算されますが、従属変数が名義型の場合にのみ使用できます。 (1997 年、Loh and Shih)。

停止基準。 ツリーのサイズを制限し、各ノードのケースの最小数を制御するパラメーターを設定できます。

検証。 ツリー構造がより大きなサンプルにどの程度一般化されているかを評価できます。分割サンプル・パーティショニングと交差検証がサポートされています。データ区分により、ツリーが成長する学習サンプルと、ツリーがテストされるテスト・サンプルにデータが分割されます。交差検証では、サンプルをいくつかの小さいサンプルに分割します。各サブサンプルからのデータを順に除外して、ツリーが生成されます。ツリーごとに、生成時に除外されたサブサンプルのデータを使用して、誤分類リスクが推定されます。交差検証済みリスク推定値は、ツリー全体の平均リスクとして計算されます。

出力。 デフォルトの出力には、ツリー図とリスク統計が含まれます。従属変数がカテゴリー型の場合、分類精度が報告されます。オプションで、新規ケースの選択またはスコアリングに使用できる分類規則だけでなく、利益関連および利益関連の指標の図表を取得することもできます。また、割り当てられたセグメント (ノード)、予測クラス/値、予測確率など、モデルの予測をアクティブなデータ・セットに保存することもできます。

基本仕様

基本的な指定は、従属変数と 1 つ以上の独立変数です。

操作

ツリーは、1 つ以上の停止基準が満たされるまで成長します。デフォルトの成長方法は CHAID です。
モデルの種類は、従属変数の測定の尺度によって異なります。従属変数がスケール (連続型) の場合、予測モデルが計算されます。カテゴリー型 (名義型または順序型) の場合は、分類モデルが生成されます。
測定の尺度は、ノード内の予測値の許容される組み合わせを決定します。順序型予測値およびスケール予測値の場合、隣接するカテゴリー/値のみがノードで発生する可能性があります。名義型カテゴリーのグループ化に関する制限はありません。
分割サンプル・モデルの検証が要求された場合、 TREE は SET SEED 値を受け入れます。
SPLIT FILE は、 TREE プロシージャーによって無視されます。
WEIGHT 変数が定義されている場合、重みは複製の重みとして扱われます。小数の重みは丸められます。

注: 測定の尺度は結果に影響する可能性があります。いずれかの変数 (フィールド) に不明な測定レベルがある場合、データ・パスが実行され、分析が開始される前に測定レベルが判別されます。判別基準については、 SET SCALEMINを参照してください。

シンタックス・ルール

最小値の指定は、従属変数、キーワード BY 、および 1 つ以上の独立変数です。
サブコマンドはすべてオプションです。
各サブコマンドの 1 つのインスタンスのみが許可されます。
キーワードは、サブコマンド内で 1 回しか指定できません。
構文図に示されている等号 (=) は必須です。
サブコマンド名とキーワードは、完全なスペルで入力する必要があります。
サブコマンドは任意の順序で使用できます。

SPLIT FILE は、 TREE プロシージャーによって無視されます。
CHAID および Exhaustive CHAID: カテゴリー従属変数は、126 を超えるカテゴリーを持つことはできません。従属変数がカテゴリー変数の場合、カテゴリー予測変数の制限も 126 個のカテゴリーになります。
CRT: 名義型予測子は、32 個を超えるカテゴリーを持つことはできません。
QUEST: 予測値が名義型の場合、従属変数 (名義型でなければならない) の制限は 127 カテゴリーです。名義型予測変数は、25 個を超えるカテゴリーを持つことはできません。

例

TREE risk BY income age creditscore employment.

個人の収入、年齢、クレジット・スコア、および雇用カテゴリーを予測変数として使用して、信用リスクを推定するツリー・モデルが計算されます。
ツリーを成長させるために、デフォルトの方法 CHAID が使用されます。
測定レベルは指定されていないため、各モデル変数のデータ・ディクショナリーから取得されます。測定の尺度が定義されていない場合、数値変数はスケール変数として扱われ、文字列変数は名義変数として扱われます。

TREE risk [o] BY income [o] age [s] creditscore [s] employment [n]
  /METHOD TYPE=CRT
  /VALIDATION TYPE=SPLITSAMPLE
  /SAVE NODEID PREDVAL.

個人の収入、年齢、クレジット・スコア、および雇用カテゴリーを予測変数として使用して、信用リスクを推定するツリー・モデルが計算されます。
年齢とクレジット・スコアは、スケール変数、リスクと収入は序数、雇用カテゴリーは名義型として扱われます。
2 進分割を実行する CRT 方式は、ツリーを成長させるために使用されます。
分割サンプル検証が要求されます。デフォルトでは、ケースの 50% が学習サンプルに割り当てられます。残りのケースは、ツリーの検証に使用されます。
2 つの変数 (ノード (セグメント) 識別子と予測値) がアクティブ・データ・セットに保存されます。