概觀 (TREE 指令)

TREE 程序會建立樹狀結構型模型。 它會根據預測變數的值,將觀察值分類為群組或預測應變數的值。 這個程序會提供用於解釋與確認分類分析的驗證工具。

選項

模型。 您可以指定應變數 (目標) 及一或多個自變數 (預測值)。 您可以選擇性地強制一個自變數進入模型作為第一個變數。

成長方法。 可用的演算法有四個 :CHAID (預設值)、Exhaustive CHAID、CRT 和 QUEST。 每一個都會執行遞迴分割類型。 首先,會檢查所有預測值,以透過將樣本分割成子群組 (節點) 來尋找提供最佳分類或預測的預測值。 遞迴地套用此程序,將子群組分成較小的群組。 它會在符合一或多個停止準則時停止。

四種成長方法具有不同的效能性質和特性:

  • CHAID 會選擇與應變數互動最強的預測值。 如果預測變數種類相對於應變數 (Kass , 1980) 沒有顯著不同,則會合併預測變數種類。
  • Exhaustive CHAID 是 CHAID 的修改,用於檢查每個預測值的所有可能分割 (Biggs 等人, 1991).
  • CRT 是將節點內同質性最大化的一系列方法 (Breiman 等人, 1984).
  • QUEST 樹狀結構會快速計算,但只有在應變數為名義變數時,才能使用此方法。 (Loh and Shih , 1997)。

停止準則。 您可以設定限制樹狀結構大小的參數,並控制每個節點中的觀察值數目下限。

驗證。 您可以評量樹狀結構對較大樣本的一般化程度。 支援分割範例分割及交叉驗證。 分割會將資料分成訓練樣本 (從中產生樹狀結構) 和測試樣本 (在其上測試樹狀結構)。 交叉驗證涉及將樣本分成數個較小的樣本。 系統會依序產生樹狀結構,排除每一個子樣本中的資料。 對於每一個樹狀結構,會使用在產生錯誤分類風險時所排除的子樣本資料來估計錯誤分類風險。 交叉驗證的風險估計值會計算為樹狀結構之間的平均風險。

輸出。 預設輸出包括樹狀結構圖和風險統計資料。 如果應變數是類別變數,則會報告分類精確度。 您可以選擇性地取得增益及獲利相關測量的圖表,以及可用來選取新觀察值或為新觀察值評分的分類規則。 您也可以將模型的預測儲存至作用中資料集,包括已指派區段 (節點)、預測類別/值及預測機率。

基本規格

  • 基本規格是應變數及一個以上自變數。

作業

  • 樹狀結構會一直成長,直到符合一或多個停止準則為止。 預設成長方法是 CHAID。
  • 模型類型取決於應變數的測量層級。 如果應變數是尺度 (連續) ,則會計算預測模型。 如果它是類別 (名義或序數) ,則會產生分類模型。
  • 測量層次決定節點內可容許的預測值組合。 對於序數和尺度預測值,在節點中只能出現相鄰的類別/值。 名義種類的分組沒有任何限制。
  • 如果要求分割樣本模型驗證,則 TREE 允許使用 SET SEED 值。
  • TREE 程序會忽略 SPLIT FILE
  • 如果定義了 WEIGHT 變數,則會將加權視為抄寫加權。 小數加權會四捨五入。
附註: 測量層級會影響結果。 如果任何變數 (欄位) 具有不明測量層級,則會執行資料傳遞,以在分析開始之前判定測量層級。 如需判定準則的相關資訊,請參閱 SET SCALEMIN

指令語法的規則

  • 最小規格是應變數、關鍵字 BY 以及一或多個自變數。
  • 所有次指令都是選用的。
  • 每個次指令只接受單一實例。
  • 在次指令內只能指定關鍵字一次。
  • 需要語法圖中顯示的等號 (=)。
  • 次指令名稱和關鍵字必須完整拼寫。
  • 次指令可依任何順序使用。
  • TREE 程序會忽略 SPLIT FILE
  • CHAID 和 Exhaustive CHAID: 類別應變數不能超過 126 個類別。 如果應變數是類別變數,則類別預測指標的限制也是 126 個類別。
  • CRT: 名義預測值不能超過 32 個種類。
  • QUEST: 如果預測值為名義,則應變數 (必須為名義) 的限制為 127 個類別。 名義預測值不能超過 25 個種類。

範例

TREE risk BY income age creditscore employment.
  • 計算樹狀結構模型時,會使用個人的收入、年齡、信用評分及就業種類作為預測變數,來估計信用風險。
  • 使用預設方法 CHAID 來成長樹狀結構。
  • 由於未指定測量層次,因此會從每一個模型變數的資料字典中取得測量層次。 如果尚未定義測量層級,則會將數值變數視為尺度,並將字串變數視為名義變數。

TREE risk [o] BY income [o] age [s] creditscore [s] employment [n]
  /METHOD TYPE=CRT
  /VALIDATION TYPE=SPLITSAMPLE
  /SAVE NODEID PREDVAL.
  • 計算樹狀結構模型時,會使用個人的收入、年齡、信用評分及就業種類作為預測變數,來估計信用風險。
  • 年齡和信用評分將視為尺度變數,風險和收入視為序數,就業類別視為名義。
  • 執行二元分割的 CRT 方法用於增長樹狀結構。
  • 要求分割範例驗證。 依預設,會將 50% 的觀察值指派給訓練樣本。 其餘觀察值用來驗證樹狀結構。
  • 兩個變數會儲存至作用中資料集: 節點 (區段) ID 和預測值。