建立決策樹
「決策樹」程序會建立樹狀結構的分類模式。 它會根據自變數(預測值)的值,將觀察值分組,或應變數(目標)的預測值。 這個程序會提供用於解釋與確認分類分析的驗證工具。
這個程序可以用於:
分段。 識別有可能是特殊群組成員的人員。
分層。 將觀察值指定給其中一個類別,例如高風險、中風險與低風險群組。
預測。 建立規則並用這些規則來預測未來的事件,例如某人可能會借貸,或是汽車或房屋的潛在重新銷售值。
資料縮減與變數篩檢。 從一個大型的變數集合中選取一個有用的預測值子集,用於建立一個正式的參數模式。
交互作用識別。 識別只與特定子群組有關的關係並在正式的參數模式中指定這些項目。
類別合併與離散化連續的變數。 使用遺失最少資訊的方式將組別預測值類別與連續變數重新編碼。
範例。 假設某家銀行打算根據信用申請人是否有合理的信用風險,來將這些申請人加以分類。 根據各種因素,包括過去客戶的已知信用評等,您就可以建立一個模式來預測未來的客戶是否有可能進行借貸。
樹狀結構分析會提供一些引人注意的功能:
- 它可以讓您識別具有高風險或低風險的同質組別。
- 它可以更容易建構有關個別觀察值進行預測的規則。
資料考量
資料。 應變數和自變數可以是:
- 名義。 當變數值代表實質上並未等級化的種類時(例如,有員工工作的公司部門),則此變數可視為名義。 名義變數的範例包括區域、郵遞區號及宗教團體。
- 序數。 當變數值代表實質上已等級化的種類時(例如,服務滿意度從非常不滿意到非常滿意分級),則此變數可視為序數。 序數變數的範例包括代表滿意度或信賴程度的態度分數以及偏好等級分數。
- 尺度。 如果某一變數可視為尺度(連續),表示它的值代表含有實際意義矩陣的已排序種類,因此適合比較值之間的距離。 尺度變數的範例包括以年份表示的年齡及以千元為單位的收入。
頻次加權 如果加權生效的話,則分數加權就會捨入為最接近的整數,所以,加權值少於 0.5 的觀察值就會被指定一個 0 的加權,進而從分析中被排除在外。
假設。 這個程序會假設已經將適當的測量層級指定給所有分析變數,而且某些功能會假設包含在分析中的應變數的所有值都已經定義數值標籤。
- 測量層級。 測量層級會影響樹狀結構計算作業,因此所有變數都應該指定適當的測量層級。 根據預設,數值變數是假設為尺度變數而字串變數則假設為名義變數,它們可能無法精確反映真正測量的層級。 變數清單中各變數旁圖示會指明變數類型。
| 圖示 | 測量層級 |
|---|---|
| 尺度(C) | |
| 名義 | |
| 序數 |
您可以藉由在來源變數清單按一下滑鼠右鍵,從蹦現功能表選取測量層級,暫時變更變數的測量層級。
- 值標籤。 此程序的對話框介面假設類別(名義、序數)應變數的「所有」非遺漏值均已定義數值標籤,或者「沒有一個」非遺漏值已定義。 有些功能至少需要類別應變數的兩個遺漏值具有數值標籤,否則無法使用。 如果至少兩個非遺漏值已定義數值標籤,當有任何觀察值具有其他無數值標籤的數值時,該觀察值會從分析中排除。
您可以使用「 定義變數內容 」來協助您定義測量層級和數值標籤兩者。
若要取得決策樹
此功能需要「決策樹」選項。
- 從功能表中選擇:
- 選取應變數。
- 選取一個或多個自變數。
- 選取一個成長方法。
您可以選擇性地:
- 變更來源清單中任何變數的測量層級。
- 強制自變數清單中的第一個變數進入模式中當作第一個分割變數。
- 選取定義觀察值影響樹狀結構成長過程之程度的影響變數。 觀察值的影響變數數值較低,則影響力較小;反之則影響力較大。 影響變數值必須為正數。
- 驗證樹狀結構。
- 自訂樹狀結構成長條件。
- 將終端節點數、預測值以及預測機率另存成變數。
- 以 XML (PMML) 格式儲存模式。
具有未知測量層級的欄位
若在資料集中出現一或多個未知的變數 (欄位) 測量層級,就會顯示「測量層級」警示。 由於測量層級會影響此程序的結果計算,因此所有變數皆必須具有已定義的測量層級。
掃描資料。 讀取作用中資料集的資料,並且針對目前具有未知測量層級的任何欄位指派預設的測量層級。 若為大型資料集,則讀取時可能需要一些時間。
手動指派。 開啟對話框,以列出具有未知測量層級所有欄位。 您可以使用此對話框以指派測量層級給這些欄位。 您可以在「資料編輯器」的「變數視圖」中指派測量層級。
由於測量層級是此程序的重要項目,因此您在所有欄位皆擁有已定義的測量層級之前,無法存取對話框來執行此程序。
變更測量層級
- 在來源清單的變數上按一下滑鼠右鍵。
- 從蹦現功能表選取測量層級。
這會暫時變更測量層級,以供在「決策樹」程序中使用。
若要永久變更變數的測量層次,請參閱 變數測量層次。
成長方法。
可用的成長方法包括:
CHAID。 卡方自動互動偵測。 CHAID 會在每個步驟中,選擇與應變數具有最強交互作用的自 (預測) 變數。 如果每個預測變數的類別相對於應變數沒有明顯不同,則會合併這些類別。
Exhaustive CHAID。 對 CHAID 的修改,它會檢查每個預測值所有可能的分割。
CRT。 分類與迴歸樹狀結構。 CRT 會盡量將資料分割成與應變數相關的同質資料區段。 所有觀察值皆具有相同應變數值的終端節點,是「純」同質節點。
QUEST。 快速、不偏且有效的統計之樹狀結構。 此方法不但計算快速,而且能避免如其他方法偏好有許多類別的預測變數。 只有在名義應變數才能指定 QUEST。
每一個方法都有其優點與限制,包括:
| 特性 | CHAID* | CRT | QUEST |
|---|---|---|---|
| 以卡方分佈為基礎** | X | ||
| 代理自(預測值)變數 | X | X | |
| 樹狀結構修正 | X | X | |
| 多因素節點分割 | X | ||
| 二元節點分割 | X | X | |
| 影響變數 | X | X | |
| 事前機率 | X | X | |
| 錯誤分類成本 | X | X | X |
| 快速計算 | X | X |
*包括 Exhaustive CHAID。
**QUEST 也會將卡方量數用於名義自變數。