VALIDATION 次指令 (TREE 指令)
VALIDATION 次指令可讓您評量樹狀結構對較大母群的一般化程度。
- 可以使用分割樣本驗證和交叉驗證。
- 依預設,不會執行驗證。
- 如果您希望稍後能夠重新產生驗證結果,請在
TREE程序之前使用SET SEED來起始亂數種子。
次指令中的每一個關鍵字後接等號 (=) 及該關鍵字的值。
範例
TREE risk [o] BY income age creditscore
/VALIDATION TYPE=SPLITSAMPLE(25) OUTPUT=TESTSAMPLE.
TYPE 關鍵字
無. 樹狀結構模型未驗證。 這是預設值。
SplitSAMPLE (百分比). 分割樣本驗證。 使用訓練樣本產生模型,並在保留樣本上進行測試。 括弧中指定的值或變數會決定訓練樣本大小。 輸入大於 0 且小於 100 的百分比值或數值變數,其值會決定如何將觀察值指派給訓練或檢定樣本: 將變數值為 1 的觀察值指派給訓練樣本,並將所有其他觀察值指派給檢定樣本。 變數不能是應變數、加權變數、影響變數或強制自變數。 如需相關資訊,請參閱主題 INFLUENCE 次指令 (TREE 指令) 。 附註: 對於小型資料檔案 (具有少量觀察值的資料檔案) ,應該謹慎使用分割範例驗證。 較小的訓練樣本大小可能會產生欠佳的模型,因為在某些種類中可能沒有足夠的觀察值可充分成長樹狀結構。
CROSSVALIDATION (值). 交叉驗證樹狀結構模型。 樣本分成數個子樣本或 折疊。 然後會產生樹狀結構模型,並依序排除每一個子樣本中的資料。 第一個樹狀結構是以第一個樣本摺疊中的所有觀察值 除了 為基礎,第二個樹狀結構是以第二個樣本摺疊中的所有觀察值以外的所有觀察值為基礎,依此類推。 對於每一個樹狀結構,都會藉由將樹狀結構套用至在產生時被排除的子樣本來評估錯誤分類風險。 請在括弧中指定介於 2 和 25 之間的正整數。 如果值越高,則從每一個樹狀結構模型中排除的觀察值數量也就越少。 交叉驗證會產生一個單一、最終的樹狀結構模型。 最終樹狀結構的交叉驗證風險估計值計算為所有樹狀結構的風險平均值。 如果同時指定 FORCE ,則會忽略 CROSSVALIDATION 並發出警告。
OUTPUT 關鍵字
使用分割範例驗證時, OUTPUT 關鍵字會控制所產生的輸出。 如果未指定 SPLITSAMPLE ,則會忽略此設定。
BOTHSamples. 產生用於訓練和測試樣本的輸出。 這是預設值。 如果您要比較每一個分割區的結果,請選擇此選項。
TESTSAMPLE. 僅為檢定樣本產生輸出。 如果您只想要驗證結果,請選擇此選項。