CROSSVALIDATION 次指令 (KNN 指令)
CROSSVALIDATION 次指令指定用於執行 V摺疊交叉驗證以判定「最佳」鄰接項數目的設定。
- V-fold 交叉驗證會將資料分成 V 摺疊。 然後,對於固定 k,它會套用最近鄰接項分析,以在第 v摺疊 (使用其他 V− 1 摺疊作為訓練樣本) 上進行預測,並評估誤差。 此處理程序會連續套用至所有可能的 v選項。 在 V 摺疊結束時,計算的誤差會平均。 針對 K的各種值,會重複上述步驟。 選取達到最低平均錯誤的值作為 K的最佳值。
- 如果 K 的多個值在最低平均誤差上同分,則會選取同分值中最小的 K 。
- 當
/MODEL NEIGHBORS=FIXED或/MODEL FEATURES=AUTO時,不會使用交叉驗證。 - 在
CROSSVALIDATION次指令上同時指定FOLDS及VARIABLE關鍵字無效。
摺疊關鍵字
FOLDS 關鍵字指定交叉驗證應該使用的摺疊數。 此程序會隨機指派觀察值給折疊,從 1 到折疊數目。
- 請指定一個大於 1 的整數。 預設值是 10。
- 對於給定訓練集,摺疊數的上限是觀察值數目。 如果
FOLDS的值大於訓練分割區中的觀察值數目 (對於任何分割,如果SPLIT FILE有效) ,則摺疊數會設為訓練分割區中的觀察值數目 (對於該分割)。
VARIABLE 關鍵字
VARIABLE 關鍵字指定一個變數,將作用中資料集中的每個觀察值指派給從 1 到 V的摺疊。
變數不能是應變數,也不能是指令行因素或共變數清單上指定的任何變數。 變數必須是數值,且值設為介於 1 到 V。 如果任何分割 (如果 SPLIT FILE 有效) 上遺漏此範圍內的任何值,則會導致錯誤。