填補遺漏值
審核報告列出每個欄位完整記錄的百分比以及有效值、空值和空白值的數目。您可以根據情況選擇填補特定欄位的遺漏值,然後產生 SuperNode 以套用這些轉換。
- 在填補遺漏值欄中,指定要填補的值的類型(如果有)。您可以選擇填補空白值和/或空值,或指定用於選擇待填補值的自訂條件或表示式。
IBM® SPSS® Modeler 可識別的遺漏值類型有以下幾種:
- 空值或系統遺漏值。這兩種類型是資料庫或來源檔案中留空白、並且尚未在來源節點或類型節點中專門定義為「遺漏」的非字串值。系統遺漏值顯示為 $null$。請注意,空字串在 IBM SPSS Modeler 中不被視為空白值,但它們可能會被某些資料庫視為空白值。
- 空字串和空白。空字串值和空白(帶有不可見字元的字串)不被視為空值。對於大多數用途,空字串都視為相當於空白。例如,如果您選取在來源節點或類型節點中將空白視為空白值的選項,則此設定也套用至空字串。
- 空白值或使用者定義的遺漏值。這些是在來源節點或類型節點中被明確定義為遺漏的值(例如
unknown、99或–1)。您還可以將空白和空白視為空白值,這樣將使得它們被旗標為進行特殊處理並排除在大多數計算之外。例如,您可以使用@BLANK函數將這些值以及其他類型的遺漏值處理為空白值。
- 在方法欄中,指定要使用的方法。
下列方法可用於輸入遺漏值:
固定。 替換為固定值(可以欄位平均數、範圍中間值,或者您指定的常數)。
隨機。 替換為基於正常分佈或均勻分佈產生的隨機值。
表示式。用於指定自訂表示式。例如,您可以使用設定廣域節點建立的廣域變數取代數值。
演算法。 基於 C&RT 演算法替換為模型預測的值。對於使用此方法輸入的每個欄位,都會有一個個別的 C&RT 模型,還有一個「填入器」節點會使用該模型預測的值取代空白和空值。然後使用過濾器節點刪除該模型產生的預測欄位。
- 要產生遺漏值 SuperNode,請從功能表中選擇:
這將顯示「遺漏值 SuperNode」對話框。
- 選取所有欄位或僅所選取的欄位,並根據需要指定樣本大小。(指定的樣本是百分比,預設情況,將對所有記錄取 10% 的樣本。)
- 按一下確定將產生的 SuperNode 新增到串流畫布中。
- 將 SuperNode 連接到串流以套用轉換。
在 SuperNode 中,將根據情況使用由模型區塊、填入器和過濾器節點形成的組合。要瞭解 SuperNode 如何工作,可以編輯 SuperNode 並按一下放大,並且可以在 SuperNode 中新增、編輯或刪除特定節點以對行為進行微調。