填補遺漏值

審核報告列出每個欄位完整記錄的百分比以及有效值、空值和空白值的數目。您可以根據情況選擇填補特定欄位的遺漏值,然後產生 SuperNode 以套用這些轉換。

  1. 填補遺漏值欄中,指定要填補的值的類型(如果有)。您可以選擇填補空白值和/或空值,或指定用於選擇待填補值的自訂條件或表示式。

    IBM® SPSS® Modeler 可識別的遺漏值類型有以下幾種:

    • 空值或系統遺漏值。這兩種類型是資料庫或來源檔案中留空白、並且尚未在來源節點或類型節點中專門定義為「遺漏」的非字串值。系統遺漏值顯示為 $null$。請注意,空字串在 IBM SPSS Modeler 中不被視為空白值,但它們可能會被某些資料庫視為空白值。
    • 空字串和空白。空字串值和空白(帶有不可見字元的字串)不被視為空值。對於大多數用途,空字串都視為相當於空白。例如,如果您選取在來源節點或類型節點中將空白視為空白值的選項,則此設定也套用至空字串。
    • 空白值或使用者定義的遺漏值。這些是在來源節點或類型節點中被明確定義為遺漏的值(例如 unknown99–1)。您還可以將空白和空白視為空白值,這樣將使得它們被旗標為進行特殊處理並排除在大多數計算之外。例如,您可以使用 @BLANK 函數將這些值以及其他類型的遺漏值處理為空白值。
  2. 方法欄中,指定要使用的方法。

    下列方法可用於輸入遺漏值:

    固定。 替換為固定值(可以欄位平均數、範圍中間值,或者您指定的常數)。

    隨機。 替換為基於正常分佈或均勻分佈產生的隨機值。

    表示式。用於指定自訂表示式。例如,您可以使用設定廣域節點建立的廣域變數取代數值。

    演算法。 基於 C&RT 演算法替換為模型預測的值。對於使用此方法輸入的每個欄位,都會有一個個別的 C&RT 模型,還有一個「填入器」節點會使用該模型預測的值取代空白和空值。然後使用過濾器節點刪除該模型產生的預測欄位。

  3. 要產生遺漏值 SuperNode,請從功能表中選擇:

    產生 > 遺漏值 SuperNode

    這將顯示「遺漏值 SuperNode」對話框。

  4. 選取所有欄位僅所選取的欄位,並根據需要指定樣本大小。(指定的樣本是百分比,預設情況,將對所有記錄取 10% 的樣本。)
  5. 按一下確定將產生的 SuperNode 新增到串流畫布中。
  6. 將 SuperNode 連接到串流以套用轉換。

在 SuperNode 中,將根據情況使用由模型區塊、填入器和過濾器節點形成的組合。要瞭解 SuperNode 如何工作,可以編輯 SuperNode 並按一下放大,並且可以在 SuperNode 中新增、編輯或刪除特定節點以對行為進行微調。