衍生節點

IBM® SPSS® Modeler 中最強大的功能之一是可以修改資料值並從現有資料中衍生新欄位。在漫長的資料採礦專案中,執行若干衍生動作是很常見的,如從 Web 日誌資料的字串中擷取客戶 ID,或根據交易和人口統計資料建立客戶生命期限值。所有這些轉換均可使用各式各樣的欄位作業節點完成。

若干節點可提供衍生新欄位的功能:

「衍生」節點將修改資料值或根據一個或多個現有欄位建立新欄位。它可建立的欄位類型包括公式、旗標、列名、狀態、計數和條件。
「重新分類」節點可將一組種類值轉換為另一組值。重新分類對收合種類或重新分組分析資料非常有用。
「分組」節點根據一個或多個現有連續(數值型範圍)欄位的值自動建立新的列名(集合)欄位。例如,用戶可將連續收入欄位轉換為一個包含各群組收入的新的種類欄位,作為其與平均數之間的離差。一旦您為新欄位建立了分組,就可以根據切割點來產生「衍生」節點。
「設為旗標」節點根據定義給一或多個標準欄位的種類值衍生多個旗標欄位。
「重組」節點可將一個名義欄位或旗標欄位轉換為一組欄位(該欄位群組可移入另一個欄位的值)。例如,給定一個名為 支付類型的欄位,其值為貸方現金借方,則將建立三個新欄位(貸方現金借方),每個欄位可能包含實際支付的值。
「歷史」節點將建立新欄位,其中包含之前記錄中的欄位資料。「歷程」節點通常用於序列資料,例如時間序列資料。使用「歷史」節點前,您可能希望使用「排序」節點對此資料進行排序。

使用衍生節點

使用衍生節點,可以根據一個或多個現有欄位建立六種類型的新欄位:

  • 公式。新欄位是任意 CLEM 表示式的結果。
  • 旗標。新欄位是代表指定條件的旗標。
  • 名義。 新欄位是名義的,表示其成員是一組指定值。
  • 狀態。新欄位是兩種狀態之一。通過指定條件觸發這兩種狀態之間的切換。
  • 計數。 新欄位以滿足某個條件的次數為基礎。
  • 條件。新欄位是兩個表示式的其中一個的值,具體取決於條件的值。

其中每個節點在「衍生」節點對話框中都包含一組特殊選項。後續的主題會討論這些選項。

請注意,使用下列各項可能會變更列順序:
  • 通過 SQL 回送在資料庫中執行
  • 通過遠端 IBM SPSS Analytic Server 執行
  • 使用在內含式 IBM SPSS Analytic Server 中執行的函數
  • 衍生清單(例如,請參閱衍生清單或地理空間欄位
  • 呼叫任何空間函數