IBM® SPSS® Modeler 中最強大的功能之一是可以修改資料值並從現有資料中衍生新欄位。在漫長的資料採礦專案中,執行若干衍生動作是很常見的,如從 Web 日誌資料的字串中擷取客戶 ID,或根據交易和人口統計資料建立客戶生命期限值。所有這些轉換均可使用各式各樣的欄位作業節點完成。
若干節點可提供衍生新欄位的功能:
|
|
「衍生」節點將修改資料值或根據一個或多個現有欄位建立新欄位。它可建立的欄位類型包括公式、旗標、列名、狀態、計數和條件。
|
|
|
「重新分類」節點可將一組種類值轉換為另一組值。重新分類對收合種類或重新分組分析資料非常有用。 |
|
|
「分組」節點根據一個或多個現有連續(數值型範圍)欄位的值自動建立新的列名(集合)欄位。例如,用戶可將連續收入欄位轉換為一個包含各群組收入的新的種類欄位,作為其與平均數之間的離差。一旦您為新欄位建立了分組,就可以根據切割點來產生「衍生」節點。 |
|
|
「設為旗標」節點根據定義給一或多個標準欄位的種類值衍生多個旗標欄位。 |
|
|
「重組」節點可將一個名義欄位或旗標欄位轉換為一組欄位(該欄位群組可移入另一個欄位的值)。例如,給定一個名為 支付類型的欄位,其值為貸方、現金和借方,則將建立三個新欄位(貸方、現金、借方),每個欄位可能包含實際支付的值。
|
|
|
「歷史」節點將建立新欄位,其中包含之前記錄中的欄位資料。「歷程」節點通常用於序列資料,例如時間序列資料。使用「歷史」節點前,您可能希望使用「排序」節點對此資料進行排序。
|
使用衍生節點
使用衍生節點,可以根據一個或多個現有欄位建立六種類型的新欄位:
- 公式。新欄位是任意 CLEM 表示式的結果。
- 旗標。新欄位是代表指定條件的旗標。
- 名義。 新欄位是名義的,表示其成員是一組指定值。
- 狀態。新欄位是兩種狀態之一。通過指定條件觸發這兩種狀態之間的切換。
- 計數。 新欄位以滿足某個條件的次數為基礎。
- 條件。新欄位是兩個表示式的其中一個的值,具體取決於條件的值。
其中每個節點在「衍生」節點對話框中都包含一組特殊選項。後續的主題會討論這些選項。
請注意,使用下列各項可能會變更列順序:
- 通過 SQL 回送在資料庫中執行
- 通過遠端 IBM SPSS Analytic Server 執行
- 使用在內含式 IBM SPSS Analytic Server 中執行的函數
- 衍生清單(例如,請參閱衍生清單或地理空間欄位)
- 呼叫任何空間函數