「聚集」節點

聚集是一項資料預備作業,經常用於減小資料集的大小。繼續執行聚集之前,您應該花一些時間來清理資料,尤其要關注遺漏值。完成聚合後,或許會丟失可能有用的遺漏值資訊。

您可以使用「聚集」節點將一系列輸入記錄取代為聚集的摘要輸出記錄。例如,您可能有一組輸入銷售記錄,例如下表格中所顯示的記錄。

表 1. 小時記錄輸入範例
年齡 性別 地區 分支 銷售量
23 M S 8 4
45 M S 16 4
37 M S 8 5
30 M S 5 7
44 M N 4 9
25 M N 2 11
29 F S 16 6
41 F N 4 8
23 F N 6 2
45 F N 4 5
33 F N 6 10

您可以將 SexRegion 作為索引鍵欄位對這些記錄進行聚合。然後選擇使用平均數模式聚合年齡,並使用合計模式聚合銷售。在「聚集」節點對話框中選取在欄位中包含記錄計數後,聚合的輸出將顯示在下表格中。

表 2. 聚集記錄範例
年齡(平均數) 性別 地區 銷售量(總和) 記錄計數
35.5 F N 25 4
29 F S 6 1
34.5 M N 20 2
33.75 M S 20 4

例如,您可從中瞭解到,北部區域四名陰性銷售人員的平均值年齡為 35.5 歲,其銷售量總和為 25 件產品。

附註:如果未指定聚合方式,那麼將自動捨棄分支之類的欄位。