「聚集」節點
聚集是一項資料預備作業,經常用於減小資料集的大小。繼續執行聚集之前,您應該花一些時間來清理資料,尤其要關注遺漏值。完成聚合後,或許會丟失可能有用的遺漏值資訊。
您可以使用「聚集」節點將一系列輸入記錄取代為聚集的摘要輸出記錄。例如,您可能有一組輸入銷售記錄,例如下表格中所顯示的記錄。
| 年齡 | 性別 | 地區 | 分支 | 銷售量 |
|---|---|---|---|---|
| 23 | M | S | 8 | 4 |
| 45 | M | S | 16 | 4 |
| 37 | M | S | 8 | 5 |
| 30 | M | S | 5 | 7 |
| 44 | M | N | 4 | 9 |
| 25 | M | N | 2 | 11 |
| 29 | F | S | 16 | 6 |
| 41 | F | N | 4 | 8 |
| 23 | F | N | 6 | 2 |
| 45 | F | N | 4 | 5 |
| 33 | F | N | 6 | 10 |
您可以將 Sex 和 Region 作為索引鍵欄位對這些記錄進行聚合。然後選擇使用平均數模式聚合年齡,並使用合計模式聚合銷售。在「聚集」節點對話框中選取在欄位中包含記錄計數後,聚合的輸出將顯示在下表格中。
| 年齡(平均數) | 性別 | 地區 | 銷售量(總和) | 記錄計數 |
|---|---|---|---|---|
| 35.5 | F | N | 25 | 4 |
| 29 | F | S | 6 | 1 |
| 34.5 | M | N | 20 | 2 |
| 33.75 | M | S | 20 | 4 |
例如,您可從中瞭解到,北部區域四名陰性銷售人員的平均值年齡為 35.5 歲,其銷售量總和為 25 件產品。
附註:如果未指定聚合方式,那麼將自動捨棄分支之類的欄位。