“汇总”节点
汇总是一项数据准备任务,经常用于减小数据集的大小。继续执行汇总之前,您应该花一些时间来清理数据,尤其要关注缺失值。完成汇总后,或许会丢失可能有用的缺失值信息。
您可以使用“汇总”节点将一系列输入记录替换为摘要,即经过汇总的输出记录。例如,您可能有一组输入销售记录,例如下表中所显示的记录。
| 年龄 | 性别 | 区域 | 分支 | 销售量 |
|---|---|---|---|---|
| 23 | M | S | 8 | 4 |
| 45 | M | S | 16 | 4 |
| 37 | M | S | 8 | 5 |
| 30 | M | S | 5 | 7 |
| 44 | M | N | 4 | 9 |
| 25 | M | N | 2 | 11 |
| 29 | F | S | 16 | 6 |
| 41 | F | N | 4 | 8 |
| 23 | F | N | 6 | 2 |
| 45 | F | N | 4 | 5 |
| 33 | F | N | 6 | 10 |
您可以将 Sex 和 Region 作为关键字段对这些记录进行汇总。然后选择使用平均值模式汇总年龄,并使用合计模式汇总销售。在“汇总”节点对话框中选择在字段中包含记录计数后,汇总的输出将显示在下表中。
| 年龄(均值) | 性别 | 区域 | 销售量(总和) | 记录计数 |
|---|---|---|---|---|
| 35.5 | F | N | 25 | 4 |
| 29 | F | S | 6 | 1 |
| 34.5 | M | N | 20 | 2 |
| 33.75 | M | S | 20 | 4 |
例如,您可从中了解到,北部区域四名女性销售人员的平均年龄为 35.5 岁,其销售量总和为 25 件产品。
注:如果未指定汇总方式,那么将自动废弃分支之类的字段。