“汇总”节点

汇总是一项数据准备任务,经常用于减小数据集的大小。继续执行汇总之前,您应该花一些时间来清理数据,尤其要关注缺失值。完成汇总后,或许会丢失可能有用的缺失值信息。

您可以使用“汇总”节点将一系列输入记录替换为摘要,即经过汇总的输出记录。例如,您可能有一组输入销售记录,例如下表中所显示的记录。

表 1. 销售记录输入示例
年龄 性别 区域 分支 销售量
23 M S 8 4
45 M S 16 4
37 M S 8 5
30 M S 5 7
44 M N 4 9
25 M N 2 11
29 F S 16 6
41 F N 4 8
23 F N 6 2
45 F N 4 5
33 F N 6 10

您可以将 SexRegion 作为关键字段对这些记录进行汇总。然后选择使用平均值模式汇总年龄,并使用合计模式汇总销售。在“汇总”节点对话框中选择在字段中包含记录计数后,汇总的输出将显示在下表中。

表 2. 汇总记录的示例
年龄(均值) 性别 区域 销售量(总和) 记录计数
35.5 F N 25 4
29 F S 6 1
34.5 M N 20 2
33.75 M S 20 4

例如,您可从中了解到,北部区域四名女性销售人员的平均年龄为 35.5 岁,其销售量总和为 25 件产品。

:如果未指定汇总方式,那么将自动废弃分支之类的字段。