平衡节点

您可以使用 Balance 节点修正数据集中的不平衡,以便它们符合指定的检验标准。例如,假设某个数据集只有两个值(lowhigh),并且 90% 的观测值为 low,而只有 10% 的观测值为 high。很多建模技术处理此类偏倚数据都有困难,因为它们倾向于只学习这些 low 的结果,而忽略 high 的结果(因为这些结果少的可怜)。如果数据平衡很好, low high 结果具有大致相同的数量,那么模型将更有可能找出分辨这两个组的模式。这种情况下,平衡节点对于创建平衡指令,从而减少带有 low 结果的观测值数量非常有用。

平衡是通过复制记录,然后根据指定的条件丢弃记录完成执行的。将始终遍历不符合任何条件的记录。因为此过程的工作模式为复制和/或废弃记录,所以在下游操作中将丢失数据的原始顺序。在向数据流添加平衡节点之前,请确保派生任何与序列相关的值。

注意:Balance 节点可从条形图和直方图自动生成。例如,您可以平衡数据以显示某一分类字段所有分类的相同比例,如分布图所示。

示例。构建 RFM 流以识别积极响应以往营销活动的最新客户时,销售公司的市场营销部可以使用 Balance 节点来平衡数据中真假响应之间的差异。