分区节点选项

分区字段。指定由该节点创建的字段的名称。

分区。可以将数据分区为两个样本(训练和测试)或三个样本(训练、测试和验证)。

  • 训练和测试。将数据分区为两个样本,使您能够用一个样本训练模型并用另一个样本测试模型。
  • 训练、测试和验证。将数据分区为三个样本,使您能够用一个样本训练模型,用第二个样本测试并精练模型,然后用第三个样本验证得到的结果。这种方式会相应减小每个分区的大小,但在使用超大型数据集时最为适用。

分区大小。指定每个分区的相对大小。如果分区大小之和小于 100%,那么未包含在分区中的记录将被废弃。例如,如果用户拥有一千万条记录,并已指定 5% 的训练分区大小和 10% 的测试分区大小,那么在运行该节点之后,大约会有五十万条训练记录和一百万条测试记录,其余记录则被丢弃。

。指定用于表示数据中每个分区样本的值。

  • 使用系统定义的值(“1”、“2”和“3”)。使用整数表示每个分区;例如,位于训练样本中的所有记录的分区字段值均为 1。这样可确保数据能够在不同语言环境之间移动,而且如果分区字段在其他位置进行重新实例化(例如从数据集读回数据),将保留排列顺序(因此 1 仍将表示训练分区)。但是,这种值需要一定的解释。
  • 向系统定义的值追加标签。将整数与标签组合;例如,训练分区记录的值为 1_Training。这样,查看数据的人可能识别出具体的值,并且数据可以保留排列顺序。但是,这种值仅适用于给定的语言环境。
  • 将标签用作值。使用不带整数的标签;例如,Training。这使您能够通过编辑标签来指定值。但是,这也使数据特定于语言环境,而分区列的重新实例化会使值具有自然排列顺序,而不对应其“语义”顺序。

种子。仅当选中了可重复分区分配时才可用。根据随机数百分比对记录进行抽样或分区时,此选项允许在另一会话中复制相同的结果。通过指定随机数生成器所使用的起始值,可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值,或单击生成按钮自动生成一个随机值。如果未选中该选项,则每次执行节点时会生成不同的抽样。

注: 对从数据库中读取的记录使用种子选项时,可能需要在抽样前使用“排序”节点以确保每次执行节点时都获得相同的结果。这是因为随机种子依赖于记录的顺序,而在关系数据库中不能保证记录具有这种顺序。有关更多信息,请参阅排序节点主题。

使用唯一的字段来分配分区。仅当选中了可重复分区分配时才可用。(仅适合第 1 层数据库)选中此复选框以使用 SQL 回送分配记录到分区。从下拉列表中,选择具有唯一值的字段(例如标识字段)以确保以随机且可重复的方式分配记录。

“数据库源”节点的描述中对数据库分层进行了说明。有关更多信息,请参阅“数据库源”节点主题。

生成选择节点

使用“分区”节点中的“生成”菜单,可以自动为每个分区生成一个“选择”节点。例如,可以选择训练分区中的所有记录,以便仅使用此分区获得进一步的求值或分析。