分区节点选项

分区字段。指定由该节点创建的字段的名称。

分区。可以将数据分区为两个样本（训练和测试）或三个样本（训练、测试和验证）。

训练和测试。将数据分区为两个样本，使您能够用一个样本训练模型并用另一个样本测试模型。
训练、测试和验证。将数据分区为三个样本，使您能够用一个样本训练模型，用第二个样本测试并精练模型，然后用第三个样本验证得到的结果。这种方式会相应减小每个分区的大小，但在使用超大型数据集时最为适用。

分区大小。指定每个分区的相对大小。如果分区大小之和小于 100%，那么未包含在分区中的记录将被废弃。例如，如果用户拥有一千万条记录，并已指定 5% 的训练分区大小和 10% 的测试分区大小，那么在运行该节点之后，大约会有五十万条训练记录和一百万条测试记录，其余记录则被丢弃。

值。指定用于表示数据中每个分区样本的值。

使用系统定义的值（“1”、“2”和“3”）。使用整数表示每个分区；例如，位于训练样本中的所有记录的分区字段值均为 1。这样可确保数据能够在不同语言环境之间移动，而且如果分区字段在其他位置进行重新实例化（例如从数据集读回数据），将保留排列顺序（因此 1 仍将表示训练分区）。但是，这种值需要一定的解释。
向系统定义的值追加标签。将整数与标签组合；例如，训练分区记录的值为 1_Training。这样，查看数据的人可能识别出具体的值，并且数据可以保留排列顺序。但是，这种值仅适用于给定的语言环境。
将标签用作值。使用不带整数的标签；例如，Training。这使您能够通过编辑标签来指定值。但是，这也使数据特定于语言环境，而分区列的重新实例化会使值具有自然排列顺序，而不对应其“语义”顺序。

种子。仅当选中了可重复分区分配时才可用。根据随机数百分比对记录进行抽样或分区时，此选项允许在另一会话中复制相同的结果。通过指定随机数生成器所使用的起始值，可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值，或单击生成按钮自动生成一个随机值。如果未选中该选项，则每次执行节点时会生成不同的抽样。

注：对从数据库中读取的记录使用种子选项时，可能需要在抽样前使用“排序”节点以确保每次执行节点时都获得相同的结果。这是因为随机种子依赖于记录的顺序，而在关系数据库中不能保证记录具有这种顺序。有关更多信息，请参阅排序节点主题。

使用唯一的字段来分配分区。仅当选中了可重复分区分配时才可用。（仅适合第 1 层数据库）选中此复选框以使用 SQL 回送分配记录到分区。从下拉列表中，选择具有唯一值的字段（例如标识字段）以确保以随机且可重复的方式分配记录。

“数据库源”节点的描述中对数据库分层进行了说明。有关更多信息，请参阅“数据库源”节点主题。

生成选择节点

使用“分区”节点中的“生成”菜单，可以自动为每个分区生成一个“选择”节点。例如，可以选择训练分区中的所有记录，以便仅使用此分区获得进一步的求值或分析。