“样本”节点选项

您可以根据需要，选择简单或复杂方法。

简单抽样选项

通过“简单”方法，您可以选择记录的随机百分比、连续记录或所有第 n 条记录。

方式。选择对于下面的模式遍历（包括）还是丢弃（排除）记录：

包括样本。包含数据流中的选定记录并废弃所有其他记录。例如，如果您将模式设置为包含样本并将 n 中取 1 选项设置为 5，则每隔五个记录便有一个记录被包含进来，结果将生成大约为原大小五分之一的数据集。此模式为对数据进行抽样的缺省模式，并且是使用复杂方法时的唯一模式。
废弃样本。排除选定记录并包含所有其他记录。例如，如果您将模式设置为丢弃样本并将 n 中取 1 选项设置为 5，则每隔五条记录便有一条被丢弃（排除）。此模式仅适用于简单方法。

样本。从下列选项中选择抽样方法：

从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如，如果最大样本大小设置为 10000，则前 10000 条记录会被选中。
n 中取 1。选择此选项会按照这样的方式抽样数据：每隔 n 个记录进行一次遍历或废弃。例如，如果 n 设为 5，则每隔五条记录便会选中一条。
随机 %。选择此选项将随机抽样指定百分比的数据。例如，如果百分比设置为 20，那么根据选择的模式，将 20% 的数据传递到数据流或将其废弃。使用该字段可指定抽样百分比。您还可以使用设置随机种子控件指定一个种子值。
使用块级别抽样（仅限数据库中）。在 Oracle 或 IBM Db2 数据库上执行数据库内挖掘时，只在您选择随机百分比抽样时才启用此选项。在这些情况，块级别抽样的效率会更高。

注：每次运行相同的随机样本设置时，系统不会返回确切的行数。这是因为每个输入记录包含在样本中的可能性为 N/100（其中，N 是您在节点中指定的随机 %），而且可能性是独立的；因此结果不是确切的 N%。

最大样本大小。指定样本中所包含的最大记录数。此选项为多余选项，因此在选定第一个和包括时会被禁用。另外，当与随机 % 选项结合使用时还请注意，此设置可能会阻止选中某些记录。例如，如果数据集中有一千万条记录，而您选择了 50% 的记录且最大样本大小为三百万条记录，那么将选中前六百万条记录中的 50% 的记录，剩余的四百万条记录便不会再被选中。为避免这种限制，请选择复杂抽样方法，然后对三百万条记录进行随机样本，无需指定聚类或分层变量。

复杂抽样选项

通过复杂样本选项，您可以与其他选项一起更好地控制样本，包括聚类样本、分层样本和加权样本。

聚类和分层。允许您指定聚类和分层并根据需要输入权重字段。有关更多信息，请参阅聚类和分层设置主题。

样本类型。

随机。在每一层内随机选择聚类或记录。
系统化。以固定间隔选择记录。除了会根据随机种子更改第一条记录的位置之外，此选项工作原理与 n 中取 1 方法基本相似。n 的值会根据样本大小和比例自动确定。

样本单元。可以选择比例或计数作为基本样本单元。

样本大小。您可以按以下几种方式指定样本大小：

固定。允许您将样本总大小指定为计数或比例。
定制。允许您为每个子组或分层指定样本大小。此选项只有在“聚类”和“分层”子对话框中指定了层字段时才可用。
变量。允许用户选取一个字段来为每个子组或层定义样本大小。对于特定层内的每条记录，此字段应该都有相同的值；例如，如果样本按县分层，那么具有 county = Surrey 的所有记录必须具有相同值。该字段必须为数值型并且它的值必须与所选样本单元相匹配。比例的值应该大于 0 小于 1；计数的最小值为 1。

每层的最小样本。指定记录的最小值（如果已指定了聚类字段，可指定聚类的最小值）。

每层的最大样本。指定记录或聚类的最大值。如果在没有指定聚类或分层字段的情况下选择了此选项，那么将选择指定大小的随机或系统化样本。

设置随机种子。根据随机数百分比对记录进行抽样或分区时，此选项允许在另一会话中复制相同的结果。通过指定随机数生成器所使用的起始值，可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值，或单击生成按钮自动生成一个随机值。如果未选中该选项，则每次执行节点时会生成不同的抽样。

注：对从数据库中读取的记录使用设置随机种子选项时，可能需要在抽样前使用“排序”节点以确保每次执行节点时都获得相同的结果。这是因为随机种子依赖于记录的顺序，而在关系数据库中不能保证记录具有这种顺序。有关更多信息，请参阅排序节点主题。