“样本”节点选项
您可以根据需要,选择简单或复杂方法。
简单抽样选项
通过“简单”方法,您可以选择记录的随机百分比、连续记录或所有第 n 条记录。
方式。选择对于下面的模式遍历(包括)还是丢弃(排除)记录:
- 包括样本。包含数据流中的选定记录并废弃所有其他记录。例如,如果您将模式设置为包含样本并将 n 中取 1 选项设置为 5,则每隔五个记录便有一个记录被包含进来,结果将生成大约为原大小五分之一的数据集。此模式为对数据进行抽样的缺省模式,并且是使用复杂方法时的唯一模式。
- 废弃样本。排除选定记录并包含所有其他记录。例如,如果您将模式设置为丢弃样本并将 n 中取 1 选项设置为 5,则每隔五条记录便有一条被丢弃(排除)。此模式仅适用于简单方法。
样本。从下列选项中选择抽样方法:
- 从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如,如果最大样本大小设置为 10000,则前 10000 条记录会被选中。
- n 中取 1。选择此选项会按照这样的方式抽样数据:每隔 n 个记录进行一次遍历或废弃。例如,如果 n 设为 5,则每隔五条记录便会选中一条。
- 随机 %。选择此选项将随机抽样指定百分比的数据。例如,如果百分比设置为 20,那么根据选择的模式,将 20% 的数据传递到数据流或将其废弃。使用该字段可指定抽样百分比。您还可以使用设置随机种子控件指定一个种子值。
使用块级别抽样(仅限数据库中)。在 Oracle 或 IBM Db2 数据库上执行数据库内挖掘时,只在您选择随机百分比抽样时才启用此选项。在这些情况,块级别抽样的效率会更高。
注: 每次运行相同的随机样本设置时,系统不会返回确切的行数。这是因为每个输入记录包含在样本中的可能性为N/100(其中,N是您在节点中指定的随机 %),而且可能性是独立的;因此结果不是确切的N%。
最大样本大小。指定样本中所包含的最大记录数。此选项为多余选项,因此在选定第一个和包括时会被禁用。另外,当与随机 % 选项结合使用时还请注意,此设置可能会阻止选中某些记录。例如,如果数据集中有一千万条记录,而您选择了 50% 的记录且最大样本大小为三百万条记录,那么将选中前六百万条记录中的 50% 的记录,剩余的四百万条记录便不会再被选中。为避免这种限制,请选择复杂抽样方法,然后对三百万条记录进行随机样本,无需指定聚类或分层变量。
复杂抽样选项
通过复杂样本选项,您可以与其他选项一起更好地控制样本,包括聚类样本、分层样本和加权样本。
聚类和分层。允许您指定聚类和分层并根据需要输入权重字段。有关更多信息,请参阅聚类和分层设置主题。
样本类型。
- 随机。在每一层内随机选择聚类或记录。
- 系统化。以固定间隔选择记录。除了会根据随机种子更改第一条记录的位置之外,此选项工作原理与 n 中取 1 方法基本相似。n 的值会根据样本大小和比例自动确定。
样本单元。可以选择比例或计数作为基本样本单元。
样本大小。您可以按以下几种方式指定样本大小:
- 固定。允许您将样本总大小指定为计数或比例。
- 定制。允许您为每个子组或分层指定样本大小。此选项只有在“聚类”和“分层”子对话框中指定了层字段时才可用。
- 变量。允许用户选取一个字段来为每个子组或层定义样本大小。对于特定层内的每条记录,此字段应该都有相同的值;例如,如果样本按县分层,那么具有 county = Surrey 的所有记录必须具有相同值。该字段必须为数值型并且它的值必须与所选样本单元相匹配。比例的值应该大于 0 小于 1;计数的最小值为 1。
每层的最小样本。指定记录的最小值(如果已指定了聚类字段,可指定聚类的最小值)。
每层的最大样本。指定记录或聚类的最大值。如果在没有指定聚类或分层字段的情况下选择了此选项,那么将选择指定大小的随机或系统化样本。
设置随机种子。根据随机数百分比对记录进行抽样或分区时,此选项允许在另一会话中复制相同的结果。通过指定随机数生成器所使用的起始值,可以确保在每次执行节点时都会分配相同的记录。输入所需的种子值,或单击生成按钮自动生成一个随机值。如果未选中该选项,则每次执行节点时会生成不同的抽样。