分布拟合
统计分布是某个变量可以使用的值的理论出现频率。在“模拟拟合”节点中,会将一组理论统计分布与每个数据字段进行比较。主题分布中描述了可用于拟合的分布。对理论分布的参数进行了调整,以便根据拟合度的度量实现与数据的最佳拟合;Anderson-Darling 标准或 Kolmogorov-Smirnov 标准。通过“模拟拟合”节点实现的分布拟合的结果显示拟合了哪些分布、每个分布的最佳参数估计以及每个分布与数据的拟合度。分布拟合期间,还可以计算具有数字存储类型的字段之间的相关性,以及具有分类分布的字段之间的偶然性。分布拟合的结果将用于创建“模拟生成”节点。
将任何分布与数据进行拟合之前,会在前 1000 条记录中查找缺失值。如果缺失值过多,那么无法进行分布拟合。在这种情况下,您必须确定以下某个选项是否适用:
- 使用上游节点移除包含缺失值的记录。
- 使用上游节点针对缺失值对值进行插补。
拟合分布时,将不会考虑字段的角色。例如,角色为目标的字段的处理方式与角色为输入、无、两者、分区、分割、频率和标识的字段相同。
分布拟合期间,将根据字段的存储类型和测量级别以不同方式对这些字段进行处理。下表描述了分布拟合期间的字段处理。
| 存储类型 | 测量级别 | |||||
|---|---|---|---|---|---|---|
| 连续 | 分类 | 标记 | 名义 | 有序 | 无类型 | |
| 字符串 | 不可能 | 对分类分布、骰子分布和固定分布进行拟合 | ||||
| 整数 | ||||||
| 实数 | ||||||
| 时间 | 对所有分布进行拟合。将计算相关性和偶然性。 | 对分类分布进行拟合。不计算相关性。 | 对二项式分布、负二项式分布和泊松分布进行拟合,并计算相关性。 | 将忽略字段,并且不会将字段传递到“模拟生成”节点。 | ||
| 日期 | ||||||
| 时间戳 | ||||||
| 未知 | 根据数据确定相应的存储类型。 |
对于测量级别为有序的字段,其处理方式类似于连续字段,并且它们包含在“模拟生成”节点中的相关表内。如果您要将二项式分布、负二项式分布或泊松分布以外的分布拟合到有序字段,那么必须将字段的测量级别更改为连续。如果您先前为有序字段的每个值定义了标签,并且随后将测量级别更改为连续,那么这些标签将丢失。
在分布拟合到具有多个值的字段时,将以相同方式处理具有单个值的字段。具有存储类型时间、日期或时间戳记的字段将作为数字进行处理。
将分布拟合到分割字段
如果您的数据包含分割字段,并且您希望对每个分割单独执行分布拟合,那么必须使用上游“重构”节点来变换数据。使用“重构”节点可以为分割字段的每个值生成一个新字段。随后,可以将此重构数据用于“模拟拟合”节点中的分布拟合。