数据审核的质量选项卡

Data Audit 节点中的“质量”选项卡提供用于处理缺失值、离群集和极值的选项。

缺失值

  • 含有效值的记录的计数。选择此选项可为每个评估字段显示含有效值的记录数。请注意,null(未定义的)值、空白值、空白和空字符串总是被视为无效值。
  • 含无效值的记录的分类计数。选择此选项可为每个字段显示含每类无效值的记录数。

离群值和极值

离群值和极值的检测方法。支持两种方法:

与平均值的标准差。根据与平均值的标准差的个数检测离群值和极值。例如,如果您具有一个包含平均值 100 和标准差 10 的字段,那么可以指定 3.0 来指出应将任何低于 70 或高于 130 的值视为离群值。

四分位距。根据四分位距(即中间两个四分位数的间距,介于 25% 百分位数和 75% 百分位数之间)检测离群值和极值。例如,根据缺省设置 1.5,离群值的阈值下限将为 Q1 - 1.5 * IQR,阈值上限将为 Q3 + 1.5*IQR。请注意,使用此选项可能会降低大型数据集的性能。