处理离群值和缺失值
审核报告中的“质量”选项卡显示有关离群值、极值和缺失值的信息。

也可以指定处理这些值的方法并生成超节点,以自动应用各种变换。例如,您可以使用多种方法(包括 C&RT 算法)来选择一个或多个字段并选择插补或替换这些字段的缺失值。

指定用于一个或多个字段的归因方法后,要生成缺失值超节点,请从菜单中选择:

生成的超节点将添加到流画布中,您可以在该流画布中将此超节点附加到流中以应用各种变换。

实际上,超节点包含执行所需变换的一系列节点。要了解超节点的工作方式,可编辑超节点并单击 放大 。

例如,对于使用算法插补的每个字段,将有一个独立的 C&RT 模型,以及一个使用该模型预测的值来替换空白值和空值的“填充”节点。用户可以添加、编辑或除去超节点中的特定节点,从而对行为进行进一步定制。
另外,也可以生成“选择”节点或“过滤”节点,以除去具有缺失值的字段或记录。例如,您可以过滤掉质量百分比低于指定阈值的任何字段。

也可以用类似的方法来处理离群值和极值。指定要对每个字段执行的操作(强制、废弃或取消)并生成超节点,以应用各种变换。

完成审核并将生成的节点添加到流中之后,您可以继续进行分析。您可能会选择使用“异常检测”、“特征选择”或其他多种方法来进一步筛选数据。
