处理缺失值
您应根据自己所从事的业务或经营领域常识来确定如何处理缺失值。为了减少培训时间和提高精确度,可能需要移除数据集中的空白值。从另一方面讲,空白值的出现还可能会带来新的业务机会或其它灵感。选择最佳方法时,应考虑数据的以下几个方面:
- 数据集的大小
- 包含空白值的字段数
- 缺失信息量
通常有两种方法可供选择:
- 可以排除带有缺失值的字段或记录
- 可以使用各种方法归因、替换或强制缺失值
使用数据审核节点可以在很大程度上实现上述两种方法的自动化。例如,可以生成过滤节点(该节点将具有过多缺失值的字段排除,不在建模中使用),并生成为任何或所有保留字段归因缺失值的超节点。审核的真正强大功能就在此时得以体现,您不仅可以评估数据的当前状态,还可以基于评估结果执行操作。