IBM SPSS Data Preparation 是什么?
功能聚焦
“变量”选项卡
“变量数据”对话框用于验证您的数据。“变量”选项卡显示了文件中的变量。首先选择需要的变量,并将它们移动到“分析变量”列表中。
基础检查
您可以指定应用于文件中变量和案例的基础检查。例如,您可以获取相关报告,确定具有很高比例的缺失值或空白案例的变量。
标准规则和定制规则
对标识无效值(超出有效范围或缺失值)的个别变量应用规则。 您还可以创建自己的规则,创建交叉变量规则或应用预定义规则。
建议
自动化数据准备过程可提供建议,支持用户反复斟酌这些建议。
在单个步骤中自动准备数据
手动数据准备过程复杂且耗时。在您亟需结果时,ADP 过程可帮助您以一步有效的方式,检测和纠正质量错误并插补缺失值。ADP 功能提供易于理解的报告,包含全面的建议和可视化效果,帮助您确定可用于分析的合适数据。
数据准备过程的其他选项
通过使用验证数据过程,执行自动数据检查,并帮助消除耗时且繁琐的手动检查。这个过程能帮助您根据每个变量的度量级别(分类或连续),应用规则进行数据检查。 然后,在分析之前,由您自行决定数据有效性,以及除去或更正可疑的个例。
对尺度变量进行分箱或设置尺度变量的分割点
通过最佳分箱流程,您可以更准确使用针对名义属性设计的算法,比如 Naive Bayes 和对数几率模型。 您可以通过最佳分箱对尺度变量进行分级或设置分割点。
从三种最佳分箱类型中进行选择
在模型构建之前,从以下这些最佳分箱类型中选择一种,进行数据预处理:1) 非监督式:创建同等计数的分箱。
2) 监督式: 考虑目标变量,确定分割点。这种方法比非监督方法更准确;但也是一种计算更密集的方法 。
3) 混合方法:将非监督方法和监督方法相结合。 这种方法尤其适用于大量不同值的情况。