主页
分析
SPSS
SPSS Statistics
Data Preparation
IBM SPSS Data Preparation 采用先进技术来简化数据准备阶段,从而提供更快、更准确的数据分析结果。从自动化数据准备程序中进行选择以快速获取结果,或是选择其他方法来准备更具挑战性的数据集。轻松识别可疑或无效的案例、变量和数据值。查看缺失数据的模式,汇总变量分布,并更准确地使用为名义属性设计的算法。
此模块包含在适用于本地的 SPSS Professional 版本和订阅计划的 Base 版本中。
“验证数据”对话框可用于验证数据。变量选项卡显示文件中的变量。首先,选择所需变量并将其移动到“分析变量”列表。
您可以指定要应用于文件中变量和案例的基本检查。例如,您可以获取用于识别具有高百分比缺失值或空案例的变量的报告。
将规则应用于可识别无效值(超出有效范围的值或缺失值)的单个变量。您还可创建自己的规则、交叉变量规则或应用预定义规则。
自动化数据准备可提供建议,并允许用户深入研究和检查建议。
手动数据准备是一个复杂且耗时的过程。当您需快速生成结果时,ADP 程序可帮助您检测并纠正质量错误,并通过一个高效步骤来填补缺失值。ADP 功能提供易于理解的报告,其中包含全面的建议和可视化效果,从而帮助您确定要在分析中使用的正确数据。
使用验证数据程序来执行自动数据检查并帮助消除耗时、繁琐的手动检查。此程序允许您应用规则以根据每个变量的度量级别(无论是分类还是连续)执行数据检查。然后,在分析之前确定数据有效性并自行删除或更正可疑案例。
SPSS Data Preparation 包括数据验证、自动化数据准备、优化分箱和异常情况识别等功能。
借助优化分箱程序,您可以更准确地使用为名义属性设计的算法,例如朴素贝叶斯和 Logit 模型。通过优化分箱,您可对刻度变量进行分箱或设置分割点。
选择以下某一类型的最佳分箱,以便在模型构建之前预处理数据:
1) 无监督:创建数量相等的分箱。
2) 有监督:考虑目标变量以确定分割点。此方法比无监督方法更准确;但是,它的计算量也更大。
3) 混合方法:将无监督方法和有监督方法相结合。如果有大量不同值,此方法尤其有用。