准备数据
使用 Oracle Data Mining 算法的朴素贝叶斯、Adaptive Bayes 和支持向量机来建模时,可以使用两种类型的数据准备:
- 分箱,即,对于无法接受连续数据的算法,将连续数字范围字段转换为类别。
- 标准化,即应用于数字范围的变换,以使这些数字范围具有类似的平均值和标准差。
离散化
IBM® SPSS® Modeler的 "分箱" 节点提供了许多用于执行分箱操作的方法。 定义了可以应用于一个或多个字段的分箱操作。 对数据集执行分箱操作将创建阈值,并允许创建 IBM SPSS Modeler "派生" 节点。 “派生”操作可转换为 SQL 并模型构建和评分前被应用。 此方法将在模型与执行分箱的“派生”节点之间创建依赖关系,但允许分箱规范由多个建模任务重复使用。
标准化
用作支持矢量机模型的输入的连续(数字范围)字段应该先进行标准化,然后再用于模型构建。 对于回归模型,还必须反转标准化,以根据模型输出重新构建评分。 SVM 模型设置用于选择 Z-Score、最值法 或无。 规范化系数由 Oracle 构造,作为模型构建过程中的步骤,这些系数将上载到 IBM SPSS Modeler 并随模型一起存储。 在应用时,系数将转换为 IBM SPSS Modeler 派生表达式,并用于在将数据传递到模型之前准备数据以进行评分。 此情况中,标准化与建模任务紧密关联。