准备数据

使用 Oracle Data Mining 算法的朴素贝叶斯、Adaptive Bayes 和支持向量机来建模时，可以使用两种类型的数据准备：

分箱，即，对于无法接受连续数据的算法，将连续数字范围字段转换为类别。
标准化，即应用于数字范围的变换，以使这些数字范围具有类似的平均值和标准差。

离散化

IBM® SPSS® Modeler的 "分箱" 节点提供了许多用于执行分箱操作的方法。定义了可以应用于一个或多个字段的分箱操作。对数据集执行分箱操作将创建阈值，并允许创建 IBM SPSS Modeler "派生" 节点。 “派生”操作可转换为 SQL 并模型构建和评分前被应用。此方法将在模型与执行分箱的“派生”节点之间创建依赖关系，但允许分箱规范由多个建模任务重复使用。

标准化

用作支持矢量机模型的输入的连续（数字范围）字段应该先进行标准化，然后再用于模型构建。对于回归模型，还必须反转标准化，以根据模型输出重新构建评分。 SVM 模型设置用于选择 Z-Score、最值法或无。规范化系数由 Oracle 构造，作为模型构建过程中的步骤，这些系数将上载到 IBM SPSS Modeler 并随模型一起存储。在应用时，系数将转换为 IBM SPSS Modeler 派生表达式，并用于在将数据传递到模型之前准备数据以进行评分。此情况中，标准化与建模任务紧密关联。