Predictive Column 过程的基本语法和参数

PredictColumn 过程的基本调用包含必需参数。 它会创建视图。

基本语法

IDMMX.PredictColumn(predView,
                    inputTable,
                    targetColumn)

除了基本语法外,您还可以选择指定可选参数。

参数

要预测未来行为,必须为 PredictColumn 过程指定以下参数:
ViewName
要构建的视图的名称。
PredictColumn 过程创建视图和模型。 根据用于构建模型的挖掘函数,模型将以与生成的视图相同的名称存储在下列其中一个表中:
  • IDMMX.ClassifModels (如果目标列是分类列)
  • IDMMX.RegressionModels (如果目标列是数字)
如果已存在同名模型,那么会将先前模型替换为新模型。 如果已存在具有相同名称的视图,那么会将先前视图替换为新视图。

此参数的类型为 VARCHAR。 其大小为 240。

输入表
输入表或输入视图的名称。

Easy Mining 过程将忽略不太可能对创建模型有用的输入表列。 例如,这些是键列。

此参数的类型为 VARCHAR。 其大小为 257。

目标列
目标列的名称。

PredictColumn 过程从输入表中其他列的值派生此列中的值。 如果目标列是分类列,那么将使用分类挖掘函数。 如果目标列是数字,那么将使用回归挖掘函数。

此参数的类型为 VARCHAR。 其大小为 128。

有关分类字段和数字字段的有效 SQL 类型的信息,请参阅 挖掘字段类型

数据流

图 1 显示了 PredictColumn 过程的数据流。 通过将 PredictColumn 过程应用于具有指定目标列的输入表,将生成 模型视图 。 该视图包含输入表的列以及 PREDICTIONCONFIDENCE列。
图 1。 "预测列" 过程的数据流
此图显示了 PredictColumn 过程的数据流。 此过程使用输入表来生成模型和输出视图。

输出

基于这些参数, PredictColumn 过程将创建视图。 此视图包含输入表的列以及以下附加列:
预测
此列包含目标列的预测值。 这些值派生自输入表的值。
CONFIDENCE
此列包含预测的置信度值。
如果目标列是分类列,那么置信度值的范围可以是 0 到 1。
  • 接近 0 的值表示预测正确的概率较低。
  • 接近 1 的值表示预测正确的概率很高。

如果目标列是数字,那么此列仅包含空值。

借助预测置信度,您可以选择最可靠的预测。

要详细分析预测模型,可以在 Design Studio 中使用可视化器。

预测列过程的数据流

PredictColumn 过程拆分以下不相关数据集中的输入数据:
训练数据集
训练数据集用于计算预测模型。
验证数据集
预测模型的质量基于验证数据集的记录。

模型质量指示模型对未知数据的执行情况。 通常,模型质量在训练数据上比在验证数据上更好,因为模型可能会根据训练数据集的记录进行调整。

在极端情况下,就像你用心学习了训练数据集的所有记录一样。 这意味着您将具有训练数据集的最佳模型质量,因为对于训练数据集的所有记录,预测都是正确的。 另一方面,除非验证数据集的记录具有与训练数据集中的记录相同的值,否则您将不知道要对该数据集的记录进行预测。 因此,对于计算模型的质量,最好使用训练阶段未使用的数据记录。