Predictive Column 过程的基本语法和参数
PredictColumn 过程的基本调用包含必需参数。 它会创建视图。
基本语法
IDMMX.PredictColumn(predView,
inputTable,
targetColumn)
除了基本语法外,您还可以选择指定可选参数。
参数
要预测未来行为,必须为 PredictColumn 过程指定以下参数:
- ViewName
- 要构建的视图的名称。PredictColumn 过程创建视图和模型。 根据用于构建模型的挖掘函数,模型将以与生成的视图相同的名称存储在下列其中一个表中:
IDMMX.ClassifModels(如果目标列是分类列)IDMMX.RegressionModels(如果目标列是数字)
此参数的类型为 VARCHAR。 其大小为 240。
- 输入表
- 输入表或输入视图的名称。
Easy Mining 过程将忽略不太可能对创建模型有用的输入表列。 例如,这些是键列。
此参数的类型为 VARCHAR。 其大小为 257。
- 目标列
- 目标列的名称。
PredictColumn 过程从输入表中其他列的值派生此列中的值。 如果目标列是分类列,那么将使用分类挖掘函数。 如果目标列是数字,那么将使用回归挖掘函数。
此参数的类型为 VARCHAR。 其大小为 128。
有关分类字段和数字字段的有效 SQL 类型的信息,请参阅 挖掘字段类型。
数据流
图 1 显示了 PredictColumn 过程的数据流。 通过将 PredictColumn 过程应用于具有指定目标列的输入表,将生成 模型 和 视图 。 该视图包含输入表的列以及 图 1。 "预测列" 过程的数据流
PREDICTION 和 CONFIDENCE列。
输出
基于这些参数, PredictColumn 过程将创建视图。 此视图包含输入表的列以及以下附加列:
- 预测
- 此列包含目标列的预测值。 这些值派生自输入表的值。
- CONFIDENCE
- 此列包含预测的置信度值。如果目标列是分类列,那么置信度值的范围可以是 0 到 1。
- 接近 0 的值表示预测正确的概率较低。
- 接近 1 的值表示预测正确的概率很高。
如果目标列是数字,那么此列仅包含空值。
借助预测置信度,您可以选择最可靠的预测。
要详细分析预测模型,可以在 Design Studio 中使用可视化器。
预测列过程的数据流
PredictColumn 过程拆分以下不相关数据集中的输入数据:
- 训练数据集
- 训练数据集用于计算预测模型。
- 验证数据集
- 预测模型的质量基于验证数据集的记录。
模型质量指示模型对未知数据的执行情况。 通常,模型质量在训练数据上比在验证数据上更好,因为模型可能会根据训练数据集的记录进行调整。
在极端情况下,就像你用心学习了训练数据集的所有记录一样。 这意味着您将具有训练数据集的最佳模型质量,因为对于训练数据集的所有记录,预测都是正确的。 另一方面,除非验证数据集的记录具有与训练数据集中的记录相同的值,否则您将不知道要对该数据集的记录进行预测。 因此,对于计算模型的质量,最好使用训练阶段未使用的数据记录。