生成模型和对模型进行比较

  1. 附加“自动分类器”节点,打开其构建选项属性,并选择总体准确性作为用来对模型进行排名的度量。
  2. 要使用的模型数 设置为 3。 这意味着运行节点时将构建三个最佳模型。
    图 1。 “自动分类器”节点,构建选项
    “自动分类器”节点,构建选项

    专家选项下,有许多不同的建模算法可供您选择。

  3. 取消选择判别SVM 模型类型。 (这些模型需要较长时间来训练此数据,因此取消选择这些模型将加快该示例的速度。 如果您不介意稍等一下,也可以选择这些模型。)

    由于您在构建选项下将要使用的模型数设置为 3,因此节点将计算其余算法的准确性,并生成单个包含三种最准确算法的模型块。

    图 2。 “自动分类器”节点,“专家”选项
    “自动分类器”节点,“专家”选项
  4. 整体选项下,为整体方法选择置信度加权投票。 此选项确定如何为每条记录生成一个汇总评分。

    通过简单投票,如果三个模型中有两个模型预测 yes,那么 yes 将以 2 到 1 的投票方式获胜。 对于置信度加权投票,将根据每个预测的置信度值对投票进行加权。 因此,如果一个预测 的模型的置信度比两个预测 的模型合在一起的置信度还高,则 取胜。

    图 3。 “自动分类器”节点,“整体”选项
    “自动分类器”节点,“整体”选项
  5. 运行流程。 几分钟之后,会构建所生成的模型块,并将其放置在画布上,结果会添加到“输出”面板中。 可以查看该模型块,也可以采用其他许多方式保存或部署该模型块。
  6. 右键单击模型金块并选择 View Model. 您将看到有关运行期间创建的每个模型的详细信息。 (实际情况下,可能要对大型数据集创建数百个模型,这可能要耗用数小时。)

    如果您想要进一步探查任何个别模型,可以单击它们在估计器列中的链接,以向下钻取和浏览各个模型结果。

    图 4: 自动分类器结果
    自动分类器结果

    缺省情况下,根据整体准确性对模型进行排序,因为这是您在“自动分类器”节点属性中选择的度量。 XGBoost Tree 模型按此度量进行排名最佳,但是 C5.0 和 C&RT 模型几乎一样准确。

    基于这些结果,您可以决定使用所有这三个最准确的模型。 通过结合多个模型的预测,可以避免单个模型的局限性,从而使整体准确性更高。

  7. 使用列中,选择三个模型。 返回到该流程。
  8. 在模型块后面附加分析输出节点。 右键单击分析节点,选择 运行 再次运行流程。
    图 5。 “自动分类器”示例流程
    “自动分类器”示例流程

    由整体模型生成的汇总评分将显示在名为 $XF-response 的字段中。 当对照训练数据进行测量时,预测值与实际响应(记录在原始 response 字段中)进行匹配,总体准确性为 92.77%。 在这种情况下,虽然没有三个模型中的最佳模型的准确性那么高(C5.0 模型的准确性高达 92.82%),但是它们之间的差异太小,可以忽略不计。 一般来说,将整体模型应用于除训练数据之外的数据集时,通常更有可能效果较好。

    图 6。 对三个整体模型的分析
    对三个整体模型的分析