“自动数据准备”节点

为分析准备数据是任何项目中最重要的步骤之一,并且历来是最耗时的步骤之一。 自动化数据准备 (ADP) 将为您处理该任务,分析数据并识别修订,筛选出有问题或不大可能有用的字段,得出合适的新属性,并通过智能筛选技术提高性能。 您可以通过完全自动的方式使用算法,这种方式可以允许选择并应用修正;或者也可以通过交互式方式使用算法,这种方式可以在做出更改前对其进行预览,并根据需要进行接受或拒绝。

通过使用 ADP,您可以轻松、快速地准备好用于模型构建的数据,而无需事先具备所涉及的统计概念的知识。 模型将更快速地构建和评分

注:当 ADP 准备字段进行分析时,它将创建包含调整或转换的新字段,而不是替换旧字段的现有值和属性。 旧字段未用于进一步分析;其角色设置为“无”。

示例。 在调查业主保险理赔方面资源有限的保险公司希望构建一种模型来标记可疑的潜在欺诈性理赔。 在构建模型之前,它们将使用自动数据准备来准备用于建模的数据。 由于他们希望能够在应用转换之前复查所建议的转换,因此它们将以交互模式使用自动数据准备。

某汽车集团保持跟踪各类私人汽车的销售情况。 为了能够标识表现良好和表现不佳的车型,他们希望建立汽车销量与汽车特性之间的关系。 它们将使用自动数据准备来准备数据以进行分析,并使用准备“之前”和“之后”的数据来构建模型,以查看结果有何不同。

您的目标是什么? 自动数据准备会推荐数据准备步骤,这些步骤将影响其他算法构建模型的速度,并且会提高这些模型的预测能力。 这可以包括转换、构造和选择特征。 也可以对目标进行转换。 您可以指定数据准备过程应遵循的建模优先级次序。

  • 平衡速度与准确度。 此选项将准备数据,以对模型构建算法处理数据的速度与预测准确性给予同等优先级。
  • 为速度而优化。 此选项将准备数据,以优先考虑模型构建算法处理数据的速度。 当您处理非常大的数据集或者希望快速获得答案时,请选择此选项。
  • 为准确度而优化。 此选项将准备数据,以优先考虑模型构建算法所生成的预测的准确性。
  • 定制分析。 当您想要在“设置”选项卡上手动更改算法时,请选择此选项。 请注意,如果您随后在“设置”选项卡上更改了与其他目标之一不兼容的选项,那么会自动选择此设置。

训练节点

ADP 节点以过程节点实现,其工作方式与类型节点相似。训练 ADP 节点相当于类型节点实例化。 执行分析后,只要上游数据模型不发生更改,就会将指定的变换应用于数据,而无需进一步分析。 与“类型”和“过滤器”节点一样,如果 ADP 节点断开连接,它会记住数据模型和转换,这样当它重新连接时,就不需要重新训练;这使您能够在典型数据子集上训练该节点,然后根据需要复制或部署它,以便在实时数据上多次使用。