筛选预测变量
“特征选择”节点可帮助您识别预测某个结果时最重要的字段。 在包含成百乃至上千个预测变量的集合中,“特征选择”节点可以执行筛选和排序,并选出可能最重要的预测变量。 最终,您可能会使用更快、更高效的模型,此模型的预测变量更少、运行速度更快,并且可能更容易理解。
本示例中使用的数据由某虚构电话公司的数据仓库提供,且包含有关该公司的 5000 名客户对特定促销活动的响应的信息。 数据包含许多字段,其中包括客户年龄、职业、收入和电话使用情况统计信息。 三个“目标”字段显示客户是否对这三个报价做出了响应。 该公司希望使用这些数据来帮助预测哪些客户最可能在将来对类似报价做出响应。
此示例使用在 您先前导入的示例项目中提供的名为 筛选预测变量的流。 数据文件为 customer_dbase.csv。
本示例仅主要讲述其中一种促销活动,并将其作为目标。 本示例使用 CHAID 树构建节点来开发模型,以描述最有可能对促销活动做出响应的客户。 其中对以下两种方法作了对比:
- 不使用特征选择。 数据集中的所有预测变量字段均可用作 CHAID 树的输入。
- 使用特征选择。 "特征选择" 节点用于选择最佳的 10 个预测变量。 然后将其输入到 CHAID 树中。
通过比较两个生成的树模型,我们可以看到特征选择如何产生有效的结果。