筛选预测变量(特征选择)
“特征选择”节点有助于识别预测特定结果时最重要的字段。在包含成百乃至上千个预测变量的集合中,“特征选择”节点可以执行筛选和排序,并选出可能最重要的预测变量。最后,将生成一个速度更快且更高效的模型,此模型使用较少的预测变量、执行速度更快且更易于理解。
本示例中使用的数据表示某个虚构电话公司的数据仓库,并包含该公司 5,000 名客户对特殊促销活动的响应的相关信息。这些数据包含大量的字段,其中包括客户年龄、职业、收入、电话使用情况等统计信息。三个“目标”字段显示客户是否对这三个报价做出了响应。该公司希望使用这些数据来帮助预测哪些客户最可能在将来对类似报价做出响应。
此示例使用名为 featureselection.str 的流,此流引用名为 customer_dbase.sav 的数据文件。这些文件可在任何 IBM® SPSS® Modeler 安装的 Demos 目录中找到。此目录可通过 WindowsIBM SPSS Modeler 程序组进行访问。文件 featureselection.str 位于 streams 目录下。
本示例仅主要讲述其中一种促销活动,并将其作为目标。本示例使用 CHAID 树构建节点来开发模型,以描述最有可能对促销活动做出响应的客户。其中对以下两种方法作了对比:
- 不使用特征选择。数据集中的所有预测变量字段均可用作 CHAID 树的输入。
- 使用特征选择。使用“特征选择”节点来选择前 10 个预测变量。然后将它们输入 CHAID 树中。
通过比较两个生成的树模型,可以看到特征选择如何产生有效的结果。