自动分类器节点
“自动分类器”节点使用多种不同的方法来估算和比较名义(集合)或二元(是/否)目标的模型,这使您可以在一次建模运行中尝试多种方法。您可以选择所用算法,并试验选项的多个组合。例如,您无需在径向基函数、多项式、sigmoid 或线性方法中选择一种来用于 SVM,您可以全部都尝试一下。该节点将探究每种可能的选项组合,并根据您指定的测量对每个候选模型进行排序,然后保存最佳模型以用于评分或进行进一步分析。有关更多信息,请参阅 自动建模节点。
- 示例
- 某零售公司具有历史数据,可用于追踪以前营销活动中向特定客户提供的商品推荐信息。公司现在希望通过向每个客户提供合适的报价来获取更多的利润。
- 要求
- 一个测量级别为名义或标志(角色设置为目标)的目标字段和至少一个输入字段(角色设置为输入)。对于“标志”字段,假定为目标字段定义的真值表示计算利润、提升和相关统计量时的匹配项。输入字段的测量级别可以是连续或分类,但具有限制,即某些输入可能不适合一些模型类型。例如,在 C&R 树、CHAID 和 QUEST 模型中用作输入的有序字段必须是数字存储类型(而不是字符串),如果指定了其他类型,将被这些模型忽略。类似地,在某些情况下可对连续输入字段进行分级。这和使用单个建模节点时的要求一样;例如,不管是从贝叶斯网络节点还是自动分类器节点生成,贝叶斯网络模型都以同样的方式工作。
- 频率和权重字段
- 频率和权重用于为某些记录提供高于其他记录的附加重要性,原因可能是用户知道构建数据集省略父总体的一部分(加权)或一个记录代表一些相同的观测值(频率)等。如果指定了频率字段,那么 C&R 树、CHAID、QUEST、决策列表和贝叶斯网络模型可以使用此字段。C&RT、CHAID 和 C5.0 模型可以使用权重字段。其他模型类型将省略这些字段并以任意方式构建模型。频率和权重字段仅用于模型构建,并且在评估和评分模型时不予以考虑。有关更多信息,请参阅 使用频率和权重字段。
- 前缀
- 如果您将表节点附加到自动分类器节点块,那么表中存在多个名称以前缀 $ 开头的新变量。
支持的模型类型
支持的模型类型包括神经网络、C&R 树、QUEST、CHAID、C5.0、Logistic 回归、决策列表、贝叶斯网络、判别、最近邻元素、SVM、XGBoost Tree 和 XGBoost-AS。请参阅主题自动分类器节点专家选项,了解更多信息。
连续机器学习
建模的不便之处在于,由于随时间推移对数据的更改,模型会变得过时。这通常称为模型漂移或概念漂移。为了有效地帮助克服模型漂移,SPSS Modeler 提供了连续的自动化机器学习。此功能可用于“自动分类器”节点和“自动数值”节点模型块。有关更多信息,请参阅连续机器学习。