自动数值节点
“自动数值”节点使用多种不同方法来估算和比较模型以得出连续数值范围结果,这使您可以在一次建模运行中尝试多种方法。您可以选择所用算法,并试验选项的多个组合。例如,您可以使用神经网络、线性回归、C&RT 和 CHAID 模型预测住房价值,以确定哪种模型的性能最好,并且可以尝试步进、向前和向后回归法的不同组合。节点研究选项的每个可能组合,根据您指定的测量为每个候选模型排序,并保存最佳模型用于评分或将来的分析。请参阅主题自动建模节点,了解更多信息。
- 示例
- 市政当局需要更准确地估计房地产税以及无需检查每个属性就可以按需要调整特定属性的值。通过使用“自动数值”节点,分析师可以生成并对比许多模型,这些模型根据构建类型、近邻、大小和其他已知因子来预测属性值。
- 要求
- 一个目标字段(角色设置为目标)和至少一个输入字段(角色设置为输入)。目标必须为连续(数值范围)字段,如年龄或收入。输入字段可以是连续或分类,但具有限制,即某些输入可能不适合一些模型类型。例如,C&R 树模型能将分类字符串字段作为输入使用,而线性回归模型不能使用这些字段并将在指定这些字段后省略它们。这和使用单独建模节点时的要求相同。例如,不管 CHAID 模型是在 CHAID 节点中还是在自动数值节点中生成,其工作方式都相同。
- 频率和权重字段
- 频率和权重用于为某些记录提供高于其他记录的附加重要性,原因可能是用户知道构建数据集省略父总体的一部分(加权)或一个记录代表一些相同的个案(频率)等。如果指定频率字段,那么 C&R 树和 CHAID 算法可以使用该字段。C&RT、CHAID 回归和 GenLin 算法可以使用权重字段。其他模型类型将省略这些字段并以任意方式构建模型。频率和权重字段仅用于模型构建,并且在评估和评分模型时不予以考虑。请参阅主题使用频率和权重字段,了解更多信息。
- 前缀
- 如果您将表节点附加到自动数字节点块,那么表中存在多个名称以前缀 $ 开头的新变量。
- 评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀。不同的模型类型使用不同的前缀集。
- 例如,前缀 $G、$R、$C 分别用作广义线性模型、CHAID 模型和 C5.0 模型所生成的预测的前缀。$X 通常使用整体生成,而 $XR、$XS 和 $XF 将在目标字段分别为“连续”、“分类”或“标志”字段的情况下用作前缀。
- $..E 前缀用于连续目标的预测置信度;例如,$XRE 用作整体连续预测置信度的前缀。$GE 是广义线性模型的单个预测置信度的前缀。
支持的模型类型
支持的模型类型包括神经网络、C&R 树、CHAID、回归、GenLin、最近相邻元素、SVM、XGBoost Linear、GLE 和 XGBoost-AS。有关更多信息,请参阅自动数值节点专家选项。