C5.0 节点
SPSS® Modeler Professional 和 SPSS Modeler Premium 中提供了此功能。
该节点使用 C5.0 算法构建 决策树 或 规则集 。C5.0 模型的工作原理是根据提供最大 信息增益 的字段分割样本。然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去直到无法继续分割子样本。最后,将重新检查最底层分割,并删除或 修剪 对模型值没有显著影响的分割。
注:C5.0 节点只能预测分类目标。分析包含分类(名义或有序)字段的数据时,与 11.0 版以前的 C5.0 版本相比将类别组合在一起的可能性更大。
C5.0 可以生成两种模型。决策树 是对由算法建立的分割的简单描述。每个终端(或“叶”)节点可描述训练数据的特定子集,而训练数据中的每个观测值都完全属于树中的某个终端节点。换句话说,对于在决策树中显示的任何特定数据记录,仅可能有一个预测。
反过来, 规则集 则是尝试对单个记录进行预测的一组规则。规则集源自决策树,并且在某种程度上表示在决策树中建立的经简化或提取的信息版本。通常,规则集可保留完整的决策树中的大部分重要信息,但其使用的模型比较简单。由于规则集的这种工作方式,其属性与决策树的属性不同。最重要的区别是,使用规则集时,可以为任意特定记录应用多个规则,也可以不应用任何规则。如果应用多个规则,则每个规则将根据与此规则关联的置信度获得一个加权“投票”,并通过组合应用到所讨论记录的所有规则的加权投票来确定最终的预测。如果没有规则可应用,则会将缺省预测分配到该记录。
示例。医学研究员已收集一组患有相同疾病的患者的相关数据。在治疗过程中,每位患者均对五种药物中的一种有明显反应。您可以将 C5.0 模型与其他节点结合使用,以帮助找出可能适用于今后患有相同疾病的患者的药物。
需求。要训练 C5.0 模型,必须有一个分类(即名义或有序)目标字段和一个或多个任意类型的输入字段。设置为 双向或 无的字段将忽略。必须对模型中使用的字段的类型完全实例化。还可以指定权重字段。
优势。遇到缺少数据及存在大量输入字段等问题时,C5.0 模型的表现十分稳健。这些模型通常不需要花费很长的训练时间用于估计。此外,C5.0 模型与某些其他模型类型相比似乎更容易理解,因为源自模型的规则解释起来更简明易懂。C5.0 还提供功能强大的 增强 方法来提高分类的准确性。