贝叶斯网络节点模型选项
模型名称。 用户可根据目标或标识字段自动生成模型名称(未指定此类字段时自动生成模型类型)或指定一个定制名称。
使用分区数据。 如果定义了分区字段,那么此选项可确保仅使用来自培训分区的数据构建模型。
为每个拆分构建模型。 给指定为分割字段的输入字段的每个可能值构建一个单独模型。 请参阅主题 构建分割模型 以获取更多信息。
分区。 通过此字段,您可以指定用于针对模型构建中的训练、检验和验证阶段将数据划分为不同样本的字段。 通过用某个样本生成模型并用另一个样本对模型进行测试,您可以预判出此模型对类似于当前数据的大型数据集的拟合优劣。 如果已使用类型或分区节点定义了多个分区字段,那么必须在每个用于分区的建模节点的“字段”选项卡中选择一个分区字段。 (如果仅有一个分区字段,则将在启用分区后自动引入此字段。) 同时请注意,要在分析时应用选定分区,还必须启用节点的“模型选项”选项卡中的分区功能。 (取消此选项,则可以在不更改字段设置的条件下禁用分区功能。)
拆分。 对于分割模型,选择分割字段或字段。 此操作与在“类型”节点中将字段的角色设置为分割类似。 您仅可将测量级别为标志、名义、有序或连续的字段指定为分割字段。 选为分割字段的字段无法用作目标、输入、分区、频率或权重字段。 请参阅主题 构建分割模型 以获取更多信息。
继续训练现有模型。 如果选择此选项,则在模型块“模型”选项卡上显示的结果,将在每次运行模型时重新生成和更新。 例如,如果已为现有模型添加新的或更新的数据源,则需要执行此操作。
注:此操作只能更新现有网络;它无法添加或者移除节点或连接。 每次重新训练模型时,网络的形状都将保持不变,只会更改条件概率和预测变量重要性。 如果新数据与旧数据大致相似也无妨,因为您所期望的是关注相同的内容;但是,如果您希望检查或更新 重要的内容(针对其重要程度),则需要构建新模型,即构建新网络。
结构类型。 选择构建贝叶斯网络时要使用的结构:
- TAN。 树扩展朴素贝叶斯模型 (TAN) 用于创建简单的贝叶斯网络模型,后者是对标准朴素贝叶斯模型的改进。 这是由于该模型允许每一个预测变量除了依赖于目标变量之外,还依赖于其他预测变量,由此增加分类的准确度。
- 马尔可夫覆盖。 此结构用于选择数据集中的节点的集合,这些节点包含目标变量的父项、其子项以及子项的父项。 马尔可夫覆盖基本可以确定网络中预测目标变量的所需的所有变量。 用户认为这种构建网络的方法更为准确;但是,当处理大型数据集时,由于所包含的变量数较多,所以可能会消耗许多处理时间。 要减少处理工作量,可以使用“专家”选项卡上的特征选择选项,选择与目标变量有重大相关性的变量。
包含特征选择预处理步骤。 选择该框,您可以使用“专家”选项卡上的特征选择选项。
参数学习方法。 贝叶斯网络参数是指给定每个节点的父项值时,该节点具有的条件概率。 有两种可能的选择,您可以用来控制估算节点(此处父项值已知)间条件概率表这一任务。
- 最大似然。 使用大型数据集时,请选中此框。 这是缺省选项。
- 小单元格计数的贝叶斯调整。 对于较小的数据集,存在模型过度拟合的风险以及出现大量零计数的可能性。 选中此选项可通过应用平滑来减少任何零计数以及不可靠的估计结果带来的影响,从而解决这些问题。