K-Means 节点模型选项

模型名称。用户可根据目标或标识字段自动生成模型名称(未指定此类字段时自动生成模型类型)或指定一个定制名称。

使用分区数据。如果定义了分区字段,那么此选项可确保仅训练分区的数据用于构建模型。 

指定的聚类数。指定要生成的聚类数。缺省值是 5。

生成距离字段。如果选中此选项,那么模型块将包括一个字段,该字段包含每条记录与所分配到的聚类的中心之间的距离。

聚类标签。为生成的聚类成员资格字段的值指定格式。聚类成员资格可表示为具有指定标签前缀字符串(例如,“聚类 1”“聚类 2”等等),也可以表示为数值

:如果要在模型中包括名义(集合)字段,但在构建模型时遇到内存问题,或者构建模型所需的时间过长,那么可以考虑对大型集合字段进行重新编码以减少值的数量,或者考虑使用包含较少值的其他字段作为该大型集合的代理。例如,如果包含个别产品值的 product_id 字段出现问题,可以考虑将其从模型中删除并改为添加信息不是很详细的 product_category 字段代替。

优化。根据您的具体需求,选择旨在提高模型构建性能的选项。

  • 选择速度可指示算法从不使用磁盘溢出,以便提高性能。
  • 选择内存可指示算法在合适的时候,以牺牲某些速度为代价使用磁盘溢出。缺省情况下,此选项处于选中状态。
    注: 以分布式方式运行时,options.cfg 中指定的管理员选项可能会覆盖此设置。