SMOTE 节点设置

在 SMOTE 节点的设置选项卡上定义下列设置。

目标设置

目标字段。选择目标字段。支持所有“标志”、“名义”、“有序”和“独立”测量类型。如果在“分区”部分中选择了使用分区数据选项,那么将对训练数据进行过采样。

过采样比率

选择自动以自动选择过采样比率,或者选择设置比率(少数对多数)以设置定制比率值。此比率是少数类中的样本数与多数类中的样本数之比。此值必须大于 0 并小于或等于 1

随机种子

设置随机种子。选择此信息并单击生成可以生成由随机数字生成器使用的种子。

方法

算法种类。选择您要使用的 SMOTE 算法的类型。

样本规则

K 邻居。指定要用于构建合成样本的最近邻居的数量

M 邻居。指定要用于确定是否少数样本处于危险状态的最近邻居的数量。仅当选择了 Borderline1Borderline1 SMOTE 算法类型时,才会使用此选项。

分区

使用分区数据。如果您仅希望对训练数据进行过采样,请选择此选项。

此 SMOTE 节点需要 imbalanced-learn© Python 库。下表显示了 SPSS® Modeler SMOTE 节点对话框中的设置和 Python 算法之间的关系。
表 1. 映射到 Python 库参数的节点属性
SPSS Modeler 设置 脚本名称(属性名称) Python API 的参数名称
过采样比率(数字输入控制) sample_ratio_value ratio
随机种子 random_seed random_state
K 邻居 k_neighbours k
M 邻居 m_neighbours m
算法种类 algorithm_kind kind