SMOTE 节点设置
在 SMOTE 节点的设置选项卡上定义下列设置。
目标设置
目标字段。选择目标字段。支持所有“标志”、“名义”、“有序”和“独立”测量类型。如果在“分区”部分中选择了使用分区数据选项,那么将对训练数据进行过采样。
过采样比率
选择自动以自动选择过采样比率,或者选择设置比率(少数对多数)以设置定制比率值。此比率是少数类中的样本数与多数类中的样本数之比。此值必须大于 0 并小于或等于 1。
随机种子
设置随机种子。选择此信息并单击生成可以生成由随机数字生成器使用的种子。
方法
算法种类。选择您要使用的 SMOTE 算法的类型。
样本规则
K 邻居。指定要用于构建合成样本的最近邻居的数量
M 邻居。指定要用于确定是否少数样本处于危险状态的最近邻居的数量。仅当选择了 Borderline1 或 Borderline1 SMOTE 算法类型时,才会使用此选项。
分区
使用分区数据。如果您仅希望对训练数据进行过采样,请选择此选项。
此 SMOTE 节点需要 imbalanced-learn© Python 库。下表显示了 SPSS® Modeler SMOTE 节点对话框中的设置和 Python 算法之间的关系。
| SPSS Modeler 设置 | 脚本名称(属性名称) | Python API 的参数名称 |
|---|---|---|
| 过采样比率(数字输入控制) | sample_ratio_value | ratio |
| 随机种子 | random_seed | random_state |
| K 邻居 | k_neighbours | k |
| M 邻居 | m_neighbours | m |
| 算法种类 | algorithm_kind | kind |