什么是上采样？

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

什么是上采样？

上采样增加了数据集中数据样本的数量。这样做的目的是纠正不平衡数据，从而提高模型性能。

上采样（又称过采样）是一种数据处理和优化技术，通过添加数据来解决数据集中的类不平衡问题。通过使用少数类的原始样本来添加数据，直到所有类别的数据量相等。Python scikit-learn 和 Matlab 都包含实现上采样技术的内置函数。

数据科学中的上采样常常被误认为是数字信号处理（DSP）中的上采样。两者在精神上相似，但又截然不同。与数据科学中的上采样类似，DSP 的上采样也是通过内插更高的采样率，人为地从输入信号（特别是离散时间信号）的频域中创建更多的采样。这些新样本是通过在原始信号中插入零，并使用低通滤波器进行插值产生的。这与数据平衡中的数据上采样方式不同。

用于数据平衡的上采样也有别于图像处理中的上采样。在后者中，高分辨率图像首先要降低分辨率（去除像素）以加快计算速度，然后卷积将图像恢复到原始尺寸（添加回像素）。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

为什么要使用上采样？

上采样是解决数据集失衡问题的有效方法。不平衡数据集的定义是，相对于真实人口而言，某一类别在数据集中的代表性严重不足，从而造成意外偏差。例如，假设一个模型经过训练，可以将图像分类为显示猫或狗的图像。所使用的数据集由 90% 的猫和 10% 的狗组成。在这种情况下，猫的比例过高，如果我们让分类器每次都预测猫，那么它对猫的分类准确率将达到 90%，而对狗的分类准确率则为 0%。在这种情况下，不平衡的数据集将导致分类器偏向于提高多数类别的准确性，而牺牲少数类的准确性。多类数据集也会出现同样的问题。¹

上采样过程可以解决数据集不平衡的问题。它将根据原始数据集少数类特征合成的点填充到数据集中。这种方法通过有效增加代表性不足的少数类的样本数量来平衡数据集，直到数据集中所有类别的点数比例相等。

虽然只需绘制每个类别中数据点的计数图就能看到不平衡现象，但这并不能说明它是否会对模型产生重大影响。幸运的是，我们可以利用性能指标来衡量上采样技术纠正类不平衡的效果。这些指标大多用于二元分类，即只有两个类别：正类和负类。通常，正类是少数类，而负类是多数类。两种常用的指标是接收者工作特征曲线 (ROC) 和精确度 - 召回曲线。¹

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

上采样的优缺点

优势

无信息损失：下采样会从多数类中移除数据点，而上采样则不同，它会生成新的数据点，从而避免任何信息损失。
以低成本增加数据：在只能通过观察获取数据的情况下，扩大取样范围尤其有效，而且往往是按需扩大数据集规模的唯一方法。例如，某些病症过于罕见，无法收集更多数据。

缺点

过度拟合：由于上采样是在现有少数类数据的基础上创建新数据，分类器可能会对数据进行过度拟合。上采样假设现有数据能充分反映现实情况；如果情况并非如此，则分类器可能就无法很好地进行概括。
数据噪声：上采样会增加数据中的噪声量，从而降低分类器的可靠性和性能。²
计算复杂性：通过增加数据量，训练分类器的计算成本会更高，这可能是使用云计算时的一个问题。²

上采样技术

随机过采样

随机超采样是在少数类中随机复制数据点，直到少数类的规模与多数类的规模相等。

虽然两者性质相似，但随机过采样与自助法不同。自助法是一种集成学习技术，可以从所有类中重新采样。相比之下，随机过采样只从少数类中重新取样。因此，随机过采样可以被理解为一种更专业的自助法。

随机过采样虽然简单，但也有其局限性。由于随机过采样只会添加重复的数据点，因此可能会导致过拟合。³但与其他方法相比，它仍有许多优点：易于实现、无需对数据进行扩展性假设，以及由于算法简单而耗时少。²

SMOTE

合成少数过采样技术 (SMOTE) 是一种上采样技术，于 2002 年首次提出，它从少数类中的现有点合成新的数据点。⁴它包括以下过程：²

找出所有少数类数据点的 K 个最近邻点。K 通常为 5。
对每个少数类数据点重复第 3-5 步：
从数据点的 K 个最近邻点中选取一个。
在功能空间中连接这两个点的线段上随机选取一个点，生成新的输出样本。这一过程被称为插值。
根据所需的上采样率，使用不同的最近邻点重复第 3 和 4 步。

SMOTE 通过向数据集添加之前未见过的新数据，而不是简单地复制原有数据，解决了随机过采样中的过拟合问题。因此，一些研究人员认为 SMOTE 是一种比随机过采样更好的上采样技术。

另一方面，SMOTE 人工生成数据点的做法给数据集增加了额外的噪声，有可能使分类器更加不稳定。¹SMOTE 中的合成点和噪声也可能无意中导致少数类和多数类之间不反映现实的重叠，从而导致所谓的过度概括。⁵

Borderline SMOTE

一种流行的扩展名为 Borderline SMOTE，用于解决人为数据集噪声问题，并创建“较难”的数据点。“较难”的数据点是接近决策边界的数据点，因此较难分类。这些较难的点更有助于模型学习。²

Borderline SMOTE 可识别出与许多多数类点相近的少数类点，并将其归入“DANGER”集。DANGER 点是“难以”学习的数据点，这也是因为与被少数类点包围的点相比，DANGER 点更难分类。这一选择过程排除了最近邻仅为多数类点的点，这些点被算作噪声。在此基础上，SMOTE 算法将继续正常使用该 DANGER 集。³

ADASYN

自适应合成采样法 (ADASYN) 与 Borderline SMOTE 相似，都是生成更难学习的数据供模型学习。但其目的也是为了保留少数类数据的分布。⁶为此，它首先根据邻域中多数类示例的数量，创建所有少数点的加权分布。这样，在生成新数据时，它就会更频繁地使用更接近多数类的少数类点。

过程如下：²

在整个数据集上创建 KNN 模型。
每个少数类点都有一个“硬度因子”，用 r 表示，即 KNN 中多数类点的数量与最邻近点总数之比。
与 SMOTE 一样，合成生成的点也是少数数据与其最邻近数据之间的线性插值，但生成的点数会随点的硬度因子而变化。这样做的目的是在少数类数据较少的区域生成更多的点，而在少数类数据较多的区域生成较少的点。

数据转换/增强

数据增强通过创建数据的变体来创建新数据。数据增强适用于各种机器学习领域。

数据增强的最基本形式是对数据集的原始输入进行转换。例如，在计算机视觉中，图像增强（裁剪、模糊、镜像等）可用于创建更多图像供模型分类。同样，数据增强也可用于自然语言处理任务，如用同义词替换单词或创建语义等效的句子。

研究人员发现，数据增强能有效提高计算机视觉和 NLP 任务的模型准确性，因为它能以低成本增加类似数据。但是，在使用这些技术之前，必须注意一些注意事项。对于传统的几何增强技术，在进行转换之前应考虑转换的“安全性”。例如，旋转“9”的图像会使其看起来像“6”，从而改变其语义。⁷

资源

提升您的机器学习专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的机器学习技能。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

机器学习解析

IBM 的 Techsplainers 系列从核心概念到实际用例，为您解析机器学习的关键要点。清晰简短的节目助您快速掌握基础。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可扩展您的 AI 应用。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

脚注

¹ Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 （ibm.com 外部链接）。(1,2,10)

² Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 （ibm.com 外部链接）。(3,4,6,8,9,12,14-17)

³ Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023, https://www.packtpub.com/product/machine-learning-for-imbalanced-data/9781801070836 （ibm.com 外部链接）。Alberto Fernandez, et al., Learning from Imbalanced Data Sets, 2018.

⁴ Nitesh Chawla, et al., SMOTE: Synthetic Minority Over-sampling Technique, JAIR, 01 June 2002, https://www.jair.org/index.php/jair/article/view/10302 （ibm.com 外部链接）。

⁵ Kumar Abishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023. Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 （ibm.com 外部链接）。

⁶ Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

⁷ Connor Shorten and Taghi Khoshgoftaar, A survey on Image Data Augmentation for Deep Learning, Springer, 06 July 2019**,** https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 （ibm.com 外部链接）。

⁸ Zhen Wei, Li Zhang, and Lei Zhao, Minority prediction probability based oversampling technique for imbalanced learning, Science Direct, 06 December 2022, https://www.sciencedirect.com/science/article/abs/pii/S0020025522014578?casa_token=TVVIEM3xTDEAAAAA:LbzQSgIvuYDWbDTBKWb4ON-CUiTUg0EUeoQf9q12IjLgXFk0NQagfh0bU3DMUSyHL_mjd_V890o （ibm.com 外部链接）。

⁹ Zeyu Teng, et al., Multi-label borderline oversampling technique, ScienceDirect, 14 September 2023, https://www.sciencedirect.com/science/article/abs/pii/S0031320323006519?casa_token=NO8dLh60_vAAAAAA:AWPCvCP8PQG43DvkQFChZF2-3uzB1GJBBtgPURevWe_-aR0-WTbLqOSAsiwxulNAuh_4mIDZx-Y （ibm.com 外部链接）。

¹⁰ Justin Engelmann and Stefan Lessmann, Conditional Wasserstein GAN-based oversampling of tabular data for imbalanced learning, 15 July 2021, ScienceDirect, https://www.sciencedirect.com/science/article/abs/pii/S0957417421000233?casa_token=O0d1BtspA8YAAAAA:n2Uv3v2yHvjl9APVU9V_13rQ9K_KwT0P__nzd6hIngNcZJE-fmQufDgR6XT1uMmDBHx8bLXPVho （ibm.com 外部链接）。Shuai Yang, et al., Fault diagnosis of wind turbines with generative adversarial network-based oversampling method, IOP Science, 12 January 2023, https://iopscience.iop.org/article/10.1088/1361-6501/acad20/meta （ibm.com 外部链接）。

什么是上采样？

作者

什么是上采样？

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

为什么要使用上采样？

解码 AI：每周新闻摘要

上采样的优缺点

优势

缺点

上采样技术

随机过采样

SMOTE

Borderline SMOTE

ADASYN

数据转换/增强

最近的研究

资源

脚注