下采样减少了数据集中数据样本的数量。这样做的目的是纠正不平衡数据,从而提高模型性能。
下采样是一种常见的数据处理技术,通过从多数类中删除数据,使其与少数类的大小相匹配,从而解决数据集中的不平衡问题。与此相对的是上采样,它涉及对少数类数据点进行重新采样。Python 的 scikit-learn 和 Matlab 都包含用于实现下采样技术的内置函数。
数据科学中的下采样常被误认为是数字信号处理 (DSP) 中的下采样。两者在本质上是相似。数字信号处理中的下采样(也称作数据抽取)是指通过降低采样器的带宽和采样率,从原始信号中去除部分数据的过程。降低采样频率的过程通常是将采样率降低某个整数因数,仅保留每第 n 个样本。这是通过使用低通滤波器(也称为抗混叠滤波器)实现的,以按前述整数因数降低离散时间信号的高频/噪声分量。
用于数据平衡的下采样也常与图像处理的下采样相混淆。当数据包含大量特征时,例如高分辨率 MRI 图像,计算可能会变得昂贵。因此,图像处理中的下采样通过卷积降低每个数据点的维数。这与平衡数据集不同:它是一种优化技术,后续需要通过插值来恢复原始数据。
下采样是解决数据集失衡问题的有效方法。不平衡数据集的定义是,相对于真实人口而言,某一类别在数据集中的代表性严重不足,从而造成意外偏差。例如,假设一个模型经过训练,可以将图像分类为显示猫或狗的图像。所使用的数据集由 90% 的猫和 10% 的狗组成。在这种情况下,猫的比例过高,如果我们让分类器每次都预测猫,那么它对猫的分类准确率将达到 90%,而对狗的分类准确率则为 0%。在这种情况下,不平衡的数据集将导致分类器偏向于提高多数类别的准确性,而牺牲少数类的准确性。多类数据集也会出现同样的问题。1
下采样过程旨在解决数据集不平衡的问题。它根据指定的标准识别要删除的多数类数据点。这些标准可能会随着所选的下采样技术而有所不同。通过有效减少过度代表的多数类的样本数量来平衡数据集,直到数据集中所有类别的点数比例相等。
虽然只需绘制每个类别中数据点的计数图就能看到不平衡现象,但这并不能说明它是否会对模型产生重大影响。幸运的是,我们可以使用性能指标来衡量下采样技术在纠正类别不平衡方面的效果。这些指标大多用于二元分类,即只有两个类别:正类和负类。通常,正类是少数类,而负类是多数类。两种常用的指标是接收者工作特征曲线 (ROC) 和精确度 - 召回曲线。1
随机下采样是一种删除技术,其中从多数类中随机选择数据点(但不替换),然后从数据集中删除,直到多数类的大小与少数类大小相等。这是一种随机删除数据子集以达到平衡的简便方法。然而,这种技术可能会导致多数类中的重要模式或分布消失,从而对分类器性能产生负面影响。2
未遂事件下采样是一种旨在通过随机消除某些多数类示例来平衡类分布的技术。
从概念上讲,Near Miss 的运作原则是数据应保存在多数类和少数类非常接近的地方,因为这些地方为我们提供了区分这两个类的关键信息。3这些点通常被称为“难”学习数据点。近距离下采样通常分两个步骤进行:
未遂事件算法有三种变体,它们为选择要删除的多数类实例提供了一种更明确的方法。
缩减最近邻(简称 CNN,不要与卷积神经网络混淆)旨在找到可用于训练而不会降低模型性能的数据集子集。这是通过识别可用于训练模型的数据子集来实现,该模型可以准确预测整个数据集。
CNN 下采样可以分为以下步骤:5
与未遂事件类似,此过程实质上删除了远离决策边界的所有多数类实例,这些实例同样是易于分类的点。它还确保可以使用 S 中的数据来正确预测原始数据集中的每个数据。这样,就可以很好地保留决策边界的同时显着缩减数据集。
此图显示了一个示例,分别使用 1 个最近邻和 21 个最近邻对两个数据集应用压缩最近邻。上面两张图是应用压缩最近邻之前的结果,而下面两张图是应用压缩最近邻之前的结果。可以看出,决策边界得到了相当好的保留。
Tomek Link 下采样的前提是通过移除决策边界附近的点来减少数据中的噪声,并增加类分离。它的工作原理是识别“tomek 链接”- 由来自不同类的两个点组成,而这两点之间没有第三个点同时与这两个点最接近。2
对于所有 tomek 链接,多数类中的点将被删除。通过删除接近少数类点的多数类点,可增加类分离。这种方法的一个缺点是计算多数类和少数类点之间的所有成对距离的计算复杂性较高。2Tomek Link 下采样与其他技术相结合使用时效果最佳。
编辑最近邻 (ENN) 下采样类似于 Tomek Link 下采样,旨在删除靠近决策边界的示例,以增加类分离。一般来说,此方法会删除那些类上与其大多数相邻数据点不同的数据点。2这意味着该过程会删除那些大多数最近邻属于少数类的多数类数据点,反之亦然。这种情况下的大多数可以自由定义:它可表示至少有一个邻居属于不同的类别,或者不同类别的邻居的比例超过某个阈值。
ENN 下采样通常使用 3 个最近邻完成,如下图所示。
这是一种更粗粒度的策略,因为它着眼于点的一般邻域而非单个邻域,但它是一种消除数据中噪声的有效方法。ENN 下采样与其他技术相结合时最为有效。
目前,下采样技术的发展主要围绕深度学习集成。该技术已用于图像处理和医疗数据等领域,这些领域涉及使用神经网络对数据进行下采样。6其中一个示例是 SOM-US,它使用一个双层神经网络。7近年来,主动学习也被应用于下采样,旨在尝试减轻数据不平衡的影响。8实验表明,这些模型的性能明显优于传统技术。
当前对下采样的研究也围绕着将其与其他技术相结合以创建混合技术。一种组合方式是对数据进行下采样和上采样,以获得二者的优势:包括 SMOTE+Tomek Link、Agglomerative Hierarchical Clustering (AHC) 和 SPIDER。9算法级技术还可以结合传统下采样技术,例如在难的示例挖掘中,训练只关注“更难”的数据点。2所有技术都表明,混合技术的性能优于比单独使用每种技术。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (ibm.com 外部链接).
2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023
3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (ibm.com 外部链接).
4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (ibm.com 外部链接).
5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (ibm.com 外部链接)。Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.
6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (ibm.com 外部链接).
7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 (ibm.com 外部链接)。
8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (ibm.com 外部链接)。
9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.