什么是下采样?

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

什么是下采样?

下采样减少了数据集中数据样本的数量。这样做的目的是纠正不平衡数据,从而提高模型性能。

下采样是一种常见的数据处理技术,通过从多数类中删除数据,使其与少数类的大小相匹配,从而解决数据集中的不平衡问题。与此相对的是上采样,它涉及对少数类数据点进行重新采样。Python 的 scikit-learn 和 Matlab 都包含用于实现下采样技术的内置函数。

数据科学中的下采样常被误认为是数字信号处理 (DSP) 中的下采样。两者在本质上是相似。数字信号处理中的下采样(也称作数据抽取)是指通过降低采样器的带宽和采样率,从原始信号中去除部分数据的过程。降低采样频率的过程通常是将采样率降低某个整数因数,仅保留每第 n 个样本。这是通过使用低通滤波器(也称为抗混叠滤波器)实现的,以按前述整数因数降低离散时间信号的高频/噪声分量。

用于数据平衡的下采样也常与图像处理的下采样相混淆。当数据包含大量特征时,例如高分辨率 MRI 图像,计算可能会变得昂贵。因此,图像处理中的下采样通过卷积降低每个数据点的维数。这与平衡数据集不同:它是一种优化技术,后续需要通过插值来恢复原始数据。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

为什么使用下采样?

下采样是解决数据集失衡问题的有效方法。不平衡数据集的定义是,相对于真实人口而言,某一类别在数据集中的代表性严重不足,从而造成意外偏差。例如,假设一个模型经过训练,可以将图像分类为显示猫或狗的图像。所使用的数据集由 90% 的猫和 10% 的狗组成。在这种情况下,猫的比例过高,如果我们让分类器每次都预测猫,那么它对猫的分类准确率将达到 90%,而对狗的分类准确率则为 0%。在这种情况下,不平衡的数据集将导致分类器偏向于提高多数类别的准确性,而牺牲少数类的准确性。多类数据集也会出现同样的问题。1

下采样过程旨在解决数据集不平衡的问题。它根据指定的标准识别要删除的多数类数据点。这些标准可能会随着所选的下采样技术而有所不同。通过有效减少过度代表的多数类的样本数量来平衡数据集,直到数据集中所有类别的点数比例相等。

虽然只需绘制每个类别中数据点的计数图就能看到不平衡现象,但这并不能说明它是否会对模型产生重大影响。幸运的是,我们可以使用性能指标来衡量下采样技术在纠正类别不平衡方面的效果。这些指标大多用于二元分类,即只有两个类别:正类和负类。通常,正类是少数类,而负类是多数类。两种常用的指标是接收者工作特征曲线 (ROC) 和精确度 - 召回曲线。1

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

下采样的优缺点

优势

  • 更少的存储要求:当存储需要花钱时,例如云存储,下采样比上采样更受青睐,以避免增加成本。2
  • 更快的训练速度:下采样可缩小数据集,降低 CPU 或 GPU 的训练强度,更加经济环保。
  • 不易过度拟合:上采样会根据旧数据生成新数据,这可能会导致模型与给定数据过度拟合。下采样则相反(删除数据),不会遇到此问题。2

缺点

  • 信息丢失:从多数类中删除数据点可能会导致重要信息丢失。如果要保证多数类分类的准确性,这可能会成为一个问题。另外,如果数据集太小,模型可能无法进行有效训练。2
  • 引入偏差:剩余的多数类样本点可能是原始数据的偏差集,这会对分类器的性能产生负面影响。

下采样技术

随机下采样

随机下采样是一种删除技术,其中从多数类中随机选择数据点(但不替换),然后从数据集中删除,直到多数类的大小与少数类大小相等。这是一种随机删除数据子集以达到平衡的简便方法。然而,这种技术可能会导致多数类中的重要模式或分布消失,从而对分类器性能产生负面影响。2

未遂事件下采样

未遂事件下采样是一种旨在通过随机消除某些多数类示例来平衡类分布的技术。

从概念上讲,Near Miss 的运作原则是数据应保存在多数类和少数类非常接近的地方,因为这些地方为我们提供了区分这两个类的关键信息。3这些点通常被称为“难”学习数据点。近距离下采样通常分两个步骤进行:

  • 步骤 1:计算所有多数和少数类实例之间的配对距离。
  • 步骤 2:根据计算的距离,删除距离少数点更远的多数类实例。

未遂事件算法有三种变体,它们为选择要删除的多数类实例提供了一种更明确的方法。

  • 版本 1:此版本保留与其 N 个最接近少数类实例的平均距离最小的多数类实例。生成的数据可能分布不均匀,一些多数类点接近许多少数类点,而另一些则接近很少的少数类点,从而导致低精度和召回率。4
下采样示意图 - 未遂事件 1
  • 版本 2:此版本的未遂事件下采样保留与其 N 个最远少数类实例的平均距离最小的多数类实例。与第一个版本不同,这个版本使多数类的分布更加均匀,以从分类器中产生更好的结果。4
下采样示意图 - 未遂事件 2
  • 版本 3:该版本为最接近多数类的少数类实例保留最接近的多数类样本。它分两步进行。首先,保留每个少数类实例的 M 个最近的多数类邻域。然后,从其余的多数类实例中,识别并保留具有平均距离最大的实例。由于此版本保留了与许多少数类实例接近的多数类实例,因此它可以具有高精度,但召回率较低。4
下采样示意图 - 未遂事件 3

缩减最近邻规则下采样

缩减最近邻(简称 CNN,不要卷积神经网络混淆)旨在找到可用于训练而不会降低模型性能的数据集子集。这是通过识别可用于训练模型的数据子集来实现,该模型可以准确预测整个数据集。

CNN 下采样可以分为以下步骤:5

  1. 创建一个新的数据集 S,其中包含少数类的所有实例和一个随机采样的多数类实例。
  2. 在新数据集 S 上训练 1-NN 分类器。
  3. 对于在 S 中的所有多数类数据点,使用 1-NN 分类器预测其标签。如果 1-NN 分类器正确预测了标签,则丢弃该点。否则,将其添加到 S 中。

与未遂事件类似,此过程实质上删除了远离决策边界的所有多数类实例,这些实例同样是易于分类的点。它还确保可以使用 S 中的数据来正确预测原始数据集中的每个数据。这样,就可以很好地保留决策边界的同时显着缩减数据集。

具有多数类样本、少数类样本和多数类样本与少数类邻点的 3 个图形的图表。

此图显示了一个示例,分别使用 1 个最近邻和 21 个最近邻对两个数据集应用压缩最近邻。上面两张图是应用压缩最近邻之前的结果,而下面两张图是应用压缩最近邻之前的结果。可以看出,决策边界得到了相当好的保留。

Tomek Link

Tomek Link 下采样的前提是通过移除决策边界附近的点来减少数据中的噪声,并增加类分离。它的工作原理是识别“tomek 链接”- 由来自不同类的两个点组成,而这两点之间没有第三个点同时与这两个点最接近。2

对于所有 tomek 链接,多数类中的点将被删除。通过删除接近少数类点的多数类点,可增加类分离。这种方法的一个缺点是计算多数类和少数类点之间的所有成对距离的计算复杂性较高。2Tomek Link 下采样与其他技术相结合使用时效果最佳。

编辑最近邻

编辑最近邻 (ENN) 下采样类似于 Tomek Link 下采样,旨在删除靠近决策边界的示例,以增加类分离。一般来说,此方法会删除那些类上与其大多数相邻数据点不同的数据点。2这意味着该过程会删除那些大多数最近邻属于少数类的多数类数据点,反之亦然。这种情况下的大多数可以自由定义:它可表示至少有一个邻居属于不同的类别,或者不同类别的邻居的比例超过某个阈值。

ENN 下采样通常使用 3 个最近邻完成,如下图所示。

下采样示意图 - 边界保留

这是一种更粗粒度的策略,因为它着眼于点的一般邻域而非单个邻域,但它是一种消除数据中噪声的有效方法。ENN 下采样与其他技术相结合时最为有效。

最近的研究

目前,下采样技术的发展主要围绕深度学习集成。该技术已用于图像处理和医疗数据等领域,这些领域涉及使用神经网络对数据进行下采样。6其中一个示例是 SOM-US,它使用一个双层神经网络。7近年来,主动学习也被应用于下采样,旨在尝试减轻数据不平衡的影响。8实验表明,这些模型的性能明显优于传统技术。

当前对下采样的研究也围绕着将其与其他技术相结合以创建混合技术。一种组合方式是对数据进行下采样和上采样,以获得二者的优势:包括 SMOTE+Tomek Link、Agglomerative Hierarchical Clustering (AHC) 和 SPIDER。9算法级技术还可以结合传统下采样技术,例如在难的示例挖掘中,训练只关注“更难”的数据点。2所有技术都表明,混合技术的性能优于比单独使用每种技术。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1 Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 (ibm.com 外部链接).

2 Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

3 Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (ibm.com 外部链接).

4 Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf (ibm.com 外部链接).

5 More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 (ibm.com 外部链接)。Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

6 Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg (ibm.com 外部链接).

7 Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 (ibm.com 外部链接)。

8 Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 (ibm.com 外部链接)。

9 Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.