什么是下采样？

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

什么是下采样？

下采样减少了数据集中数据样本的数量。这样做的目的是纠正不平衡数据，从而提高模型性能。

下采样是一种常见的数据处理技术，通过从多数类中删除数据，使其与少数类的大小相匹配，从而解决数据集中的不平衡问题。与此相对的是上采样，它涉及对少数类数据点进行重新采样。Python 的 scikit-learn 和 Matlab 都包含用于实现下采样技术的内置函数。

数据科学中的下采样常被误认为是数字信号处理 (DSP) 中的下采样。两者在本质上是相似。数字信号处理中的下采样（也称作数据抽取）是指通过降低采样器的带宽和采样率，从原始信号中去除部分数据的过程。降低采样频率的过程通常是将采样率降低某个整数因数，仅保留每第 n 个样本。这是通过使用低通滤波器（也称为抗混叠滤波器）实现的，以按前述整数因数降低离散时间信号的高频/噪声分量。

用于数据平衡的下采样也常与图像处理的下采样相混淆。当数据包含大量特征时，例如高分辨率 MRI 图像，计算可能会变得昂贵。因此，图像处理中的下采样通过卷积降低每个数据点的维数。这与平衡数据集不同：它是一种优化技术，后续需要通过插值来恢复原始数据。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

为什么使用下采样？

下采样是解决数据集失衡问题的有效方法。不平衡数据集的定义是，相对于真实人口而言，某一类别在数据集中的代表性严重不足，从而造成意外偏差。例如，假设一个模型经过训练，可以将图像分类为显示猫或狗的图像。所使用的数据集由 90% 的猫和 10% 的狗组成。在这种情况下，猫的比例过高，如果我们让分类器每次都预测猫，那么它对猫的分类准确率将达到 90%，而对狗的分类准确率则为 0%。在这种情况下，不平衡的数据集将导致分类器偏向于提高多数类别的准确性，而牺牲少数类的准确性。多类数据集也会出现同样的问题。¹

下采样过程旨在解决数据集不平衡的问题。它根据指定的标准识别要删除的多数类数据点。这些标准可能会随着所选的下采样技术而有所不同。通过有效减少过度代表的多数类的样本数量来平衡数据集，直到数据集中所有类别的点数比例相等。

虽然只需绘制每个类别中数据点的计数图就能看到不平衡现象，但这并不能说明它是否会对模型产生重大影响。幸运的是，我们可以使用性能指标来衡量下采样技术在纠正类别不平衡方面的效果。这些指标大多用于二元分类，即只有两个类别：正类和负类。通常，正类是少数类，而负类是多数类。两种常用的指标是接收者工作特征曲线 (ROC) 和精确度 - 召回曲线。¹

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

下采样的优缺点

优势

更少的存储要求：当存储需要花钱时，例如云存储，下采样比上采样更受青睐，以避免增加成本。²
更快的训练速度：下采样可缩小数据集，降低 CPU 或 GPU 的训练强度，更加经济环保。
不易过度拟合：上采样会根据旧数据生成新数据，这可能会导致模型与给定数据过度拟合。下采样则相反（删除数据），不会遇到此问题。²

缺点

信息丢失：从多数类中删除数据点可能会导致重要信息丢失。如果要保证多数类分类的准确性，这可能会成为一个问题。另外，如果数据集太小，模型可能无法进行有效训练。²
引入偏差：剩余的多数类样本点可能是原始数据的偏差集，这会对分类器的性能产生负面影响。

下采样技术

随机下采样

随机下采样是一种删除技术，其中从多数类中随机选择数据点（但不替换），然后从数据集中删除，直到多数类的大小与少数类大小相等。这是一种随机删除数据子集以达到平衡的简便方法。然而，这种技术可能会导致多数类中的重要模式或分布消失，从而对分类器性能产生负面影响。²

未遂事件下采样

未遂事件下采样是一种旨在通过随机消除某些多数类示例来平衡类分布的技术。

从概念上讲，Near Miss 的运作原则是数据应保存在多数类和少数类非常接近的地方，因为这些地方为我们提供了区分这两个类的关键信息。³这些点通常被称为“难”学习数据点。近距离下采样通常分两个步骤进行：

步骤 1：计算所有多数和少数类实例之间的配对距离。
步骤 2：根据计算的距离，删除距离少数点更远的多数类实例。

未遂事件算法有三种变体，它们为选择要删除的多数类实例提供了一种更明确的方法。

版本 1：此版本保留与其 N 个最接近少数类实例的平均距离最小的多数类实例。生成的数据可能分布不均匀，一些多数类点接近许多少数类点，而另一些则接近很少的少数类点，从而导致低精度和召回率。⁴

版本 2：此版本的未遂事件下采样保留与其 N 个最远少数类实例的平均距离最小的多数类实例。与第一个版本不同，这个版本使多数类的分布更加均匀，以从分类器中产生更好的结果。⁴

版本 3：该版本为最接近多数类的少数类实例保留最接近的多数类样本。它分两步进行。首先，保留每个少数类实例的 M 个最近的多数类邻域。然后，从其余的多数类实例中，识别并保留具有平均距离最大的实例。由于此版本保留了与许多少数类实例接近的多数类实例，因此它可以具有高精度，但召回率较低。⁴

缩减最近邻规则下采样

缩减最近邻（简称 CNN，不要与卷积神经网络混淆）旨在找到可用于训练而不会降低模型性能的数据集子集。这是通过识别可用于训练模型的数据子集来实现，该模型可以准确预测整个数据集。

CNN 下采样可以分为以下步骤：⁵

创建一个新的数据集 S，其中包含少数类的所有实例和一个随机采样的多数类实例。
在新数据集 S 上训练 1-NN 分类器。
对于不在 S 中的所有多数类数据点，使用 1-NN 分类器预测其标签。如果 1-NN 分类器正确预测了标签，则丢弃该点。否则，将其添加到 S 中。

与未遂事件类似，此过程实质上删除了远离决策边界的所有多数类实例，这些实例同样是易于分类的点。它还确保可以使用 S 中的数据来正确预测原始数据集中的每个数据。这样，就可以很好地保留决策边界的同时显着缩减数据集。

此图显示了一个示例，分别使用 1 个最近邻和 21 个最近邻对两个数据集应用压缩最近邻。上面两张图是应用压缩最近邻之前的结果，而下面两张图是应用压缩最近邻之前的结果。可以看出，决策边界得到了相当好的保留。

Tomek Link

Tomek Link 下采样的前提是通过移除决策边界附近的点来减少数据中的噪声，并增加类分离。它的工作原理是识别“tomek 链接”- 由来自不同类的两个点组成，而这两点之间没有第三个点同时与这两个点最接近。²

对于所有 tomek 链接，多数类中的点将被删除。通过删除接近少数类点的多数类点，可增加类分离。这种方法的一个缺点是计算多数类和少数类点之间的所有成对距离的计算复杂性较高。²Tomek Link 下采样与其他技术相结合使用时效果最佳。

编辑最近邻

编辑最近邻 (ENN) 下采样类似于 Tomek Link 下采样，旨在删除靠近决策边界的示例，以增加类分离。一般来说，此方法会删除那些类上与其大多数相邻数据点不同的数据点。²这意味着该过程会删除那些大多数最近邻属于少数类的多数类数据点，反之亦然。这种情况下的大多数可以自由定义：它可表示至少有一个邻居属于不同的类别，或者不同类别的邻居的比例超过某个阈值。

ENN 下采样通常使用 3 个最近邻完成，如下图所示。

这是一种更粗粒度的策略，因为它着眼于点的一般邻域而非单个邻域，但它是一种消除数据中噪声的有效方法。ENN 下采样与其他技术相结合时最为有效。

资源

提升您的机器学习专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的机器学习技能。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

AI 实际应用报告

我们对 2,000 家组织进行了调查，旨在了解他们的 AI 计划，以发现哪些方法有效、哪些方法无效，以及如何才能取得领先。

脚注

¹ Haobo He and Edwardo Garcia, Learning from Imbalanced Data, IEEE, September 2009, https://ieeexplore.ieee.org/document/5128907 （ibm.com 外部链接）.

² Kumar Abhishek and Mounir Abdelaziz, Machine Learning for Imbalanced Data, Packt, November 2023

³ Ajinkya More, Survey of resampling techniques for improving classification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 （ibm.com 外部链接）.

⁴ Jianping Zhang and Inderjeet Mani, kNN Approach to Unbalanced Data Distributions: A Case Study involving Information Extraction, 2003, https://www.site.uottawa.ca/~nat/Workshop2003/jzhang.pdf （ibm.com 外部链接）.

⁵ More, Survey of resampling techniques for improving calssification performance in unbalanced datasets, 22 August 2016, https://arxiv.org/pdf/1608.06048 （ibm.com 外部链接）。Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

⁶ Md Adnan Arefeen, Sumaiya Tabassum Nimi, and M. Sohel Rahman, Neural Network-Based Undersampling Techniques, IEEE, 02 September 2020, https://ieeexplore.ieee.org/abstract/document/9184909?casa_token=RnLRvnqyiF8AAAAA:iyxPWT06HX6a9g8X1nhShrllo_ht9ZM1cqHMWjET5wOopeR5dqizBF29cSSmFMRPo9V1D7XBIwg （ibm.com 外部链接）.

⁷ Ajay Kumar, SOM-US: A Novel Under-Sampling Technique for Handling Class Imbalance Problem, hrcak, 30 January 2024, https://hrcak.srce.hr/clanak/454006 （ibm.com 外部链接）。

⁸ Wonjae Lee and Kangwon Seo, Downsampling for Binary Classification with a Highly Imbalanced Dataset Using Active Learning, Science Direct, 26 April 2022, https://www.sciencedirect.com/science/article/pii/S2214579622000089 （ibm.com 外部链接）。

⁹ Alberto Fernandez, et al., Learning from Imbalanced Data Sets, Springer, 2018.

什么是下采样？

作者

什么是下采样？

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

为什么使用下采样？

解码 AI：每周新闻摘要

下采样的优缺点

优势

缺点

下采样技术

随机下采样

未遂事件下采样

缩减最近邻规则下采样

Tomek Link

编辑最近邻

最近的研究

资源

脚注