数据增强是什么？

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

数据增强是什么？

数据增强使用预先存在的数据来创建新的数据样本，从而改进模型优化和泛化性。

从最一般的意义上讲，数据增强是指通过提供缺失数据点来提高数据集的可分析性以便补充所谓“不完整数据集”的方法。¹它在机器学习领域的体现方式为：通过生成预先存在数据的修改后副本，从而增加数据集的大小和多样性。因此，就机器学习而言，增强数据可理解为人工提供可能不存在的现实数据。

数据增强改善了机器学习模型的优化和泛化。换句话说，数据增强可以减少过拟合并提高模型稳健性。²大型、多样化的数据集可以提高模型性能，这是机器学习的公理。然而，出于多种原因（从道德和隐私问题到手动编译必要数据的耗时工作），获取足够的数据可能很困难。数据增强提供了一种增加数据集大小和可变性的有效方法。事实上，研究人员广泛使用数据增强来纠正不平衡的数据集。³

许多深度学习框架（例如 PyTorch、Keras 和 Tensorflow）都提供了用于增强数据（主要是图像数据集）的功能。Python 包 Ablumentations （可在 Github 上获取）也被许多开源项目采用。Albumentations 允许增强图像和文本数据。

增强数据与合成数据

请注意，数据增强有别于合成数据。诚然，两者都是生成算法，它们将新数据添加到数据集合中，以提高机器学习模型的性能。然而，合成数据是指自动生成完全人工的数据。例如，使用计算机生成的图像（而不是真实世界的数据）来训练物体检测模型。相比之下，数据增强会复制现有数据并转换这些副本，以增加给定集中数据的多样性和数量。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

数据增强技术

数据增强方法多种多样。用于增强数据的具体技术取决于用户当前所用数据的性质。请注意，数据增强通常会在训练数据集的预处理期间实现。某些研究调查了增强对验证集或测试集的影响，但训练集之外的增强应用较为罕见。⁴

图像增强

数据增强已广泛用于一系列计算机视觉任务的研究中，从图像分类到物体检测。因此，有大量关于增强图像如何改善最先进的卷积神经网络 (CNN) 在图像处理中的性能。

许多教程和非学术资源将图像数据增强分为两个类别：几何转换和光度（或颜色空间）转换。两者都由相对简单的图像文件操作组成。第一类是指改变原始图像空间和布局的技术，例如调整大小、缩放或改变方向（例如水平翻转）。光度变换会改变图像的 RGB（红-绿-蓝）通道。光度转换的示例包括饱和度调整和图像灰度化。⁵

某些来源会将噪声注入归类为几何变换，⁶而另一些来源则会将其归类为光度变换。⁷噪声注入会根据高斯分布将随机的黑色、白色或彩色像素插入图像中。

正如噪声注入所示，将图像增强技术二分类为几何和光度无法涵盖所有可能的增强策略。排除的图像增强技术是核滤波（锐化或模糊图像）和图像混合。后者的一个例子是随机裁剪和修补。这种技术从多幅图像中随机取样，生成新的图像。这个新图像是由输入图像的采样部分合成的。一项相关技术是随机擦除，即删除图像的随机部分。⁸此类任务在图像识别任务中非常有用，因为现实世界的用例可能需要机器识别部分被遮挡的物体。

实例级增强是另一种增强。实例级增强主要是从一幅图像中复制标注区域（例如边界框），然后将其插入另一幅图像中。这种方法可以对图像进行训练，以识别不同背景下的物体以及被其他物体遮挡的物体。实例级增强是特定于区域的识别任务（例如物体检测和图像分割任务）的一种特别突出的方法。⁹

文字增强

与图像增强一样，文本数据增强包含用于一系列自然语言处理 (NLP) 任务的许多技术和方法。一些资源将文本增强分为基于规则（或“简单”）和神经方法。当然，就像图像增强技术的二分法一样，这种分类法并非包罗万象。

基于规则的方法包括相对简单的查找和替换技术，例如随机删除或插入。基于规则的方法还包括同义词替换。在此策略中，将字符串中的一个或多个单词替换为预定义同义词库（例如 WordNet 或 Paraphrase 数据库）中记录的相应同义词。句子倒装和被动（宾语和主语互换）也是基于规则的方法的例子。¹⁰

根据其分类，神经方法会利用神经网络从输入数据生成新的文本样本。其中一种值得注意的神经方法为反向翻译。此功能会使用机器翻译将输入数据翻译为目标语言，然后再翻译回原始输入语言。如此一来，反向翻译便可利用导致自动翻译的语言差异在单语言数据集中生成语义差异，以便进行增强。研究表明，此功能对于提高机器翻译模型的性能非常有效。¹¹

混合文本增强是另一种策略。该方法使用神经网络嵌入来部署基于规则的删除与插入方法。具体而言，预先训练的转换器（例如 BERT）会生成文本的单词级或句子级嵌入，从而将文本转换为向量点（如同词袋模型中的情况）。将文本转换为向量点通常旨在捕获语言相似性，即矢量空间中彼此更接近的单词或句子会被视为具有相似的含义或频率。混淆增强会在彼此的指定距离内插入文本字符串，以生成作为输入数据集合的新数据。¹²

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

资源

提升您的机器学习专业知识

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的机器学习技能。

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

机器学习解析

IBM 的 Techsplainers 系列从核心概念到实际用例，为您解析机器学习的关键要点。清晰简短的节目助您快速掌握基础。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

如何选择合适的 AI 基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

深入了解 IBM Granite

IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可扩展您的 AI 应用。深入了解语言、代码、时间序列和护栏选项。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

脚注

所有链接均为 IBM.com 外部链接。

^f Martin Tanner 和 Wing Hung Wong，“通过数据增强计算后验分布”， 美国统计协会杂志，第 82 卷，第 398 期（1987 年），第 528-540 页。

² Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, and Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

³ Manisha Saini and Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023.

⁴ Fabio Perez, Cristina Vasconcelos, Sandra Avila, and Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.

⁵ Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.

⁶ Duc Haba， Data Augmentation with Python，Packt Publishing，2023 年。

⁷ Mingle Xu, Sook Yoon, Alvaro Fuentes, and Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.

⁸ Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.

⁹ Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue, and Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, and Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928.

¹⁰ Connor Shorten, Taghi M. Khoshgoftaar and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 2339-2352.

¹¹ Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow, and Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pp. 86-96.

¹² Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, and Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020. Hongyu Guo, Yongyi Mao, and Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019.

¹³ Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, and Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023. Alhassan Mumuni and Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023, pp. 12561-12605.

¹⁴ Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 113-123.

¹⁵ Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, and Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16^th European Conference on Computer Vision, 2020.

¹⁶ Sandareka Wickramanayake, Wynne Hsu, and Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021.

¹⁷ rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, and Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26^th International Conference on Information Processing in Medical Imaging, 2019.

¹⁸ Cédric Rommel, Thomas Moreau, Joseph Paillard, and Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022.

¹⁹ Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, and Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, pp. 321-331.

²⁰ Veit Sandfort, Ke Yan, Perry Pickhardt, and Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019.

²¹ Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, and Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.

²² Bram Vanherle, Steven Moonen, Frank Van Reeth, and Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33^rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, and Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba, and Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 3502-3511.

数据增强是什么？

数据增强是什么？

增强数据与合成数据

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

数据增强技术

图像增强

文字增强

解码 AI：每周新闻摘要

最近的研究

自动增强

生成式网络

资源

脚注