数据增强使用预先存在的数据来创建新的数据样本,从而改进模型优化和泛化性。
从最一般的意义上讲,数据增强是指通过提供缺失数据点来提高数据集的可分析性以便补充所谓“不完整数据集”的方法。1它在机器学习领域的体现方式为:通过生成预先存在数据的修改后副本,从而增加数据集的大小和多样性。因此,就机器学习而言,增强数据可理解为人工提供可能不存在的现实数据。
数据增强改善了机器学习模型的优化和泛化。换句话说,数据增强可以减少过拟合并提高模型稳健性。2大型、多样化的数据集可以提高模型性能,这是机器学习的公理。然而,出于多种原因(从道德和隐私问题到手动编译必要数据的耗时工作),获取足够的数据可能很困难。数据增强提供了一种增加数据集大小和可变性的有效方法。事实上,研究人员广泛使用数据增强来纠正不平衡的数据集。3
许多深度学习框架(例如 PyTorch、Keras 和 Tensorflow)都提供了用于增强数据(主要是图像数据集)的功能。Python 包 Ablumentations (可在 Github 上获取)也被许多开源项目采用。Albumentations 允许增强图像和文本数据。
数据增强方法多种多样。用于增强数据的具体技术取决于用户当前所用数据的性质。请注意,数据增强通常会在训练数据集的预处理期间实现。某些研究调查了增强对验证集或测试集的影响,但训练集之外的增强应用较为罕见。4
某些来源会将噪声注入归类为几何变换,6而另一些来源则会将其归类为光度变换。7噪声注入会根据高斯分布将随机的黑色、白色或彩色像素插入图像中。
正如噪声注入所示,将图像增强技术二分类为几何和光度无法涵盖所有可能的增强策略。排除的图像增强技术是核滤波(锐化或模糊图像)和图像混合。后者的一个例子是随机裁剪和修补。这种技术从多幅图像中随机取样,生成新的图像。这个新图像是由输入图像的采样部分合成的。一项相关技术是随机擦除,即删除图像的随机部分。8此类任务在图像识别任务中非常有用,因为现实世界的用例可能需要机器识别部分被遮挡的物体。
实例级增强是另一种增强。实例级增强主要是从一幅图像中复制标注区域(例如边界框),然后将其插入另一幅图像中。这种方法可以对图像进行训练,以识别不同背景下的物体以及被其他物体遮挡的物体。实例级增强是特定于区域的识别任务(例如物体检测和图像分割任务)的一种特别突出的方法。9
与图像增强一样,文本数据增强包含用于一系列自然语言处理 (NLP) 任务的许多技术和方法。一些资源将文本增强分为基于规则(或“简单”)和神经方法。当然,就像图像增强技术的二分法一样,这种分类法并非包罗万象。
基于规则的方法包括相对简单的查找和替换技术,例如随机删除或插入。基于规则的方法还包括同义词替换。在此策略中,将字符串中的一个或多个单词替换为预定义同义词库(例如 WordNet 或 Paraphrase 数据库)中记录的相应同义词。句子倒装和被动(宾语和主语互换)也是基于规则的方法的例子。10
根据其分类,神经方法会利用神经网络从输入数据生成新的文本样本。其中一种值得注意的神经方法为反向翻译。此功能会使用机器翻译将输入数据翻译为目标语言,然后再翻译回原始输入语言。如此一来,反向翻译便可利用导致自动翻译的语言差异在单语言数据集中生成语义差异,以便进行增强。研究表明,此功能对于提高机器翻译模型的性能非常有效。11
混合文本增强是另一种策略。该方法使用神经网络嵌入来部署基于规则的删除与插入方法。具体而言,预先训练的转换器(例如 BERT)会生成文本的单词级或句子级嵌入,从而将文本转换为向量点(如同词袋模型中的情况)。将文本转换为向量点通常旨在捕获语言相似性,即矢量空间中彼此更接近的单词或句子会被视为具有相似的含义或频率。混淆增强会在彼此的指定距离内插入文本字符串,以生成作为输入数据集合的新数据。12
很多用户均会在为确定实施哪些数据增强策略而苦恼。针对不同的数据集和任务,数据增强技术的功效是否会有所不同?针对数据增强技术的比较研究表明,多种形式的增强比一种形式具有更大的正面影响力,但确定技术的最佳组合取决于数据集和任务。13但是,我们应如何选择最佳技术呢?
为解决此问题,相关研究方向已转向自动化数据增强。有一种自动增强方法会使用强化学习来识别对给定数据集返回最高验证精度的增强技术。14此方法已被证明可实施有助于提高样本内外数据性能的策略。15另一极具应用前景的自动增强方法则可识别并增强分类器输出中的假阳性值。如此一来,自动增强便可确定为经常错误分类项目进行更新的最佳策略。16
最近,研究转向生成式网络和模型,以确定任务依赖型17 和类依赖型18 最佳增强策略。这包括与生成式对抗网络 (GAN) 的工作。GAN 是通常用于生成合成数据的深度学习网络,最近的研究调查了它们在数据增强方面的用途。例如,一些实验表明,医学图像集的合成数据增强比传统增强更能提高分类19 和分割20 模型的性能。与此相关的是,文本增强研究利用大型语言模型 (LLM) 和聊天机器人来生成增强数据。这些实验使用 LLM 通过混淆和同义词化技术生成输入数据的增强样本,显示出比传统增强更大的文本分类模型的积极影响。21
在为各种机器学习任务训练模型时,研究人员和开发人员广泛采用数据增强技术。相比之下,合成数据是一个相对较新的研究领域。合成数据与真实数据的比较实验显示出喜忧参半的结果,完全基于合成数据训练的模型有时性能优于真实数据,有时表现不佳。也许不足为奇的是,这项研究表明,当合成数据反映真实数据的特征时,它才是最有用的。22
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
所有链接均为 IBM.com 外部链接。
f Martin Tanner 和 Wing Hung Wong,“通过数据增强计算后验分布”, 美国统计协会杂志,第 82 卷,第 398 期(1987 年),第 528-540 页。
2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles, and Timothy A Mann, “Data Augmentation Can Improve Robustness,” Advances in Neural Information Processing Systems, Vol. 34, 2021.
3 Manisha Saini and Seba Susan, “Tackling class imbalance in computer vision: A contemporary review,” Artificial Intelligence Review, Vol. 54, 2023.
4 Fabio Perez, Cristina Vasconcelos, Sandra Avila, and Eduardo Valle, “Data Augmentation for Skin Lesion Analysis,” OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 2018.
5 Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019.
6 Duc Haba, Data Augmentation with Python,Packt Publishing,2023 年。
7 Mingle Xu, Sook Yoon, Alvaro Fuentes, and Dong Sun Park, “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning,” Patter Recognition, Vol. 137.
8 Connor Shorten and Taghi M. Khoshgoftaa, “A survey on Image Data Augmentation for Deep Learning,” Journal of Big Data, 2019, . Terrance DeVries and Graham W. Taylor, “Improved Regularization of Convolutional Neural Networks with Cutout,” 2017.
9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue, and Thomas S. Huang, “Towards Instance-Level Image-To-Image Translation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3683-3692, . Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le, and Barret Zoph, “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 2918-2928.
10 Connor Shorten, Taghi M. Khoshgoftaar and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen, “Syntactic Data Augmentation Increases Robustness to Inference Heuristics,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 2339-2352.
11 Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021, . Rico Sennrich, Barry Haddow, and Alexandra Birch, “Improving Neural Machine Translation Models with Monolingual Data,” Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, 2016, pp. 86-96.
12 Connor Shorten, Taghi M. Khoshgoftaar, and Borko Furht, “Text Data Augmentation for Deep Learning,” Journal of Big Data, 2021. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu, and Lifang He, “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks,” Proceedings of the 28th International Conference on Computational Linguistics, 2020. Hongyu Guo, Yongyi Mao, and Richong Zhang, “Augmenting Data with Mixup for Sentence Classification: An Empirical Study,” 2019.
13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao, and Furao Shen, “Image Data Augmentation for Deep Learning: A Survey,” 2023. Alhassan Mumuni and Fuseini Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, Vol. 16, 2022. Evgin Goveri, “Medical image data augmentation: techniques, comparisons and interpretations,” Artificial Intelligence Review, Vol. 56, 2023, pp. 12561-12605.
14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V. Le, “AutoAugment: Learning Augmentation Strategies From Data,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 113-123.
15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens, and Quoc V. Le, “Learning Data Augmentation Strategies for Object Detection,” Proceedings of the 16th European Conference on Computer Vision, 2020.
16 Sandareka Wickramanayake, Wynne Hsu, and Mong Li Lee, “Explanation-based Data Augmentation for Image Classification,” Advances in Neural Information Processing Systems, Vol. 34, 2021.
17 rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati, and Ender Konukoglu, “Semi-supervised and Task-Driven Data Augmentation,” Proceedings of the 26th International Conference on Information Processing in Medical Imaging, 2019.
18 Cédric Rommel, Thomas Moreau, Joseph Paillard, and Alexandre Gramfort, “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals,” International Conference on Learning Representations, 2022.
19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger, and Hayit Greenspan, “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification,” Neurocomputing, 2018, pp. 321-331.
20 Veit Sandfort, Ke Yan, Perry Pickhardt, and Ronald Summers, “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks,” Scientific Reports, 2019.
21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee, and Woomyoung Park, “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation,” Findings of the Association for Computational Linguistics: EMNLP 2021, pp. 2225-2239. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu, and Xiang Li, “AugGPT: Leveraging ChatGPT for Text Data Augmentation,” 2023.
22 Bram Vanherle, Steven Moonen, Frank Van Reeth, and Nick Michiels, “Analysis of Training Object Detection Models with Synthetic Data,” 33rd British Machine Vision Conference, 2022. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu, and Pierre Nugues, “Object Detector Differences When Using Synthetic and Real Training Data,” SN Computer Science, Vol. 4, 2023. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba, and Mauricio Villegas, “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition,” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2020, pp. 3502-3511.