数据增强使用预先存在的数据来创建新的数据样本,从而改进模型优化和泛化性。
从最一般的意义上讲,数据增强是指通过提供缺失数据点来提高数据集的可分析性以便补充所谓“不完整数据集”的方法。1它在机器学习领域的体现方式为:通过生成预先存在数据的修改后副本,从而增加数据集的大小和多样性。因此,就机器学习而言,增强数据可理解为人工提供可能不存在的现实数据。
数据增强改善了机器学习模型的优化和泛化。换句话说,数据增强可以减少过拟合并提高模型稳健性。2大型、多样化的数据集可以提高模型性能,这是机器学习的公理。然而,出于多种原因(从道德和隐私问题到手动编译必要数据的耗时工作),获取足够的数据可能很困难。数据增强提供了一种增加数据集大小和可变性的有效方法。事实上,研究人员广泛使用数据增强来纠正不平衡的数据集。3
许多深度学习框架(例如 PyTorch、Keras 和 Tensorflow)都提供了用于增强数据(主要是图像数据集)的功能。Python 包 Ablumentations(可在 Github 上获取)也被许多开源项目采用。Albumentations 允许增强图像和文本数据。
请注意,数据增强有别于合成数据。诚然,两者都是生成算法,它们将新数据添加到数据集合中,以提高机器学习模型的性能。然而,合成数据是指自动生成完全人工的数据。例如,使用计算机生成的图像(而不是真实世界的数据)来训练物体检测模型。相比之下,数据增强会复制现有数据并转换这些副本,以增加给定集中数据的多样性和数量。
数据增强方法多种多样。用于增强数据的具体技术取决于用户当前所用数据的性质。请注意,数据增强通常会在训练数据集的预处理期间实现。某些研究调查了增强对验证集或测试集的影响,但训练集之外的增强应用较为罕见。4
某些来源会将噪声注入归类为几何变换,6而另一些来源则会将其归类为光度变换。7噪声注入会根据高斯分布将随机的黑色、白色或彩色像素插入图像中。
正如噪声注入所示,将图像增强技术二分类为几何和光度无法涵盖所有可能的增强策略。排除的图像增强技术是核滤波(锐化或模糊图像)和图像混合。后者的一个例子是随机裁剪和修补。这种技术从多幅图像中随机取样,生成新的图像。这个新图像是由输入图像的采样部分合成的。一项相关技术是随机擦除,即删除图像的随机部分。8此类任务在图像识别任务中非常有用,因为现实世界的用例可能需要机器识别部分被遮挡的物体。
实例级增强是另一种增强。实例级增强主要是从一幅图像中复制标注区域(例如边界框),然后将其插入另一幅图像中。这种方法可以对图像进行训练,以识别不同背景下的物体以及被其他物体遮挡的物体。实例级增强是特定于区域的识别任务(例如物体检测和图像分割任务)的一种特别突出的方法。9
与图像增强一样,文本数据增强包含用于一系列自然语言处理 (NLP) 任务的许多技术和方法。一些资源将文本增强分为基于规则(或“简单”)和神经方法。当然,就像图像增强技术的二分法一样,这种分类法并非包罗万象。
基于规则的方法包括相对简单的查找和替换技术,例如随机删除或插入。基于规则的方法还包括同义词替换。在此策略中,将字符串中的一个或多个单词替换为预定义同义词库(例如 WordNet 或 Paraphrase 数据库)中记录的相应同义词。句子倒装和被动(宾语和主语互换)也是基于规则的方法的例子。10
根据其分类,神经方法会利用神经网络从输入数据生成新的文本样本。其中一种值得注意的神经方法为反向翻译。此功能会使用机器翻译将输入数据翻译为目标语言,然后再翻译回原始输入语言。如此一来,反向翻译便可利用导致自动翻译的语言差异在单语言数据集中生成语义差异,以便进行增强。研究表明,此功能对于提高机器翻译模型的性能非常有效。11
混合文本增强是另一种策略。该方法使用神经网络嵌入来部署基于规则的删除与插入方法。具体而言,预先训练的转换器(例如 BERT)会生成文本的单词级或句子级嵌入,从而将文本转换为向量点(如同词袋模型中的情况)。将文本转换为向量点通常旨在捕获语言相似性,即矢量空间中彼此更接近的单词或句子会被视为具有相似的含义或频率。混淆增强会在彼此的指定距离内插入文本字符串,以生成作为输入数据集合的新数据。12
很多用户均会在为确定实施哪些数据增强策略而苦恼。针对不同的数据集和任务,数据增强技术的功效是否会有所不同?针对数据增强技术的比较研究表明,多种形式的增强比一种形式具有更大的正面影响力,但确定技术的最佳组合取决于数据集和任务。13但是,我们应如何选择最佳技术呢?
为解决此问题,相关研究方向已转向自动化数据增强。有一种自动增强方法会使用强化学习来识别对给定数据集返回最高验证精度的增强技术。14此方法已被证明可实施有助于提高样本内外数据性能的策略。15另一极具应用前景的自动增强方法则可识别并增强分类器输出中的假阳性值。如此一来,自动增强便可确定为经常错误分类项目进行更新的最佳策略。16
最近,研究转向生成式网络和模型,以确定任务依赖型17 和类依赖型18 最佳增强策略。这包括与生成式对抗网络 (GAN) 的工作。GAN 是通常用于生成合成数据的深度学习网络,最近的研究调查了它们在数据增强方面的用途。例如,一些实验表明,医学图像集的合成数据增强比传统增强更能提高分类19 和分割20 模型的性能。与此相关的是,文本增强研究利用大型语言模型 (LLM) 和聊天机器人来生成增强数据。这些实验使用 LLM 通过混淆和同义词化技术生成输入数据的增强样本,显示出比传统增强更大的文本分类模型的积极影响。21
在为各种机器学习任务训练模型时,研究人员和开发人员广泛采用数据增强技术。相比之下,合成数据是一个相对较新的研究领域。合成数据与真实数据的比较实验显示出喜忧参半的结果,完全基于合成数据训练的模型有时性能优于真实数据,有时表现不佳。也许不足为奇的是,这项研究表明,当合成数据反映真实数据的特征时,它才是最有用的。22
获得关于不断演变的 ABI 解决方案格局的独特洞察分析,重点介绍适用于数据和分析领导者的主要发现、假设和建议。
简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能,包括优化工作负载的成本、扩展 AI 和分析,以及随时随地使用所有数据。
深入了解数据领导者指南,了解如何构建数据驱动型组织和推动业务优势。
了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。
通过这 4 个关键步骤,将您的数据和分析策略与业务目标联系起来。
深入了解商业智能挑战可能持续存在的原因,以及它对整个组织的用户意味着什么。
f Martin Tanner 和 Wing Hung Wong,“通过数据增强计算后验分布”, 美国统计协会杂志,第 82 卷,第 398 期(1987 年),第 528-540 页。
2 Sylvestre-Alvise Rebuffi、Sven Gowal、Dan Andrei Calian、Florian Stimberg、Olivia Wiles 和 Timothy A Mann,“Data Augmentation Can Improve Robustness”,《神经信息处理系统进展》,第 34 期,2021 年, https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html。
3 Manisha Saini 和 Seba Susan,“Tackling class imbalance in computer vision: A contemporary review”,Artificial Intelligence Review,第 54 卷,2023 年, https://link.springer.com/article/10.1007/s10462-023-10557-6。
4 Fabio Perez、Cristina Vasconcelos、Sandra Avila 和 Eduardo Valle,“Data Augmentation for Skin Lesion Analysis”,OR 2.0 Context-Aware Operating Theaters、Computer Assisted Robotic Endoscopy、Clinical Image-Based Procedures 和 Skin Image Analysis,2018 年, https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33。
5 Connor Shorten 和 Taghi M. Khoshgoftaa,“A survey on Image Data Augmentation for Deep Learning”, Journal of Big Data,2019 年, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0。
6 Duc Haba, Data Augmentation with Python,Packt Publishing,2023 年。
7 Mingle Xu、Sook Yoon、Alvaro Fuentes 和 Dong Sun Park,“Data Augmentation Can Improve Robustness”, Patter Recognition,第 137 期, https://www.sciencedirect.com/science/article/pii/S0031320323000481。
8 Connor Shorten 和 Taghi M. Khoshgoftaa,“A survey on Image Data Augmentation for Deep Learning”, Journal of Big Data,2019 年, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0。Terrance DeVries 和 Graham W. Taylor,“Improved Regularization of Convolutional Neural Networks with Cutout”,2017 年, https://arxiv.org/abs/1708.04552。
9 Zhiqiang Shen、Mingyang Huang、Jianping Shi、Xiangyang Xue 和 Thomas S. Huang,“Towards Instance-Level Image-To-Image Translation”,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019 年,第 3683-3692 页, https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html。Golnaz Ghiasi、Yin Cui、Aravind Srinivas、Rui Qian、Tsung-Yi Lin、Ekin D. Cubuk、Quoc V. Le 和 Barret Zoph,“Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2021 年,第 2918-2928 页, https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html。
10 Connor Shorten、Taghi M. Khoshgoftaar 和 Borko Furht,“Text Data Augmentation for Deep Learning”, Journal of Big Data,2021 年, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0.。Junghyun Min、R. Thomas McCoy、Dipanjan Das、Emily Pitler 和 Tal Linzen,“句法数据增强提高了推理启发式的鲁棒性”,计算语言学协会第 58 届年会论文集,2020 年,第 2339-2352 页, https://aclanthology.org/2020.acl-main.212/。
11 Connor Shorten、Taghi M. Khoshgoftaar 和 Borko Furht,“Text Data Augmentation for Deep Learning”, Journal of Big Data,2021 年, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0。Rico Sennrich、Barry Haddow 和 Alexandra Birch,“Improving Neural Machine Translation Models with Monolingual Data”,Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics,2016 年,第 86-96 页, https://aclanthology.org/P16-1009/。
12 Connor Shorten、Taghi M. Khoshgoftaar 和 Borko Furht,“Text Data Augmentation for Deep Learning”, Journal of Big Data,2021 年, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0。Lichao Sun、Congying Xia、Wenpeng Yin、Tingting Liang、Philip Yu 和 Lifang He,《Mixup-Transformer:用于 NLP 任务的动态数据增强》,第 28 届国际计算语言学会议论文集,2020 年, https://aclanthology.org/2020.coling-main.305/。宏宇果、毛勇一和张日冲,《利用混合增强句子分类的数据:一项实证研究》,2019年。 https://arxiv.org/abs/1905.08941。
13 Suorong Yang、Weikang Xiao、Mengchen Zhang、Suhan Guo、Jian Zhao 和 Furao Shen,“深度学习的图像数据增强:一项调查”,2023 年, https://arxiv.org/pdf/2204.08610.pdf。Alhassan Mumuni 和 Fuseini Mumuni,“Data augmentation: A comprehensive survey of modern approaches”,Array,第 16 期,2022 年, https://www.sciencedirect.com/science/article/pii/S2590005622000911。Evgin Goveri,“Medical image data augmentation: techniques, comparisons and interpretations”,《人工智能评论》,第 56 期,2023 年,第 12561-12605 页, https://link.springer.com/article/10.1007/s10462-023-10453-z。
14 Ekin D. Cubuk、Barret Zoph、Dandelion Mane、Vijay Vasudevan 和 Quoc V. Le,“AutoAugment: Learning Augmentation Strategies From Data”,Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019 年,第 113-123 页, https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf。
15 Barret Zoph、Ekin D. Cubuk、Golnaz Ghiasi、Tsung-Yi Lin、Jonathon Shlens 和 Quoc V. Le,“Learning Data Augmentation Strategies for Object Detection”,Proceedings of the 16th European Conference on Computer Vision, 2020, https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34。
16 Sandareka Wickramanayake、Wynne Hsu 和 Mong Li Lee,“Explanation-based Data Augmentation for Image Classification”,Advances in Neural Information Processing Systems,第 34 卷,2021 年, https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html。
17 Krishna Chaitanya、Neerav Karani、Christian F. Baumgartner、Anton Becker、Olivio Donati 和 Ender Konukoglu,“Semi-supervised and Task-Driven Data Augmentation”,《第 26 届医学影像信息处理国际会议论文集》,2019 年, https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3。
18 Cédric Rommel、Thomas Moreau、Joseph Paillard 和 Alexandregram Fort,“ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals”,International Conference on Learning Representations,2022 年, https://iclr.cc/virtual/2022/poster/7154。
19 Maayan Frid-Adar、Idit Diamant、Eyal Klang、Michal Amitai、Jacob Goldberger 和 Hayit Greenspan,“GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification”,Neurocomputing,2018 年,第 321-331 页, https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749。
20 Veit Sand Fort、Ke Yan、Perry Pinhardt 和 Ronald Sums,“Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks”,Scientific Reports,2019 年, https://www.nature.com/articles/s41598-019-52737-x。
21 Kang Min Yoo、Dongju Park、Jaewook Kang、Sang-Woo Lee 和 Woomyoung Park,“GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation”,Findings of the Association for Computational Linguistics: EMNLP 2021,第 2225-2239 页, https://aclanthology.org/2021.findings-emnlp.192/。Haixing Dai、Zhengliang Liu、Wenxiong Liao、Xiaoke Huang、Yihan Cao、Zihao Wu、Lin Zhao、Shaochen Xu, Wei Liu、Ninghao Liu、Sheng Li、Dajiang Zhu、Hongmin Cai、Lichao Sun、Quanzheng Li、Dinggang Shen、Tianming Liu 和 Xiang Li,“AugGPT: Leveraging ChatGPT for Text Data Augmentation”,2023 年, https://arxiv.org/abs/2302.13007。
22 Bram Vanherle、Steven Moonen、Frank Van Reeth 和 Nick Michiels,“Analysis of Training Object Detection Models with Synthetic Data”,33rd British Machine Vision Conference,2022 年, https://bmvc2022.mpi-inf.mpg.de/0833.pdf。Martin Georg Ljungqvist、Otto Nordander、Markus Skans、Arvid Mildner、Tony Liu 和 Pierre Nugues,“Object Detector Differences When Using Synthetic and Real Training Data”,SN Computer Science,第 4 卷,2023 年, https://link.springer.com/article/10.1007/s42979-023-01704-5。Lei Kang、Marcal Rusinol、Alicia Fornes、Pau Riba 和 Mauricio Villegas,“Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition”,Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV),2020 年,第 3502-3511 页, https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwritten_Word_Recognition_WACV_2020_paper.html。