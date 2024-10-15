发布日期：2024 年 5 月 7 日
撰稿人：Jacob Murel 博士、Eda Kavlakoglu
数据增强使用预先存在的数据来创建新的数据样本，从而改进模型优化和泛化性。
从最一般的意义上讲，数据增强是指通过提供缺失数据点来提高数据集的可分析性以便补充所谓“不完整数据集”的方法。1它在机器学习领域的体现方式为：通过生成预先存在数据的修改后副本，从而增加数据集的大小和多样性。因此，就机器学习而言，增强数据可理解为人工提供可能不存在的现实数据。
数据增强改善了机器学习模型的优化和泛化。换句话说，数据增强可以减少过拟合并提高模型稳健性。2大型、多样化的数据集可以提高模型性能，这是机器学习的公理。然而，出于多种原因（从道德和隐私问题到手动编译必要数据的耗时工作），获取足够的数据可能很困难。数据增强提供了一种增加数据集大小和可变性的有效方法。事实上，研究人员广泛使用数据增强来纠正不平衡的数据集。3
许多深度学习框架（例如 PyTorch、Keras 和 Tensorflow）都提供了用于增强数据（主要是图像数据集）的功能。Python 包 Ablumentations（可在 Github 上获取）也被许多开源项目采用。Albumentations 允许增强图像和文本数据。
请注意，数据增强有别于合成数据。诚然，两者都是生成算法，它们将新数据添加到数据集合中，以提高机器学习模型的性能。然而，合成数据是指自动生成完全人工的数据。例如，使用计算机生成的图像（而不是真实世界的数据）来训练物体检测模型。相比之下，数据增强会复制现有数据并转换这些副本，以增加给定集中数据的多样性和数量。
数据增强方法多种多样。用于增强数据的具体技术取决于用户当前所用数据的性质。请注意，数据增强通常会在训练数据集的预处理期间实现。某些研究调查了增强对验证集或测试集的影响，但训练集之外的增强应用较为罕见。4
正如噪声注入所示，将图像增强技术二分类为几何和光度无法涵盖所有可能的增强策略。排除的图像增强技术是核滤波（锐化或模糊图像）和图像混合。后者的一个例子是随机裁剪和修补。这种技术从多幅图像中随机取样，生成新的图像。这个新图像是由输入图像的采样部分合成的。一项相关技术是随机擦除，即删除图像的随机部分。8此类任务在图像识别任务中非常有用，因为现实世界的用例可能需要机器识别部分被遮挡的物体。
实例级增强是另一种增强。实例级增强主要是从一幅图像中复制标注区域（例如边界框），然后将其插入另一幅图像中。这种方法可以对图像进行训练，以识别不同背景下的物体以及被其他物体遮挡的物体。实例级增强是特定于区域的识别任务（例如物体检测和图像分割任务）的一种特别突出的方法。9
根据其分类，神经方法会利用神经网络从输入数据生成新的文本样本。其中一种值得注意的神经方法为反向翻译。此功能会使用机器翻译将输入数据翻译为目标语言，然后再翻译回原始输入语言。如此一来，反向翻译便可利用导致自动翻译的语言差异在单语言数据集中生成语义差异，以便进行增强。研究表明，此功能对于提高机器翻译模型的性能非常有效。11
很多用户均会在为确定实施哪些数据增强策略而苦恼。针对不同的数据集和任务，数据增强技术的功效是否会有所不同？针对数据增强技术的比较研究表明，多种形式的增强比一种形式具有更大的正面影响力，但确定技术的最佳组合取决于数据集和任务。13但是，我们应如何选择最佳技术呢？
最近，研究转向生成式网络和模型，以确定任务依赖型17 和类依赖型18 最佳增强策略。这包括与生成式对抗网络 (GAN) 的工作。GAN 是通常用于生成合成数据的深度学习网络，最近的研究调查了它们在数据增强方面的用途。例如，一些实验表明，医学图像集的合成数据增强比传统增强更能提高分类19 和分割20 模型的性能。与此相关的是，文本增强研究利用大型语言模型 (LLM) 和聊天机器人来生成增强数据。这些实验使用 LLM 通过混淆和同义词化技术生成输入数据的增强样本，显示出比传统增强更大的文本分类模型的积极影响。21
在为各种机器学习任务训练模型时，研究人员和开发人员广泛采用数据增强技术。相比之下，合成数据是一个相对较新的研究领域。合成数据与真实数据的比较实验显示出喜忧参半的结果，完全基于合成数据训练的模型有时性能优于真实数据，有时表现不佳。也许不足为奇的是，这项研究表明，当合成数据反映真实数据的特征时，它才是最有用的。22
