什么是迁移学习？| IBM

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

迁移学习是一种机器学习技术，利用在一个任务或数据集上获得的知识来提高另一个相关任务和/或不同数据集上的模型性能。¹也就是说，迁移学习利用在一个场景中学习到的知识来提高在另一个场景中的泛化性。²

迁移学习有着广泛的应用，从解决数据科学中的回归问题到训练深度学习模型。事实上，迁移学习对于后者来说更具吸引力，因为创建深度 Neural Networks 需要大量数据。

传统的学习过程通常会基于可用的标记数据为每个新任务构建新模型。这是因为传统的机器学习算法假设训练和测试数据来自相同的特征空间。因此，如果数据分布发生变化，或者将训练好的模型应用于新的数据集，即使尝试完成与第一个模型类似的任务（例如，电影评论和歌曲评论的情感分析分类器），用户也必须从头开始重新训练一个新的模型。然而，迁移学习算法以已经训练的模型或网络为起点。然后，它会应用该模型在初始源任务或数据中获得的知识（例如对电影评论进行分类）转向新的但相关的目标任务或数据（例如对歌曲评论进行分类）。³

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

迁移学习的优缺点

优势

计算成本。迁移学习可节省为新问题构建模型所需的计算成本。通过将预训练模型或预训练网络重新用于完成不同的任务，用户可以减少模型训练时间、训练数据、处理器单元和其他计算资源的需求。例如，更少的训练轮数 - 即数据集迭代次数 - 可能需要用到以达到所需的学习率。通过这种方式，迁移学习可以加速并简化模型训练过程。
数据集大小。迁移学习尤其能够有效解决获取大型数据集所带来的挑战。例如，大语言模型 (LLM) 需要大量训练数据才能获得最佳性能。高质量的公开数据集可能有限，并且生成足够的人工标记数据可能既耗时又费钱。
泛化性。迁移学习不仅可以优化模型，还能进一步提升模型的泛化性。由于迁移学习需要使用新的数据集对现有模型进行重新训练，因此重新训练后的模型将包含从多个数据集获得的知识。与仅在一种类型的数据集上训练的初始基础模型相比，它在更广泛的数据上可能会表现出更好的性能。因此，迁移学习可以抑制过度拟合。⁴

当然，从一个领域到另一个领域的知识迁移并不能完全消除质量数据带来的负面影响。即使使用迁移学习，数据预处理技术以及诸如数据增强和特征提取等特征工程仍然是必要的。

缺点

与其说迁移学习本身存在缺点，不如说它在误用时可能会产生负面影响。迁移学习在满足以下三个条件时的效果最佳：

两个学习任务类似
源数据集和目标数据集的数据分布差异不大
可比较模型可以应用于两项任务

当这些条件不满足时，迁移学习可能会对模型性能产生负面影响。文献将此称为负转移。现有研究提出了多种测试方法，用于评估数据集和任务是否满足上述条件，从而避免负迁移。⁵为了解决源数据集和目标数据集之间数据分布差异过大而导致的负迁移问题，研究人员开发了一种称为远程迁移的方法。⁶

请注意，还没有通用的标准来衡量迁移学习中任务之间的相似性。然而，部分研究提出使用不同的评估方法，以预测数据集和机器学习任务之间的相似性，以及预测迁移学习的可行性。⁷

AI 学院

让 AI 服务于客户服务

了解生成式 AI 如何提供更加无缝、令人满意的客户体验，并在以下三个关键领域提高组织的工作效率：自助服务、人工客服和联络中心运营。

转到视频集

迁移学习的类型

迁移学习包含三个相近的实践或分支。它们彼此之间的区别，以及与更广泛的迁移学习之间的区别，主要体现在源域、目标域和要完成的任务之间的关系的变化上。⁸

归纳迁移。这种情况是指源任务和目标任务不同，并且目标域和源域（即数据集）之间是否存在差异或相似性并不影响这种情况的发生。这种情况在计算机视觉模型中很常见，例如在大型数据集上预训练用于特征提取的架构，会进行进一步训练，以用于特定任务（例如对象检测）。多任务学习，即在同一数据集上同时学习两个不同的任务（例如图像分类和对象检测），可以被视为归纳迁移的一种形式。⁹
无监督学习。这与归纳迁移类似，因为目标任务与源任务不同。但在归纳迁移中，源数据和/或目标数据通常会进行标记。顾名思义，无监督迁移学习是没人监督的，这意味着没有人工标记的数据。¹⁰ 相比之下，归纳迁移可以被视为监督学习。无监督学习的一种常见应用是欺诈检测。通过分析未标记的交易数据集的常见模式，模型可以进一步学习识别可能存在欺诈的偏离行为。
归纳迁移。当源任务和目标任务相同，但数据集（或域）不同时，会发生这种情况。更具体地说，源数据通常是标记的，而目标数据是无标记的。域适应是转导学习的一种形式，因为它将从一个数据分布上执行任务获得的知识应用于另一个数据分布上的相同任务。¹¹转导迁移学习的一个示例是将在餐厅评论上训练和测试的文本分类模型应用于电影评论分类。

迁移学习与微调

迁移学习有别于微调。诚然，二者都利用了已有的机器学习模型，而不是从头开始训练新的模型。但相似之处仅此而已。微调是指在特定任务的数据集上对模型进行进一步训练，以提升模型在最初设计目标任务上的性能。例如，可以使用 COCO 或 ImageNet 等海量图像集创建通用对象检测模型，然后在专用于汽车检测的较小标记数据集上进一步训练所生成的模型。通过这种方式，用户可以针对专用于汽车检测的对象检测模型进行微调。相比之下，迁移学习指用户何时将模型应用于一个新的、相关问题，而并非最初设计解决的问题。

迁移学习用例

迁移学习在现实世界的机器学习和人工智能应用有着广泛的应用。开发人员和数据科学家可以利用迁移学习来辅助完成各种任务，并将其与其他学习方法例如强化学习等相结合。

自然语言处理

影响 NLP 中迁移学习的一个突出问题是特征不匹配。不同域中的特征可能具有不同的含义以及内涵（例如，light 既可以指重量，也可以光学）。这种特征表示的差异会影响情感分类任务、语言模型等。基于深度学习的模型（尤其是单词嵌入）有望纠正这种情况，因为它们能够充分捕获域适应任务的语义关系和方向。¹²

计算机视觉

由于获取足够的用于各种计算机视觉任的人工标记数据存在困难，因此大量研究关注了迁移学习在卷积神经网络 (CNN) 中的应用。一个值得注意的例子是 ResNet，这是一种预训练的模型架构，在图像分类和物体检测任务中表现出更高的性能。¹³最近的研究对著名的 ImageNet 数据集在迁移学习中的应用进行了调研，并提出一种与计算机视觉领域传统观点相悖的结论：训练可靠的泛化模型只需要使用该数据集的一小部分即可。¹⁴许多针对计算机视觉的迁移学习教程均使用 ResNet 和/或 ImageNet，并结合 TensorFlow 的 Keras 库。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是迁移学习？

作者