什么是迁移学习?

夜间曼谷环岛鸟瞰图

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

迁移学习利用来自一个机器学习任务或数据集的预训练模型,来提高相关任务或数据集的性能和泛化性。

迁移学习是一种机器学习技术,利用在一个任务或数据集上获得的知识来提高另一个相关任务和/或不同数据集上的模型性能。1也就是说,迁移学习利用在一个场景中学习到的知识来提高在另一个场景中的泛化性。2迁移学习有着广泛的应用,从解决数据科学中的回归问题到训练深度学习模型。事实上,迁移学习对于后者来说更具吸引力,因为创建深度 Neural Networks 需要大量数据。

传统的学习过程通常会基于可用的标记数据为每个新任务构建新模型。这是因为传统的机器学习算法假设训练和测试数据来自相同的特征空间。因此,如果数据分布发生变化,或者将训练好的模型应用于新的数据集,即使尝试完成与第一个模型类似的任务(例如,电影评论和歌曲评论的情感分析分类器),用户也必须从头开始重新训练一个新的模型。然而,迁移学习算法以已经训练的模型或网络为起点。然后,它会应用该模型在初始源任务或数据中获得的知识(例如对电影评论进行分类)转向新的但相关的目标任务或数据(例如对歌曲评论进行分类)。3

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

迁移学习的优缺点

优势

- 计算成本。迁移学习可节省为新问题构建模型所需的计算成本。通过将预训练模型或预训练网络重新用于完成不同的任务,用户可以减少模型训练时间、训练数据、处理器单元和其他计算资源的需求。例如,更少的训练轮数 - 即数据集迭代次数 - 可能需要用到以达到所需的学习率。通过这种方式,迁移学习可以加速并简化模型训练过程。

- 数据集大小。迁移学习尤其能够有效解决获取大型数据集所带来的挑战。例如,大型语言模型 (LLM) 需要大量训练数据才能获得最佳性能。高质量的公开数据集可能有限,并且生成足够的人工标记数据可能既耗时又费钱。

- 泛化性。迁移学习不仅可以优化模型,还能进一步提升模型的泛化性。由于迁移学习需要使用新的数据集对现有模型进行重新训练,因此重新训练后的模型将包含从多个数据集获得的知识。与仅在一种类型的数据集上训练的初始基础模型相比,它在更广泛的数据上可能会表现出更好的性能。因此,迁移学习可以抑制过度拟合4

当然,从一个领域到另一个领域的知识迁移并不能完全消除质量数据带来的负面影响。即使使用迁移学习,数据预处理技术以及诸如数据增强和特征提取等特征工程仍然是必要的。

缺点

与其说迁移学习本身存在缺点,不如说它在误用时可能会产生负面影响。迁移学习在满足以下三个条件时的效果最佳:

  • 两个学习任务类似
  • 源数据集和目标数据集的数据分布差异不大
  • 可比较模型可以应用于两项任务

当这些条件不满足时,迁移学习可能会对模型性能产生负面影响。文献将此称为负转移。现有研究提出了多种测试方法,用于评估数据集和任务是否满足上述条件,从而避免负迁移。5为了解决源数据集和目标数据集之间数据分布差异过大而导致的负迁移问题,研究人员开发了一种称为远程迁移的方法。6

请注意,还没有通用的标准来衡量迁移学习中任务之间的相似性。然而,部分研究提出使用不同的评估方法,以预测数据集和机器学习任务之间的相似性,以及预测迁移学习的可行性。7

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

迁移学习的类型

迁移学习包含三个相近的实践或分支。它们彼此之间的区别,以及与更广泛的迁移学习之间的区别,主要体现在源域、目标域和要完成的任务之间的关系的变化上。8

- 归纳迁移。这种情况是指源任务和目标任务不同,并且目标域和源域(即数据集)之间是否存在差异或相似性并不影响这种情况的发生。这种情况在计算机视觉模型中很常见,例如在大型数据集上预训练用于特征提取的架构,会进行进一步训练,以用于特定任务(例如对象检测)。多任务学习,即在同一数据集上同时学习两个不同的任务(例如图像分类和对象检测),可以被视为归纳迁移的一种形式。9

- 无监督学习。这与归纳迁移类似,因为目标任务与源任务不同。但在归纳迁移中,源数据和/或目标数据通常会进行标记。顾名思义,无监督迁移学习是没人监督的,这意味着没有人工标记的数据。10 相比之下,归纳迁移可以被视为监督学习。无监督学习的一种常见应用是欺诈检测。通过分析未标记的交易数据集的常见模式,模型可以进一步学习识别可能存在欺诈的偏离行为。

- 归纳迁移。当源任务和目标任务相同,但数据集(或域)不同时,会发生这种情况。更具体地说,源数据通常是标记的,而目标数据是无标记的。域适应是转导学习的一种形式,因为它将从一个数据分布上执行任务获得的知识应用于另一个数据分布上的相同任务。11转导迁移学习的一个示例是将在餐厅评论上训练和测试的文本分类模型应用于电影评论分类。

迁移学习与微调

迁移学习有别于微调。诚然,二者都利用了已有的机器学习模型,而不是从头开始训练新的模型。但相似之处仅此而已。微调是指在特定任务的数据集上对模型进行进一步训练,以提升模型在最初设计目标任务上的性能。例如,可以使用 COCO 或 ImageNet 等海量图像集创建通用对象检测模型,然后在专用于汽车检测的较小标记数据集上进一步训练所生成的模型。通过这种方式,用户可以针对专用于汽车检测的对象检测模型进行微调。相比之下,迁移学习指用户何时将模型应用于一个新的、相关问题,而并非最初设计解决的问题。

迁移学习用例

迁移学习在现实世界的机器学习和人工智能应用有着广泛的应用。开发人员和数据科学家可以利用迁移学习来辅助完成各种任务,并将其与其他学习方法例如强化学习等相结合。

自然语言处理

影响 NLP 中迁移学习的一个突出问题是特征不匹配。不同域中的特征可能具有不同的含义以及内涵(例如,light 既可以指重量,也可以光学)。这种特征表示的差异会影响情感分类任务、语言模型等。基于深度学习的模型(尤其是单词嵌入)有望纠正这种情况,因为它们能够充分捕获域适应任务的语义关系和方向。12

计算机视觉

由于获取足够的用于各种计算机视觉任的人工标记数据存在困难,因此大量研究关注了迁移学习在卷积神经网络 (CNN) 中的应用。一个值得注意的例子是 ResNet,这是一种预训练的模型架构,在图像分类和物体检测任务中表现出更高的性能。13最近的研究对著名的 ImageNet 数据集在迁移学习中的应用进行了调研,并提出一种与计算机视觉领域传统观点相悖的结论:训练可靠的泛化模型只需要使用该数据集的一小部分即可。14许多针对计算机视觉的迁移学习教程均使用 ResNet 和/或 ImageNet,并结合 TensorFlow 的 Keras 库。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

Emilio Soria Olivas、Jose David Martin Guerrero、Marcelino Martinez Sober、Jose Rafael Magdalena Benedito、Antonio Jose Serrano Lopez,“Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques”,Information Science Reference,2009 年。

1  Ian Goodfellow、Yoshua Bengio 和 Aaron Courville,深度学习,麻省理工学院出版社,2016 年。

3 Jiawei Han、Micheline Kamber、Jian Pei,“Data Mining: Concepts and Techniques”,第 3 版,Elsevier,2012 年。

4  Jindong Wang 和 Yiqiang Chen, 迁移学习导论:应用与方法,Springer,2023 年。

5  Wen Zhang、Lingfei Deng、Lei Zhang 和 Dongrui Wu,“负迁移研究综述”,IEEE/CAA Journal of Automatica Sinica,第 10 卷,第 2 期,2023 年,第 305-329 页, https://arxiv.org/abs/2009.00909

6 Ben Tan、Yangqiu Song、Erheng Zhong、Qiang Yang,“Transitive Transfer Learning”,“Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining”,2015 年,第 1155-1164 页,https://dl.acm.org/doi/10.1145/2783258.2783295。Ben Tan、Yu Zhang、Sinno Jialin Pan、Qiang Yang,“Domain Distant Transfer”,“Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence”,2017 年,第 2604-2610 页,https://dl.acm.org/doi/10.5555/3298483.3298614

7 Changjian Shui、Mahdieh Abbasi、Louis-Émile Robitaille1、Boyu Wang、Christian Gagné,“A Principled Approach for Learning Task Similarity in Multitask Learning”,“Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence”,2019 年,第 3446-3452 页,https://www.ijcai.org/proceedings/2019/0478.pdf。Kshitij Dwivedi 和 Gemma Roig,“Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning”,“Proceedings of Conference on Computer Vision and Pattern Recognition”,2019 年,第 12387-12396 页,https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf。Javier García、Álvaro Visús 和 Fernando Fernández,“A taxonomy for similarity metrics between Markov decision processes”,Machine Learning第 111 卷,2022 年,第 4217–4247 页,https://link.springer.com/article/10.1007/s10994-022-06242-4

8 Asmaul Hosna、Ethel Merry、Jigmey Gyalmo、Zulfikar Alom、Zeyar Aung 和 Mohammad Abdul Azim,“Transfer learning: a friendly introduction”,《Journal of Big Data》,第 9 卷,2022 年,https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w。Sinno Jialin Pan 和 Qiang Yang,“A Survey on Transfer Learning”,《IEEE Transactions on Knowledge and Data Engineering》,第 22 卷,第 10 期,第 1345-1359 页,https://ieeexplore.ieee.org/document/5288526

9  Sinno Jialin Pan 和 Qiang Yang,“迁移学习研究综述”, IEEE 知识与数据工程汇刊,第 22 卷,第 10 期,第 1345-1359 页, https://ieeexplore.ieee.org/document/5288526。Ricardo Vilalta,“归纳迁移”, 机器学习与数据挖掘百科全书,Springer,2017 年。

10 Sinno Jialin Pan 和 Qiang Yang,“A Survey on Transfer Learning”,《IEEE Transactions on Knowledge and Data Engineering》,第 22 卷,第 10 期,第 1345-1359 页,https://ieeexplore.ieee.org/document/5288526

11 Sinno Jialin Pan 和 Qiang Yang,“A Survey on Transfer Learning”,《IEEE Transactions on Knowledge and Data Engineering》,第 22 卷,第 10 期,第 1345-1359 页,https://ieeexplore.ieee.org/document/5288526
Ian Goodfellow、Yoshua Bengio 和 Aaron Courville,《Deep Learning》,MIT Press,2016 年。

12 Qiang Yang, 迁移学习,剑桥大学出版社,2020 年。Eyal Ben-David、Carmel Rabinovitz 和 Roi Reichart,“PERL:预训练深度语境嵌入模型基于枢纽的域适应”, 计算语言学协会会刊,第 8 卷,2020 年,第 504-521 页, https://aclanthology.org/2020.tacl-1.33.pdf

13  Kaiming He、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun,“深度残差学习在图像识别中的应用”, IEEE 计算机视觉与模式识别会议 (CVPR),2016 年,第 770-778 页, https://ieeexplore.ieee.org/document/7780459

14  Minyoung Huh、Pulkit Agrawal 和 Alexei Efros,“是什么让 ImageNet 成为迁移学习的理想工具?”伯克利人工智能研究实验室 (BAIR),2017 年, https://people.csail.mit.edu/minhuh/papers/analysis/