什么是元学习?

喜欢坐在咖啡店使用笔记本电脑在线工作的女性

作者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是元学习?

元学习(也称为“学会学习”)是机器学习的一个子类别,它可用于训练人工智能 (AI) 模型以自行理解和适应新的任务。元学习的主要目标是为机器提供有关学习方法的技能。

传统的监督式学习通过使用已定义的训练数据集训练模型来解决特定任务,与之不同,元学习过程需要各种任务,每个任务都有自己的关联数据集。从这些多学习事件中,模型获得了跨任务概括的能力,使其即使在数据很少的情况下也能迅速适应新场景。

元学习算法是根据其他机器学习算法的预测和元数据进行训练的。然后,元学习算法会生成自己的预测和信息,这些信息可用来提高其他机器学习算法的性能和结果。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

元学习的工作原理

元学习包括两个关键阶段:元训练和元测试。针对这两个阶段,基础学习器模型在学习过程中会调整和更新其参数。使用的数据集分为用于元训练的支持集和用于元测试的测试集。

元训练

在元训练阶段,基础学习器模型提供了一系列任务。该模型的目标是发现这些任务中的共同模式,并获取可用于解决新任务的广泛知识。

元测试

在元测试阶段,通过向基础学习模型布置它在训练时没有遇到过的任务,来评估它的性能。衡量模型有效性的标准,是它利用所学知识和普遍理解力适应新任务的能力和速度。

常见的元学习方法

元学习有三种典型方法。以下是每种方法的工作原理及其不同类型:

基于度量的元学习

基于指标的元学习以学习特定函数(用于计算距离指标)为中心;具体而言,该计算是指测量两个数据点之间的相似度。此方法类似于 k-最近邻 (KNN) 算法,而该算法会使用接近度进行分类或预测。

卷积孪生神经网络

卷积连体神经网络由共享参数和权重的相同孪生卷积神经网络组成。参数更新会在两个网络之间进行镜像。这两个网络通过计算距离度量(通常是成对相似度)的损失函数连接起来。1

训练数据集由匹配和不匹配的样本对组成。然后,卷积孪生神经网络学习计算成对相似性,最大化不匹配或不相似样本对之间的欧几里德距离,最小化匹配或相似样本对之间的距离。1

匹配网络

匹配网络可通过测量两个样本之间名为余弦相似度的距离指标来学习如何预测分类。2

关系网络

关系网络学习深度非线性距离度量来比较项目。该网络通过计算关系分数对项目进行分类,该分数表示项目之间的相似性。3

原型网络

原型网络计算类的所有样本的平均值,以便为该类创建原型。然后,该网络学习一个度量空间,通过计算特定数据点与类的原型表示之间的欧几里德距离的平方来完成分类任务。4

基于模型的元学习

基于模型的元学习涉及学习模型的参数,这可以推动从稀疏数据中快速学习。

记忆增强神经网络

记忆增强神经网络 (MANN) 配备外部记忆模块,可实现稳定存储以及快速编码和检索信息。5

在元学习中,可通过训练 MANN 来学习存储在外部内存中的表示类型的通用技术,以及使用这些表示进行预测的方法。经证明,MANN 在回归和分类任务中表现良好。5

元网络

MetaNet(元网络的缩写)是一种元学习模型,它可应用于模仿学习和强化学习。与 MANN 一样,元网络也有外部存储器。6

MetaNet 由在不同空间级别工作的基础学习器和元学习器组成。元学习器在元空间内的不同任务中获取一般知识。基础学习器接受输入任务,并将有关当前任务空间的元信息发送给元学习器。根据这些信息,元学习器进行快速参数化,以更新两个空间内的权重。6

基于优化的元学习

深度学习通常需要通过反向传播和梯度下降优化算法对模型参数进行多次迭代更新。在基于优化的元学习(有时称为基于梯度的元学习)中,算法会学习哪些初始模型参数或深度神经网络的超参数可以针对相关任务进行有效微调。这通常意味着元优化,即优化算法本身。

LSTM 元学习器

这种基于优化的元学习方法采用一种流行的循环神经网络架构(名为长短期记忆 (LSTM) 网络),训练元学习器以获取任务间共享的长期知识和每个任务的短期知识。然后,元学习器会优化另一个学习器神经网络分类器。它学习学习者参数的初始化,以实现快速训练收敛,并学习如何在训练集较小的情况下有效地更新这些参数,帮助学习者快速适应新任务。7

模型无关元学习 (MAML)

顾名思义,这种基于优化的元学习算法与模型无关。这使得它与任何使用梯度下降法训练的模型兼容,并适用于解决分类、回归和强化学习等各种学习问题。8

MAML 背后的核心思想是训练模型的初始参数,具体方法则是通过几次梯度更新来快速学习新任务。其目标是确定对任务变化敏感的模型参数,以使这些参数的微小更改即可实现对该任务的损失函数的重大改进。跨任务的元优化是通过随机梯度下降法 (SGD) 实现的。8

与计算导数以优化特定任务的模型参数的梯度下降不同,MAML 计算二阶导数以优化模型的初始参数,从而实现特定任务的优化。一阶 MAML 或 FOMAML 是模型无关元学习的改进版,省略了二阶导数,从而降低了计算成本

Reptile

Reptile 是一种类似于 FOMAML 的基于一阶梯度的元学习算法。它对任务重复采样,通过多个梯度下降步骤针对该任务进行训练,并将模型权重移向新的参数。9

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

机器学习领域的元学习用例

为了进一步展示元学习的多功能性,以下是元学习在机器学习领域的几种应用方式:

自动化机器学习 (AutoML)

自动化机器学习 (AutoML) 支持机器学习管道中的任务自动化。元学习技术非常适合 AutoML,尤其是在超参数优化和模型选择方面。

机器学习模型的微调超参数通常是手动完成的。元学习算法可以通过学习如何优化超参数或确定某项任务的理想超参数来帮助实现这一过程的自动化。

元学习算法还可学习如何选择最合适的模型(甚至还包括该模型的参数和架构),以处理特定任务。此特性有助于实现模型选择流程的自动化。

少样本学习

小样本学习是一种利用少量示例来训练 AI 模型的机器学习框架。大多数小样本学习方法都是围绕元学习构建的,其中模型可以在给定稀缺训练数据的情况下适应新任务。

推荐引擎

推荐引擎依靠机器学习算法来查找用户行为数据中的模式,并根据这些模式来推荐相关项目。元学习系统可学习推荐模型,以便生成更准确、更相关的建议,从而提升用户体验的个性化。

迁移学习

元学习有助于促进迁移学习,迁移学习可以调整预训练模型以学习新任务或以前未见过的数据类别。

元学习的应用

元学习可以应用于科技行业的不同领域,其中一些包括:

计算机视觉

元学习可用于计算机视觉任务,包括面部识别、图像分类、图像分割、对象检测和对象跟踪。

自然语言处理

元学习可用于自然语言处理任务,例如语言建模、情感分类、语音识别和文本分类。10

机器人

元学习可以帮助机器人快速学习新任务,适应动态环境。它可应用于抓取、导航、操纵和移动等多项任务。11

元学习的优势

元学习具有很大潜力。它的部分优势如下:

适应性

元学习可用于构建更通用的 AI 模型,而此类模型可学习如何执行多个相关任务。凭借此灵活性,元学习系统可快速适应新任务和不同领域。

有效利用数据

元学习支持从几个样本开始进行学习,从而可能会消除对大量数据集的需求。此特性对于收集和准备数据可能需投入大量劳动且十分耗时的领域尤其有用。

缩短训练时间并降低训练成本

元学习具有数据效率高和学习速度快的特点,因此可以加快培训过程,降低培训成本。

元学习的挑战

尽管元学习前景广阔,但它也带来了挑战。以下是其中部分挑战:

缺乏数据

有时,用于训练 AI 模型的数据量会出现不足,尤其是针对利基领域。或者,有充足数据可用,但其质量可能不足以有效训练元学习算法。

过拟合

元训练的支持集中的任务之间没有足够的可变性可能会导致过拟合。这意味着元学习算法可能仅适用于特定任务,而无法有效推广到广泛的任务范围。

欠拟合

相反,元训练的支持集中的任务之间的可变性太多可能会导致欠拟合。这意味着元学习算法可能无法使用其知识来解决另一项任务,并且可能难以适应新的场景。因此,平衡任务的可变性是关键。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification”,arXiv,2017 年 9 月 30 日。

2Matching Networks for One Shot Learning”,arXiv,2017 年 12 月 29 日。

3Learning to Compare: Relation Network for Few-Shot Learning”arXiv,2018 年 3 月 27 日。

4Prototypical Networks for Few-shot Learning”,arXiv,2017 年 6 月 19 日。

5Meta-Learning with Memory-Augmented Neural Networks”,Proceedings of the 33rd International Conference on Machine Learning,2016 年 6 月 19 日。

6Meta Networks”,arXiv,2017 年 6 月 8 日。

7Optimization as a Model for Few-Shot Learning”,OpenReview,2022 年 7 月 22 日。

8Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”,arXiv,2017 年 7 月 18 日。

9On First-Order Meta-Learning Algorithms”,arXiv,2018 年 10 月 22 日。

10Meta Learning for Natural Language Processing: A Survey”,arXiv,2022 年 7 月 2 日。

11Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning”,arXiv,2020 年 7 月 30 日。