元学习(也称为“学会学习”)是机器学习的一个子类别,它可用于训练人工智能 (AI) 模型以自行理解和适应新的任务。元学习的主要目标是为机器提供有关学习方法的技能。
元学习包括两个关键阶段:元训练和元测试。针对这两个阶段,基础学习器模型在学习过程中会调整和更新其参数。使用的数据集分为用于元训练的支持集和用于元测试的测试集。
在元训练阶段,基础学习器模型提供了一系列任务。该模型的目标是发现这些任务中的共同模式,并获取可用于解决新任务的广泛知识。
在元测试阶段,通过向基础学习模型布置它在训练时没有遇到过的任务,来评估它的性能。衡量模型有效性的标准,是它利用所学知识和普遍理解力适应新任务的能力和速度。
元学习有三种典型方法。以下是每种方法的工作原理及其不同类型:
基于指标的元学习以学习特定函数(用于计算距离指标)为中心;具体而言,该计算是指测量两个数据点之间的相似度。此方法类似于 k-最近邻 (KNN) 算法,而该算法会使用接近度进行分类或预测。
匹配网络可通过测量两个样本之间名为余弦相似度的距离指标来学习如何预测分类。2
关系网络学习深度非线性距离度量来比较项目。该网络通过计算关系分数对项目进行分类,该分数表示项目之间的相似性。3
原型网络计算类的所有样本的平均值,以便为该类创建原型。然后,该网络学习一个度量空间,通过计算特定数据点与类的原型表示之间的欧几里德距离的平方来完成分类任务。4
基于模型的元学习涉及学习模型的参数,这可以推动从稀疏数据中快速学习。
记忆增强神经网络 (MANN) 配备外部记忆模块,可实现稳定存储以及快速编码和检索信息。5
在元学习中,可通过训练 MANN 来学习存储在外部内存中的表示类型的通用技术,以及使用这些表示进行预测的方法。经证明,MANN 在回归和分类任务中表现良好。5
MetaNet(元网络的缩写)是一种元学习模型,它可应用于模仿学习和强化学习。与 MANN 一样,元网络也有外部存储器。6
MetaNet 由在不同空间级别工作的基础学习器和元学习器组成。元学习器在元空间内的不同任务中获取一般知识。基础学习器接受输入任务,并将有关当前任务空间的元信息发送给元学习器。根据这些信息,元学习器进行快速参数化,以更新两个空间内的权重。6
这种基于优化的元学习方法采用一种流行的循环神经网络架构(名为长短期记忆 (LSTM) 网络),训练元学习器以获取任务间共享的长期知识和每个任务的短期知识。然后,元学习器会优化另一个学习器神经网络分类器。它学习学习者参数的初始化,以实现快速训练收敛,并学习如何在训练集较小的情况下有效地更新这些参数,帮助学习者快速适应新任务。7
顾名思义,这种基于优化的元学习算法与模型无关。这使得它与任何使用梯度下降法训练的模型兼容,并适用于解决分类、回归和强化学习等各种学习问题。8
MAML 背后的核心思想是训练模型的初始参数,具体方法则是通过几次梯度更新来快速学习新任务。其目标是确定对任务变化敏感的模型参数,以使这些参数的微小更改即可实现对该任务的损失函数的重大改进。跨任务的元优化是通过随机梯度下降法 (SGD) 实现的。8
与计算导数以优化特定任务的模型参数的梯度下降不同,MAML 计算二阶导数以优化模型的初始参数,从而实现特定任务的优化。一阶 MAML 或 FOMAML 是模型无关元学习的改进版,省略了二阶导数,从而降低了计算成本。
Reptile 是一种类似于 FOMAML 的基于一阶梯度的元学习算法。它对任务重复采样,通过多个梯度下降步骤针对该任务进行训练,并将模型权重移向新的参数。9
为了进一步展示元学习的多功能性,以下是元学习在机器学习领域的几种应用方式:
自动化机器学习 (AutoML) 支持机器学习管道中的任务自动化。元学习技术非常适合 AutoML,尤其是在超参数优化和模型选择方面。
机器学习模型的微调超参数通常是手动完成的。元学习算法可以通过学习如何优化超参数或确定某项任务的理想超参数来帮助实现这一过程的自动化。
元学习算法还可学习如何选择最合适的模型(甚至还包括该模型的参数和架构),以处理特定任务。此特性有助于实现模型选择流程的自动化。
小样本学习是一种利用少量示例来训练 AI 模型的机器学习框架。大多数小样本学习方法都是围绕元学习构建的,其中模型可以在给定稀缺训练数据的情况下适应新任务。
推荐引擎依靠机器学习算法来查找用户行为数据中的模式,并根据这些模式来推荐相关项目。元学习系统可学习推荐模型,以便生成更准确、更相关的建议,从而提升用户体验的个性化。
元学习有助于促进迁移学习,迁移学习可以调整预训练模型以学习新任务或以前未见过的数据类别。
元学习可以应用于科技行业的不同领域,其中一些包括:
元学习可以帮助机器人快速学习新任务,适应动态环境。它可应用于抓取、导航、操纵和移动等多项任务。11
元学习具有很大潜力。它的部分优势如下:
元学习可用于构建更通用的 AI 模型,而此类模型可学习如何执行多个相关任务。凭借此灵活性,元学习系统可快速适应新任务和不同领域。
元学习支持从几个样本开始进行学习,从而可能会消除对大量数据集的需求。此特性对于收集和准备数据可能需投入大量劳动且十分耗时的领域尤其有用。
元学习具有数据效率高和学习速度快的特点,因此可以加快培训过程,降低培训成本。
尽管元学习前景广阔,但它也带来了挑战。以下是其中部分挑战:
有时,用于训练 AI 模型的数据量会出现不足,尤其是针对利基领域。或者,有充足数据可用,但其质量可能不足以有效训练元学习算法。
元训练的支持集中的任务之间没有足够的可变性可能会导致过拟合。这意味着元学习算法可能仅适用于特定任务,而无法有效推广到广泛的任务范围。
相反,元训练的支持集中的任务之间的可变性太多可能会导致欠拟合。这意味着元学习算法可能无法使用其知识来解决另一项任务,并且可能难以适应新的场景。因此,平衡任务的可变性是关键。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1“SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification”,arXiv,2017 年 9 月 30 日。
2“Matching Networks for One Shot Learning”,arXiv,2017 年 12 月 29 日。
3“Learning to Compare: Relation Network for Few-Shot Learning”arXiv,2018 年 3 月 27 日。
4“Prototypical Networks for Few-shot Learning”,arXiv,2017 年 6 月 19 日。
5“Meta-Learning with Memory-Augmented Neural Networks”,Proceedings of the 33rd International Conference on Machine Learning,2016 年 6 月 19 日。
6“Meta Networks”,arXiv,2017 年 6 月 8 日。
7“Optimization as a Model for Few-Shot Learning”,OpenReview,2022 年 7 月 22 日。
8“Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”,arXiv,2017 年 7 月 18 日。
9“On First-Order Meta-Learning Algorithms”,arXiv,2018 年 10 月 22 日。
10“Meta Learning for Natural Language Processing: A Survey”,arXiv,2022 年 7 月 2 日。
11“Rapidly Adaptable Legged Robots via Evolutionary Meta-Learning”,arXiv,2020 年 7 月 30 日。