什么是自监督学习？| IBM

发布日期：2023 年 12 月 5 日
撰稿人：Dave Bergmann

什么是自监督学习？

自监督学习是一种机器学习技术，使用无监督学习来完成通常需要监督学习的任务。自监督模型不依赖于监督信号的标记数据集，而是从非结构化数据生成隐式标签。

自监督学习 (SSL) 在计算机视觉和自然语言处理 (NLP) 等领域特别有用，因为这些领域需要大量标注数据来训练最先进的人工智能 (AI) 模型。由于这些标记数据集需要人类专家进行耗时的注释，因此收集足够的数据可能非常困难。自监督方法可以更省时，更具成本效益，因为它们取代了部分或全部需要手动标记训练数据的方法。

要训练深度学习模型以完成需要精度的任务，例如分类或回归，必须能够将模型对给定输入的输出预测与对该输入的“正确”预测（通常称为标准答案）进行比较。通常，手动标记的训练数据作为标准答案：因为这种方法需要直接的人工干预，所以称为“监督”学习。在自监督学习中，任务的设计使得可以从未标记的数据中推断出“标准答案”。

在 SSL 中，任务分为两类：假托任务和下游任务。 在假托任务中，SSL 用于训练 AI 系统来学习非结构化数据的有意义表示。这些已知表示随后可以用作下游任务的输入，例如监督学习任务或强化学习任务。在新任务上重用预训练的模型被称为“迁移学习”。

自监督学习用于训练各种复杂的深度学习架构，以执行各种任务，从 BERT 和 GPT 等基于 Transformer 的大型语言模型 (LLM) 到变分自编码器 (VAE) 和生成式对抗网络 (GAN) 等图像合成模型，再到 SimCLR 和动量对比 (MoCo) 等计算机视觉模型。

浏览 IBM® watsonx.ai

新一代企业级开发平台，专供 AI 构建器训练、验证、调整和部署 AI 模型。

相关内容

订阅 IBM 时事通讯

自监督学习、监督学习与无监督学习

尽管自监督学习在技术上是无监督学习的一个子集（因为它不需要标记数据集），但它与监督学习密切相关，因为它根据标准答案优化性能。

这种与传统机器学习范式的不完美契合导致了现在统称为“自监督学习”的各种技术有了自己的分类。

该术语的创造者通常被认为是 Yann LeCun，他是图灵奖得主计算机科学家，也是深度学习出现的关键人物，¹他宣称有必要消除 SSL 与真正的无监督学习（他称之为“既是繁琐又令人困惑的术语”）的歧义。 ²这一名称（和正式概念）可能起源于 Raina 等人 2007 年发表的一篇论文，题为“自主学习：基于无标签数据的迁移学习”³。一些机器学习框架现在认为 SSL 与自编码器一样，比该术语本身的存在早了很多年。

自监督学习与无监督学习

自监督学习是无监督学习的一个子集：所有自监督学习技巧都是无监督学习，但大多数无监督学习并不需要自我监督。

无监督学习和自监督学习在训练过程中都不使用标签：这两种方法都学习未标记数据中的内在相关性和模式，而不是从带注释的数据集中外部强加的相关性。除了对无标记数据的共同关注之外，自监督学习和无监督学习之间的差异在很大程度上反映了无监督学习和监督学习之间的差异。

使用传统无监督学习的问题不会根据任何预先已知的标准答案来衡量结果。例如，无监督关联模型可以通过了解哪些产品经常一起购买，为电子商务推荐引擎提供动力。该模型的实用性并非源于复制人类的预测，而是源于发现人类观察者不明显的相关性。

自我监督学习确实根据标准答案来衡量结果，尽管它隐式地源自未标记的训练数据。与监督模型一样，自监督模型使用损失函数进行优化：一种测量标准答案与模型预测之间的差异（“损失”）的算法。在训练期间，自监督模型在反向传播期间使用梯度下降来调整模型权重，从而最大限度地减少损失（从而提高准确性）。

在这一关键差异的驱动下，这两种方法专注于不同用例：无监督模型用于不需要损失函数的聚类、异常检测和降维等任务，而自监督模型用于典型监督学习的分类和回归任务。

自监督学习与监督学习

虽然监督学习和自监督学习主要用于相同类型的任务，并且都需要标准答案通过损失函数优化性能，但自监督模型在未标记数据上进行训练，而监督学习则需要标记数据集进行训练。

标记数据集在模型训练中非常有效：注释训练数据允许模型直接学习这些注释所反映的关键特征和相关性。通过在训练期间最小化模型预测与人类专家手动注释的“预测”之间的差异，监督模型学会对新的（未标记的）输入数据做出正确推断。

尽管最先进的监督方法具有很高的准确性，但注释大量的训练往往是研究过程中的瓶颈。例如，在需要特定像素预测的实例分割等计算机视觉任务中，注释训练数据必须在像素级别上完成。这既昂贵又耗时，限制了可用的训练数据量以及大多数企业和研究人员获取这些数据的能力。

相比之下，自监督模型使用各种技术从输入数据本身的结构中获取监督信号，完全摒弃标记。例如，通过随机隐藏（或“屏蔽”）句子的部分内容，并使用原始（未标记的）句子作为标准答案，让自监督模型预测隐藏的单词。

自监督学习与半监督学习

与不涉及人类标记数据的自监督学习不同，半监督学习同时使用标记和未标记数据来训练模型。例如，半监督模型可能使用少量标记数据点来推断其余未标记训练数据集的标签，然后继续使用整个数据集进行监督学习。尽管它们的动机相似，但由于两种方法都规避了监督学习对大型标记数据集的需求，因此它们各自的方法是不同的。

自监督学习如何运作？

自监督学习任务旨在使得损失函数可以使用未标记的输入数据作为标准答案。这使得模型能够在没有标记或注释的情况下学习输入数据的准确、有意义的表示。

自监督学习的目标是最大限度地减少或完全取代对标记数据的需求。标记数据相对稀缺且昂贵，而无标记数据则丰富且相对便宜。本质上，假托任务从未标记数据中产生“伪标签”。“假托”一词意味着训练任务本身并没有（不一定）有用：它之所以有用，仅仅是因为它向模型传授了对后续下游任务有用的数据表示。因此，假托任务通常也被称为表示学习。

使用 SSL 预训练的模型通常会针对其特定的下游任务进行微调：这种微调通常涉及真正的监督学习（尽管仅使用监督学习训练模型所需的一小部分标记数据）。

尽管 SSL 的学科在方法和用例方面各不相同，但使用 SSL 训练的模型使用两种机器学习技术中的一种（或两种）：自预测学习和对比学习。

自预测学习

自预测方法也称为自动关联自监督学习，它训练模型，根据有关其他部分的信息来预测单个数据样本的一部分。使用这些方法训练的模型通常是生成式模型，而不是判别模型。

Yann LeCun 将自监督方法描述为一种“填空”的结构化实践。从广义上讲，他用简单的术语描述了从未标记数据的底层结构中学习有意义表示的过程：“假装输入中有一部分你不知道并预测出来。” ⁴例如：

从任何其他部分预测输入的任何部分
从过去预测未来
从可见区域预测屏蔽区域
从所有可用部分预测任何屏蔽部分

基于这些理念构建的自监督系统通常采用某些模型架构和训练技术。

自编码器
自编码器是一种经过训练的神经网络，可以压缩（或编码）输入数据，然后使用压缩表示重建（或解码）原始输入数据。他们经过训练，使用原始输入本身作为标准答案来最大限度地减少重建错误。

尽管自编码器架构各不相同，但它们通常会引入某种形式的瓶颈：当数据通过编码器网络时，每层的数据容量逐渐降低。这迫使网络只学习隐藏在输入数据中的最重要模式（称为潜在变量或潜在空间），因此，尽管现在信息较少，但解码器网络仍可以准确地重建原始输入。

对此基本框架的修改使自编码器能够学习有用的特征或函数。

去噪自编码器将部分损坏的数据作为输入，并通过训练，删除无用信息，从而恢复原始输入。这就减少了过度拟合，使此类模型在恢复损坏的输入图像和音频数据等任务中大显身手。
虽然大多数自编码器对潜在空间的离散模型进行编码，但变分自编码器(VAE) 学习潜在空间的连续模型：通过将输入数据的潜在表示编码为概率分布，解码器可以通过从该分布中采样随机向量来生成新数据。

自回归
自回归模型利用过去的行为来预测未来的行为。他们的工作逻辑是，任何具有固有顺序的数据（如语言、音频或视频）都可以通过回归进行建模。

自回归算法对时间序列数据进行建模，使用前一个时间步长的值来预测后一个时间步长的值。而在传统回归算法中，如用于线性回归的算法，自变量用于预测目标值（或因变量），在自回归中，自变量和因变量本质上是相同的：这称为自回归，因为回归是对变量本身执行的。

自回归主要用于因果语言模型，例如 LLM 的 GPT、LLaMa 和 Claude 系列，这些模型擅长文本生成和问答等任务。在预训练中，为语言模型提供从未标记的训练数据中提取的示例句子的开头，并负责预测下一个单词，并将示例句子的“实际”下一个单词作为标准答案。

屏蔽
另一种自监督学习方法包括屏蔽未标记数据样本的某些部分，并为模型分配预测或重建缺失信息的任务。损失函数使用原始（预屏蔽）输入作为标准答案。例如，屏蔽自编码器就像去噪音频编码器的反向：它们学会预测和恢复缺失的信息，而不是移除无关信息。

屏蔽也用于训练屏蔽语言模型：从样本句子中省略随机词语，然后训练模型来填补这些词语。虽然像 BERT 这样的屏蔽语言模型（以及许多基于其架构的模型，如 BART 和 RoBERTa）在文本生成方面往往不如自回归模型，但它们具有双向性的优势：它们不仅可以预测下一个单词，还可以预测前一个单词或序列中后面出现的单词。这使它们非常适合翻译、摘要和搜索等需要较强语境理解能力的任务。

固有关系预测
固有关系预测训练模型以在数据样本以某种方式转换后保持其对数据样本的理解。例如，旋转输入图像，并要求模型预测相对于原始输入图像的旋转变化程度和方向^。

对比学习

对比自监督学习方法为模型提供多个数据样本，并要求它们预测这些样本之间的关系。使用这些方法训练的模型通常是判别模型，而不是生成式模型。

对比模型通常使用数据-数据对进行训练，而自动关联模型则使用数据-标签对（其中标记由数据自行生成）进行训练。利用这些数据-数据对，对比方法可以训练模型来区分相似和不相似的事物。

这些配对通常通过数据增强创建：对未标记的数据应用不同类型的转换或干扰，以创建新的实例或增强视图。例如，常见的图像数据增强技术包括旋转、随机裁剪、翻转、噪点、滤波和着色。数据增强增加了数据的可变性，并将模型暴露给不同的视角，这有助于确保模型学习捕获有意义的动态语义表示。

实例歧视
基于实例识别的模型将训练框架为一系列二进制分类任务：使用一个数据样本作为目标（或“锚点”），其他数据样本被确定为“正面”（匹配）或“负面”（不匹配）。

在计算机视觉中，此类方法（例如 SimCLR 或 MoCo）通常从一批未标记的原始图像开始，并应用随机的变换组合来生成增强图像样本对（或集）。然后，将这些增强图像中的每一个编码成向量表示，并使用对比损失函数来最小化正匹配（源自同一原始图像的增强图像对）之间向量表示的差异，并最大化负匹配之间的差异。

因此，实例识别方法可以训练模型学习不同类别的表示，由于随机数据增强，这些表示可以抵御微小变化（例如特定图像中的颜色、透视或可见部分）。因此，这些表示可以很好地推广到下游任务。

非对比学习
有点违背直觉的是，“非对比学习”是指与对比学习密切相关的方法（而不是像人们可能猜测的那样，是对非对比学习方法的笼统概括）。模型只使用正对进行训练，学习如何最大限度地减少它们之间的差异，因此是非对比性的。

与对比学习相比，非对比方法相对简单：因为它们仅对正样本进行操作，所以它们使用较小的批量大小来进行训练周期，并且不需要存储库来存储负样本。这样可以节省预训练期间的内存和计算成本。

非对比模型，例如 Bootstrapping Your Own Latent (BYOL) ⁶和 Barlow Twins⁷ 取得了与对比和纯监督结果相争用的结果。

多模态学习
给定不同类型（模态）的数据点，对比方法可以学习这些模态之间的映射。例如，对比语言-图像预训练 (CLIP) 联合训练图像编码器和文本编码器，使用从互联网收集的数百万个现成的未标记（图像、文本）配对来预测哪个标题与哪个图像对应。预训练后，自然语言处理 (NLP) 用于参考训练中的视觉概念学习（甚至描述新的视觉概念），使得 CLIP 训练的模型对于各种迁移学习应用非常有用。

对比学习还用于学习视频和文本、⁸ 视频和音频、⁹以及语音和文本之间的对齐方式。¹⁰

自监督学习用例

自监督学习已用于为各种任务和学科预训练人工智能模型。

NLP 的自监督学习

自 2018 年推出以来的一年内，谷歌实施了 BERT 屏蔽语言模型作为 NLP 引擎，用于搜索中的排名和特色片段。¹¹截至 2023 年，谷歌继续使用 BERT 架构为其实际的搜索应用程序提供支持。¹²

LLM 的 LLaMa、GPT 和 Claude 系列是自回归语言模型。GPT3 主要通过自监督学习进行训练；InstructGPT 以及随后用于启动 ChatGPT 的 GPT-3.5 模型，则通过基于人类反馈的强化学习 (RLHF) 对预训练模型进行了微调。

自回归模型还用于基于音频的 NLP 任务，例如语音转文本，以及文本转语音模型（例如 WaveNet）。¹³ Facebook (Meta) 使用 wav2vec 进行语音识别，使用两个堆叠在一起的深度卷积神经网络将原始音频输入映射到向量表示。在自监督预训练中，这些向量用作自预测任务的输入。¹⁴

计算机视觉的自监督学习

自监督学习是用于医学成像的深度学习技术的一个快速增长的子集，而专业注释的图像相对稀缺。从 2019 年到 2021 年，在 PubMed、Scopus 和 ArXiv 中，提及使用 SSL 进行医学图像分类的出版物增加了 1,000% 以上^。15

基于 SSL 的方法通常可以匹配或超过使用完全监督方法训练的模型的准确性。例如，原始 MoCo 在 PASCAL、VOC 和 COCO 数据集上的七个对象检测和图像分割任务中优于监督模型。¹⁶当仅使用所有训练数据的 1% 的标记数据进行微调时，使用 SSL 预训练的模型在 ImageNet 数据集上的准确率已超过 80%。这与 ResNet50 等基准监督学习模型的性能不相上下。

尽管对象方向发生变化，但仍能保持成功的对象检测和图像分割对于许多机器人任务至关重要。有人提出，自监督学习是一种训练计算机视觉模型以理解旋转的有效方法，无需花费大量时间收集标记数据。^{17 18}

屏蔽已被用于训练模型以理解视频中的运动轨迹。¹⁹

图像处理和图像合成的自监督学习

去噪自编码器是训练一些最先进的图像合成模型（例如稳定扩散）的重要组成部分。²⁰

自回归建模已用于 PixelRNN 和 PixelCNN 等模型中的图像合成。PixelCNN 的成功使其成为 WaveNet 的基础。

卷积自编码器用于各种图像处理任务，例如灰度图像的修复和着色。

变分自编码器 (VAE) 是图像合成中的重要工具。OpenAI 的原始 DALL-E 模型使用 VAE 来生成图像。在将自然语言提示转换为视觉信息的过程中，DALL-E 1 和 DALL-E 2 都使用 CLIP。²¹

脚注

所有链接均为 ibm.com 外部链接

¹ “深度学习革命之父荣获 ACM AM 图灵奖”，计算机协会，2019 年 3 月 27 日
² Facebook，Yann LeCun，2019 年 4 月 30 日
³ “自主学习：基于无标签数据的迁移学习”，第 24 届机器学习国际会议记录，2007 年 6 月 20 日
⁴讲座：基于能量的模型和自监督学习，优酷，2020 年上传
⁵ “通过移动学会观察”，arXiv，2015 年 9 月 14 日
⁶ “Bootstrap Your Own Latent：自监督学习的新方法”，arXiv，2020 年 9 月 10 日
⁷ “Barlow Twins：VIA 减少冗余进行自监督学习”，arXiv，2021 年 6 月 14 日
⁸ “VideoCLIP：零镜头视频文本理解的对比预训练”，arXiv，2021 年 10 月 1 日⁹ “视听视频表示的主动对比学习”，学习表示国际会议论文集，2021 年
¹⁰ “演讲翻译的跨模态对比学习”，arXiv，2022 年 5 月 5 日
¹¹ “比以往更好地理解搜索”，谷歌，2019 年 10 月 25 日
¹² “端到端查询术语权重”，谷歌，2023 年¹³ “WaveNet：原始音频生成模型”，arXiv，2016 年 9 月 19 日
¹⁴ “Wave2vec：通过自监督实现最先进的语音识别”，Meta，2019 年 9 月 19 日
¹⁵ “医学图像分类的自监督学习：系统回顾和实施指南”，《自然》，2023 年 4 月 26 日
¹⁶ “无监督视觉表示学习的动量对比”，arXiv，2019 年 11 月 13 日（最后修订日：2020 年 3 月 23 日） ¹⁷ “通过相对监督进行深度投影旋转估计”，arXiv，2022 年 11 月 21 日
¹⁸ “使用旋转变换的自监督学习定向新式 3D 对象”，arXiv，2021 年 5 月 29 日
¹⁹ “用于自监督视频表示学习的屏蔽运动编码”，计算机视觉基金会，2022 年 10 月
²⁰ “采用潜在扩散模型的高分辨率图像合成”， arXiv，2021 年 12 月 20 日（最后修订日：2022 年 4 月 13 日）
²¹ “DALL-E：从文本创建图像”，OpenAI，2021 年 1 月 5 日