我的 IBM

什么是 Transformer 模型？

Transformer 模型是于 2017 年推出的一种深度学习模型。这些模型已迅速成为自然语言处理 (NLP) 的基础模型，并已广泛应用于机器学习和人工智能领域的各种任务。

在 2017 年由 Ashish Vaswani、Google Brain 的团队以及来自多伦多大学的团体所共同发表的一篇名为《Attention is All You Need》的论文中，首次介绍了该模型。鉴于目前Transformer 已在训练 LLM 等应用中的广泛使用程度，此论文的发表即被视为该领域的一大分水岭。

这些模型可近乎实时地翻译文本和语音。例如，现在已有某些应用程序允许游客使用自己的主要语言在街上与当地人进行交流。它们有助于研究人员更好地了解 DNA 并加快药物设计。它们有助于检测异常情况，并防止出现金融与安全领域的欺诈行为。同样，视觉 Transformer 也被用于计算机视觉任务。

OpenAI 出品的流行 ChatGPT 文本生成工具利用 Transformer 架构进行预测、总结、问答等，因为此类架构可让该模型专注于输入文本中相关度最高的部分。该工具的各个版本中出现的“GPT”（例如 GPT-2、GPT-3）代表“生成式预训练 Transformer ”。ChatGPT 等基于文本的生成式 AI 工具可从 Transformer 模型中受益，因为此类工具可根据大型复杂数据集更轻松地预测文本序列中的下一个单词或字。

BERT 模型（即，来自 Transformer 的双向编码器表示）以 Transformer 架构作为基础。截至 2019 年，几乎所有采用英语的谷歌搜索结果均已使用 BERT，并已推广到其他 70 多种语言。¹

不同 Transformer 模型有何差异？

Transformer 模型的关键创新在于不必依赖循环神经网络 (RNN) 或卷积神经网络 (CNN)，因为这些神经网络方法存在重大缺陷。Transformer 可并行处理输入序列，因此在训练和推理方面效率极高，因为您无法通过增加 GPU 来加快处理速度。较之以前的循环神经网络架构（例如，长短期记忆 (LSTM)），Transformer 模型所需的训练时间更短。

RNN 和 LSTM 的历史可分别追溯到上世纪 20 年代和 90 年代。这些技术会按顺序计算输入的每个分量（即，逐字计算），因此计算用时可能很长。更为重要的是，当输入中各信息片段之间的“距离”很长时，这两种方法在保留上下文方面均存在局限性。

专家荟萃 | 播客

解码 AI：每周新闻摘要

加入我们的世界级专家团队，包括工程师、研究人员、产品负责人等，他们将穿透 AI 的喧嚣，为您带来最新的 AI 新闻和见解。

观看片段

两项重大创新

Transformer 模型具备两大创新点。例如，在预测文本的背景下审视这两项创新。

位置编码：不按每个单词或字在句子中出现的顺序进行编码，而是为每个单词或字分配一个唯一编号。此方法可提供有关序列中每个标记（即，输入的组成部分，例如 NLP 中的单词或子词片段）的位置的信息，以便该模型能考虑该序列的序列信息。
自注意力：注意力是一种机制，它可用于计算句子中每个单词或字的权重，因为这些单词或字与句子中的其他每个单词或字均相关，因此该模型可预测可能会依次使用的单词或字。随着时间的推移，这种理解便会随着模型通过大量数据进行训练而逐渐加深。自注意力机制允许每个单词或字同时关注序列中的其他每个单词或字，从而权衡它们对当前标记的重要性。如此一来，机器学习模型便可根据单词或字在语言中的典型使用方式的相关统计概率来“学习”语法规则。

Transformer 模型如何工作？

工作时，Transformer 模型会通过一系列包含自注意力机制和前馈神经网络的层来处理输入数据（可能为标记序列或其他结构化数据）。Transformer 模型工作原理背后的核心思想可分解为几个关键步骤。

假设您需要将一个英语句子转换成法语。使用 Transformer 模型完成此任务所需执行的步骤如下。

输入嵌入：首先，将输入句子转换为名为“嵌入”的数字表示。这些表示会捕捉输入序列中标记的语义。对于单词序列或字序列，这些嵌入则可在训练过程中进行学习，同时也可从预训练的单词嵌入或字嵌入中获取。
位置编码：位置编码通常会作为一组附加值或向量而引入，而这些附加值或向量会在将其馈送至 Transformer 模型之前先添加到标记嵌入中。这些位置编码具有可对位置信息进行编码的特定模式。
多头注意力：自注意力通过多个“注意力头”来工作，以便捕捉各标记之间不同类型的关系。Softmax 函数是一种激活函数，它们可用于计算自注意力机制中的注意力权重。
层归一化和残差连接：该模型使用层归一化和残差连接来稳定和加快训练。
前馈神经网络：自注意力层的输出会通过前馈层进行传递。这些网络会将非线性转换应用于标记表示，以便该模型能捕获数据中的复杂模式和关系。
堆叠层：Transformer 通常由多层相互叠加而形成。每一层均会处理前一层的输出，从而逐步完善这些表示。通过堆叠多个层，该 Transformer 模型便可捕获数据中的分层与抽象特征。
输出层：在序列到序列任务（如，神经机器翻译）中，可在编码器的基础上添加单独的解码器模块，以便生成输出序列。
训练：Transformer 模型会通过监督学习法进行训练，从而学习如何使损失函数最小化，而该函数可量化该模型的预测与给定任务的基本事实之间的差异。训练通常涉及 Adam 或随机梯度下降 (SGD) 等优化技术。
推理：训练后，该 Transformer 模型可用于对新数据进行推理。推理期间，输入序列会通过预训练模型进行传递，而该模型会为给定任务生成预测或表示。