什么是自注意力?

蓝色背景上红色点状线条的抽象插图

作者

Vanna Winland

AI Advocate & Technology Writer

什么是自注意力?

自我注意力是机器学习模型中使用的一种注意力机制。该机制通过评估输入序列中各 token 或词汇的重要性,从而更精准地捕捉元素间的内在关联。其是 Transformer 模型的核心组件,这一强大的人工智能架构对自然语言处理任务至关重要,且已成为多数现代大语言模型的基础。

自注意力机制是随着研究者提出的 Transformer 神经网络架构而问世的。该架构旨在解决使用卷积神经网络 (CNN) 和循环神经网络 (RNN) 的传统机器学习模型所存在的挑战。 1

传统序列模型虽与Transformer 模型共享编码器-解码器架构,但其采用逐步处理或序列到序列的数据处理方式。这种运作机制对并行化计算构成挑战——并行化本可通过同步计算输入序列各部分的注意力权重,有效缩减运算时间并提升输出生成效率。

通过实现训练样本内的并行化处理,自注意力对大语言模型的发展起到了关键推动作用。这种方法的价值在于:序列越长,内存限制对跨训练样本批处理的约束就越显著。借助自注意力技术,大语言模型的训练数据可被拆分为多个批次,并在多个GPU上并行处理。1 通过这种高效的并行批处理,自注意力有效降低了训练机器学习模型所需的计算资源消耗。

自注意力机制不仅有助于高效分配计算负载,还实现了同步处理注意力权重的能力。该能力使模型能够聚焦于输入序列的相关部分,动态预测序列中每个元素的重要性。自注意力机制非常适用于机器翻译、情感分析和文本摘要等 NLP 任务。

自注意力如何工作?

机器学习模型中的自注意力机制与人类行为概念类似,两者都涉及在更大的背景下关注相关元素,以准确处理信息。在心理学中,它是关于关注自己的想法或行为;而在深度学习中,它是关于关注输入序列的相关部分。

Transformer 架构包含集成注意力过程的自注意力层,其步骤遵循 Ashish Vaswani 等人发表论文《Attention is All You Need》中对自注意力层的阐述。

嵌入输入序列

输入序列是被向量化为嵌入表示的一系列数据点,即机器学习算法可处理的数值化表征,用于计算生成输出序列所需的注意力分数。

在机器翻译场景中,一个句子可视为输入序列,其中每个组成部分都是数据点或输入 token。这些 token 被转换为嵌入表示,作为模型可处理的语义单元。2嵌入向量用于计算注意力权重,帮助模型对最相关的输入数据进行优先级处理或给予优先关注。

生成注意力机制向量

模型利用这些嵌入向量为每个 token 生成三个关键向量:查询向量(Q)、键向量(K)和值向量(V)。这些向量将协助模型在输入句子中建立最强的语义匹配。

通过矩阵乘法运算获取查询、键和值向量后,注意力机制将基于各组件的权重矩阵和嵌入输入,计算值的加权和,1该过程称为线性变换。

计算注意力分数

嵌入转换完成后,系统会计算序列中每个元素的注意力分数。这些分数通过查询向量与键向量的缩放点积获得,其数值表征特定 token 应对序列中其他 token 赋予的关注程度。

随后,注意力分数按关键向量维度的平方根进行缩放。此过程有助于稳定梯度,并防止梯度随着向量维数的增加而变得太大而无法有效计算。

将注意力分数转换为概率

通过查询向量与键向量点积获得的注意力分数,将经由 softmax 函数转化为概率分布,这个过程称为归一化。

借助归一化概率,softmax 注意力模块使 Transformer 架构具备在输出生成过程中评估单个输入元素重要性的能力。 3这些概率用于确定序列中各元素的相对重要性,注意力模型据此决定应聚焦输入的哪些部分。

最终,通过此过程生成的注意力权重,将参与计算值向量的最终加权和。注意力分数越高,序列所获得的注意力权重就越大,这意味着该部分将对值向量加权求和的最终结果产生更重要的影响。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

注意力模型可增强语境理解能力

注意力模型能有效捕捉长距离依赖关系,无论序列元素(token)间距多远。多头注意力作为自我注意力的重要扩展,通过同步关注输入数据集中的不同元素来增强这一基本功能,使模型能同时捕捉数据中的多样化特征或关联,从而在依赖项或 token 间建立更丰富的上下文联系。

早期的双向模型,例如来自 Transformer 的双向编码器表示( BERT),通过允许模型同时考虑前向和后向序列信息,提高了对上下文的理解能力。在双向注意力机制中,模型旨在根据词汇的上下文来理解其含义。4

GPT 模型普及了自注意力的应用,凸显了扩展上下文窗口对生成式任务的增益。单次处理更多信息可带来准确性与理解力的双重提升。

人工智能模型运用自注意力机制高效处理长输入序列,在扩大注意力信息交换规模的同时降低内存占用。5 通过利用模型内部的上下文窗口,自注意力使模型获得更深层的语境理解能力。上下文窗口的尺寸直接决定了模型单次可关注的 token 数量上限。

用例

自然语言处理任务:自注意力机制通过支持对整段文本进行高效、完整的分析,显著增强了机器学习模型的语言处理能力。研究已在情感分类任务中取得显著进展。。6模型能出色完成各类 NLP 任务,关键在于注意力层能够计算词汇间的关联性,且不受其相对距离影响。7

计算机视觉:自注意力机制并非 NLP 专属技术,它同样可应用于聚焦图像的特定区域。图像识别模型的发展表明,自注意力机制是提高模型鲁棒性和泛化能力的关键组件8

脚注

1. 《 Attention Is All You Need》,Ashish Vaswani 等,第 31 届神经信息处理系统国际会议论文集,arXiv:1706.03762v7,2023 年 8 月 2 日修订。

2. “token 化”,论文,载于《信息检索导论》,Christopher Manning、Prabhakar Raghavan 和 Hinrich Schutze,2008 年。

3. 《 重新思考 Softmax:基于多项式激活的自注意力 》,Hemanth Saratchandran 等,阿德莱德大学澳大利亚机器学习研究所,arXiv:2410.18613v1,2024 年 10 月 4 日。

4. 《BERT:用于语言理解的深度双向 Transformer 预训练》,Jacob Devlin 等,arXiv:1810.04805v2,2019 年 5 月 24 日修订。

5. 《 搜索和学习的扩展:基于强化学习视角复现 o1 的路线图》 ,Zhiyuan Zeng 等,arXiv:2412.14135,2024 年 12 月 18 日。

6. 《 融合自注意力机制与多通道特征的双向 LSTM 情感分类模型 》, Weijiang Li 等,《Neurocomputing》第 387 卷,2020 年 4 月 28 日。

7. 《 并行调度自我注意力机制:泛化与优化》 ,Mingfei Yu 与 Masahiro Fujita, arxiv: 2012.01114v1,2020 年 12 月 2 日。

8. 《深入了解自注意力在图像识别中的应用,Hengshuang Zhao、Jiaya Jia 与 Vladlen Koltun,IEEE/CVF 计算机视觉与模式识别会议论文集,2020 年。

资源

什么是矢量嵌入?
相关主题
什么是注意力机制?
相关主题
什么是转换器模型?
相关主题
什么是数据集?
相关主题
相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示