自我注意力是机器学习模型中使用的一种注意力机制。该机制通过评估输入序列中各 token 或词汇的重要性,从而更精准地捕捉元素间的内在关联。其是 Transformer 模型的核心组件,这一强大的人工智能架构对自然语言处理任务至关重要,且已成为多数现代大语言模型的基础。
自注意力机制是随着研究者提出的 Transformer 神经网络架构而问世的。该架构旨在解决使用卷积神经网络 (CNN) 和循环神经网络 (RNN) 的传统机器学习模型所存在的挑战。 1
传统序列模型虽与Transformer 模型共享编码器-解码器架构,但其采用逐步处理或序列到序列的数据处理方式。这种运作机制对并行化计算构成挑战——并行化本可通过同步计算输入序列各部分的注意力权重,有效缩减运算时间并提升输出生成效率。
通过实现训练样本内的并行化处理,自注意力对大语言模型的发展起到了关键推动作用。这种方法的价值在于:序列越长,内存限制对跨训练样本批处理的约束就越显著。借助自注意力技术,大语言模型的训练数据可被拆分为多个批次,并在多个GPU上并行处理。1 通过这种高效的并行批处理,自注意力有效降低了训练机器学习模型所需的计算资源消耗。
自注意力机制不仅有助于高效分配计算负载,还实现了同步处理注意力权重的能力。该能力使模型能够聚焦于输入序列的相关部分,动态预测序列中每个元素的重要性。自注意力机制非常适用于机器翻译、情感分析和文本摘要等 NLP 任务。
机器学习模型中的自注意力机制与人类行为概念类似,两者都涉及在更大的背景下关注相关元素,以准确处理信息。在心理学中,它是关于关注自己的想法或行为;而在深度学习中,它是关于关注输入序列的相关部分。
Transformer 架构包含集成注意力过程的自注意力层,其步骤遵循 Ashish Vaswani 等人发表论文《Attention is All You Need》中对自注意力层的阐述。
输入序列是被向量化为嵌入表示的一系列数据点,即机器学习算法可处理的数值化表征,用于计算生成输出序列所需的注意力分数。
在机器翻译场景中,一个句子可视为输入序列,其中每个组成部分都是数据点或输入 token。这些 token 被转换为嵌入表示,作为模型可处理的语义单元。2嵌入向量用于计算注意力权重,帮助模型对最相关的输入数据进行优先级处理或给予优先关注。
模型利用这些嵌入向量为每个 token 生成三个关键向量:查询向量(Q)、键向量(K)和值向量(V)。这些向量将协助模型在输入句子中建立最强的语义匹配。
通过矩阵乘法运算获取查询、键和值向量后,注意力机制将基于各组件的权重矩阵和嵌入输入,计算值的加权和,1该过程称为线性变换。
嵌入转换完成后,系统会计算序列中每个元素的注意力分数。这些分数通过查询向量与键向量的缩放点积获得,其数值表征特定 token 应对序列中其他 token 赋予的关注程度。
随后,注意力分数按关键向量维度的平方根进行缩放。此过程有助于稳定梯度,并防止梯度随着向量维数的增加而变得太大而无法有效计算。
通过查询向量与键向量点积获得的注意力分数,将经由 softmax 函数转化为概率分布,这个过程称为归一化。
借助归一化概率,softmax 注意力模块使 Transformer 架构具备在输出生成过程中评估单个输入元素重要性的能力。 3这些概率用于确定序列中各元素的相对重要性,注意力模型据此决定应聚焦输入的哪些部分。
最终,通过此过程生成的注意力权重,将参与计算值向量的最终加权和。注意力分数越高,序列所获得的注意力权重就越大,这意味着该部分将对值向量加权求和的最终结果产生更重要的影响。
注意力模型能有效捕捉长距离依赖关系,无论序列元素(token)间距多远。多头注意力作为自我注意力的重要扩展,通过同步关注输入数据集中的不同元素来增强这一基本功能,使模型能同时捕捉数据中的多样化特征或关联,从而在依赖项或 token 间建立更丰富的上下文联系。
早期的双向模型,例如来自 Transformer 的双向编码器表示( BERT),通过允许模型同时考虑前向和后向序列信息,提高了对上下文的理解能力。在双向注意力机制中,模型旨在根据词汇的上下文来理解其含义。4、
GPT 模型普及了自注意力的应用,凸显了扩展上下文窗口对生成式任务的增益。单次处理更多信息可带来准确性与理解力的双重提升。
人工智能模型运用自注意力机制高效处理长输入序列,在扩大注意力信息交换规模的同时降低内存占用。5 通过利用模型内部的上下文窗口,自注意力使模型获得更深层的语境理解能力。上下文窗口的尺寸直接决定了模型单次可关注的 token 数量上限。
1. 《 Attention Is All You Need》,Ashish Vaswani 等,第 31 届神经信息处理系统国际会议论文集,arXiv:1706.03762v7,2023 年 8 月 2 日修订。
2. “token 化”,论文,载于《信息检索导论》,Christopher Manning、Prabhakar Raghavan 和 Hinrich Schutze,2008 年。
3. 《 重新思考 Softmax:基于多项式激活的自注意力 》,Hemanth Saratchandran 等,阿德莱德大学澳大利亚机器学习研究所,arXiv:2410.18613v1,2024 年 10 月 4 日。
4. 《BERT:用于语言理解的深度双向 Transformer 预训练》,Jacob Devlin 等,arXiv:1810.04805v2,2019 年 5 月 24 日修订。
5. 《 搜索和学习的扩展:基于强化学习视角复现 o1 的路线图》 ,Zhiyuan Zeng 等,arXiv:2412.14135,2024 年 12 月 18 日。
6. 《 融合自注意力机制与多通道特征的双向 LSTM 情感分类模型 》, Weijiang Li 等,《Neurocomputing》第 387 卷,2020 年 4 月 28 日。
7. 《 并行调度自我注意力机制:泛化与优化》 ,Mingfei Yu 与 Masahiro Fujita, arxiv: 2012.01114v1,2020 年 12 月 2 日。
8. 《深入了解自注意力在图像识别中的应用》 ,Hengshuang Zhao、Jiaya Jia 与 Vladlen Koltun,IEEE/CVF 计算机视觉与模式识别会议论文集,2020 年。