开创性的论文《Attention is All You Need》使用关系数据库的术语阐明了其注意力机制:查询、键和值。关系数据库旨在简化相关数据的存储和检索:它们为每条数据分配一个唯一标识符(“键”),每个键都与相应的值相关联。在 NLP 中,模型的“数据库”是从训练数据集中学习到的词元词汇表。

《Attention is All You Need》论文的巨大影响导致即使是以前的注意力机制也经常被追溯地用这些术语来描述。一般而言,这种注意力概念需要序列中每个词元的三种向量表示形式之间的相互作用。

查询向量表示给定词元正在寻找的信息。

键向量代表每个词元包含的信息。查询和键之间的对齐用于计算注意力权重。

值(或值向量)应用来自关键向量的注意力加权信息。与查询高度对齐的键的贡献权重较高;与查询无关的键的贡献权重接近零。

具体的注意力机制变体主要通过向量的编码方式、对齐分数的计算方式以及为向模型提供相关信息而应用的注意力权重来区分。