Os primeiros tipos de mecanismos de atenção realizavam o que hoje é categorizado como atenção cruzada. Na atenção cruzada, as consultas e as chaves vêm de diferentes fontes de dados. Por exemplo, em tarefas de tradução automática, as chaves provêm de um corpus de texto em um idioma, enquanto as consultas vêm de outro; em tarefas de reconhecimento de fala, as consultas são dados de áudio e as chaves são dados de texto para transcrever esse áudio.
Na autoatenção, o modelo extrai as consultas, as chaves e os valores da mesma fonte. Enquanto os mecanismos de atenção de Bahdanau e Luong foram projetados especificamente para a tradução automática, Cheng et al propôs a autoatenção, que eles chamaram de “intra-atenção”, como método para aprimorar a compreensão de textos de forma geral. Seu mecanismo de atenção, delineado em um artigo de 2016, explorou não como os elementos de entrada contribuem para uma sequência geral, mas como diferentes tokens de entrada se relacionam entre si.
Considere um modelo de idioma interpretando o texto em inglês
“on Friday, the judge issued a sentence”.
- A palavra anteriorthe
sugere quejudge
está sendo usado como um substantivo, como empessoa que preside um julgamento, não como um verbo que significa avaliar ou formar uma opinião.
- Esse contexto para a palavrajudge
sugere quesentence
provavelmente se refere a uma penalidade legal, em vez de uma "sentença" gramatical.
- A palavraissued
implica ainda que a sentença se refere ao conceito jurídico, não ao conceito gramatical.
- Portanto, ao interpretar a palavrasentence
, o modelo deve prestar muita atenção a judge
eissued
. Também deve prestar atenção à palavrathe
. Pode ignorar mais ou menos as outras palavras. Um mecanismo de autoatenção bem treinado calcularia adequadamente os pesos de atenção.
O artigo de Cheng et al focou exclusivamente na capacidade da autoatenção de ler e compreender textos, mas logo demonstrou que modelar as relações intrassequência também pode ser uma ferramenta poderosa para escrever textos. O desenvolvimento adicional da autoatenção, juntamente com os modelos transformer que ela possibilitou, levou diretamente ao surgimento da IA generativa moderna e dos LLMs autoregressivos capazes de gerar texto original.