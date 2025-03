Os primeiros tipos de mecanismos de atenção realizavam o que hoje é categorizado como atenção cruzada. Na atenção cruzada, as consultas e as chaves vêm de diferentes fontes de dados. Por exemplo, em tarefas de tradução automática, as chaves provêm de um corpus de texto em um idioma, enquanto as consultas vêm de outro; em tarefas de reconhecimento de fala, as consultas são dados de áudio e as chaves são dados de texto para transcrever esse áudio.

Na autoatenção, o modelo extrai as consultas, as chaves e os valores da mesma fonte. Enquanto os mecanismos de atenção de Bahdanau e Luong foram projetados especificamente para a tradução automática, Cheng at al propôs a autoatenção , que eles chamaram de “intraatenção”, como método para aprimorar a compreensão de textos de forma geral. O mecanismo de atenção deles, descrito em um artigo de 2016, explorou não como os elementos de input contribuem para uma sequência global, mas como diferentes tokens de input se relacionam entre si.

Considere um modelo de linguagem interpretando o texto em inglês.

"On Friday, the judge issued a sentence."



A palavra anterioro sugere quejuiz está sendo usado como um substantivo, como em pessoa que preside um julgamento, e não como um verbo que significa avaliar ou formar uma opinião.

Esse contexto para a palavrajuiz sugere quesentença provavelmente se refere a uma penalidade legal, em vez de uma "sentença" gramatical.

A palavraemitido implica ainda que a sentença se refere ao conceito jurídico, e não ao conceito gramatical.

Portanto, ao interpretar a palavrasentença , o modelo deve prestar muita atenção a juiz eemitido . Também deve prestar atenção à palavrao . Pode ignorar mais ou menos as outras palavras. Um mecanismo de autoatenção bem treinado calcularia adequadamente os pesos de atenção.

O artigo de Cheng et al focou exclusivamente na capacidade da autoatenção de ler e compreender textos, mas logo demonstrou que modelar as relações intrassequência também pode ser uma ferramenta poderosa para escrever textos. O desenvolvimento adicional da autoatenção, juntamente com os modelos transformer que ela possibilitou, levou diretamente ao surgimento da IA generativa moderna e dos LLMs autoregressivos capazes de gerar texto original.