Los primeros tipos de mecanismos de atención realizaron lo que ahora se categoriza como atención cruzada. En la atención cruzada, las consultas y las claves provienen de diferentes fuentes de datos. Por ejemplo, en las tareas de traducción automática, las claves provienen de un corpus de texto en un idioma y las consultas de otro idioma; en las tareas de reconocimiento de voz, las consultas son datos de audio y las claves son datos de texto para transcribir ese audio.
En la autoatención, las consultas, las claves y los valores se extraen de la misma fuente. Mientras que tanto los mecanismos de atención de Bahdanau como de Luong fueron diseñados explícitamente para la traducción automática, Cheng et al propuso la autoatención (a la que llamaron “intraatención”)como un método para mejorar la lectura automática en general. Su mecanismo de atención, descrito en un documento de 2016, exploró no cómo los elementos de entrada contribuyen a una secuencia general, sino cómo los diferentes tokens de entrada se relacionan entre sí.
Considere un modelo de lenguaje que interprete el texto en inglés
“el viernes, el juez emitió una sentencia”.
- La palabra precedentethe
sugiere quejudge
está actuando como un sustantivo, como en persona que preside un juicio legal , en lugar de un verbo que significa evaluar o formar una opinión.
- Ese contexto para la palabrajudge
sugiere quesentence
probablemente se refiere a una pena legal, más que a una "oración" gramatical.
- La palabraissued
implica además que la oración se refiere al concepto legal, no al concepto gramatical.
- Por lo tanto, al interpretar la palabrasentence
, el modelo debe prestar mucha atención a judge
Yissued
. También debe prestar atención a la palabrathe
. Puede ignorar más o menos las otras palabras. Un mecanismo de autoatención bien entrenado calcularía los pesos de atención en consecuencia.
El artículo de Cheng et al. se centraba únicamente en la capacidad de la autoatención para leer y comprender textos, pero pronto se vio que el modelado de las relaciones intrasequencia también podía ser una poderosa herramienta para escribir textos. Un mayor desarrollo de la autoatención, junto con los modelos transformadores que permitió, condujo directamente a la llegada de la AI generativa moderna y los LLM autorregresivos que pueden generar texto original.