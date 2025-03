El artículo seminal "Attention is All You Need" articuló su mecanismo de atención utilizando la terminología de una base de datos relacional: consultas, claves y valores. Las bases de datos relacionales están diseñadas para simplificar el almacenamiento y la recuperación de datos relevantes: asignan un identificador único ("clave") a cada dato, y cada clave se asocia con un valor correspondiente. En PLN, la "base de datos" de un modelo es el vocabulario de tokens que ha aprendido de su conjunto de datos de entrenamiento.

La influencia masiva del artículo "Attention is All You Need" ha dado lugar a que incluso los mecanismos de atención anteriores a menudo se describan retroactivamente en estos términos. En términos generales, esta concepción de la atención implica la interacción entre tres tipos de representaciones vectoriales para cada token en una secuencia.

El vector de consulta representa la información que busca un token determinado.

Los vectores clave representan la información que contiene cada token. La alineación entre la consulta y la clave se utiliza para calcular los pesos de atención.

El valor (o vector de valor) aplica la información ponderada por atención de los vectores clave. Las contribuciones de las claves que están fuertemente alineadas con una consulta se ponderan más fuertemente; las contribuciones de las claves que no son relevantes para una consulta se ponderarán más cerca de cero.

Las variantes específicas del mecanismo de atención se diferencian principalmente por cómo se codifican los vectores, cómo se calculan las puntuaciones de alineación y cómo se aplican las ponderaciones de atención para proporcionar al modelo información relevante.