La autoatención es un tipo de mecanismo de atención utilizado en los modelos de machine learning. Este mecanismo se utiliza para sopesar la importancia de los tokens o palabras en una secuencia de entrada para comprender mejor las relaciones entre ellos. Es una parte crucial de los modelos transformadores, una potente arquitectura de inteligencia artificial que es esencial para las tareas de procesamiento del lenguaje natural (PLN). La arquitectura del transformador es la base de la mayoría de los modelos de lenguaje de gran tamaño (LLM) modernos.

El mecanismo de autoatención se introdujo mediante el transformador, un modelo de arquitectura de redes neuronales propuesto por los investigadores. El objetivo de la arquitectura propuesta era abordar los desafíos de los modelos tradicionales de machine learning que utilizan redes neuronales convolucionales (CNN) y redes neuronales recurrentes (RNN).1

Los modelos secuenciales tradicionales siguen la misma arquitectura de codificador-decodificador que los modelos de transformador, pero procesan los datos paso a paso o secuencia a secuencia (seq2seq). Esta función plantea un desafío para la paralelización, que es la capacidad de reducir el tiempo de cálculo y mejorar la generación de outputs calculando los pesos de atención en todas las partes de la entrada simultáneamente.



La autoatención desempeñó un papel clave en el avance de los LLM al permitir la paralelización dentro de los ejemplos de entrenamiento. Este método es útil porque cuanto mayor sea la longitud de la secuencia, más restricciones de memoria limitarán el procesamiento por lotes en los ejemplos de entrenamiento. Mediante la autoatención, los datos de entrenamiento de LLM se pueden dividir en lotes y procesar simultáneamente en varias GPU.1 La autoatención reduce la potencia computacional necesaria para entrenar modelos de machine learning con procesamiento por lotes eficiente en paralelo.

La autoatención no solo contribuye a distribuir la carga computacional de manera eficiente, sino que también permite procesar los pesos de atención simultáneamente. Esta capacidad permite al modelo centrarse en partes relevantes de una secuencia de entrada para predecir dinámicamente la importancia de cada elemento dentro de una secuencia. La autoatención es buena para tareas de PLN como la traducción automática, el análisis de sentimientos y el resumen.