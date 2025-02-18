La autoatención es un tipo de mecanismo de atención utilizado en los modelos de machine learning. Este mecanismo se utiliza para sopesar la importancia de tokens o palabras en una secuencia de entrada para comprender mejor las relaciones entre ellos. Es una parte crucial de los modelos transformadores, una poderosa arquitectura de inteligencia artificial que es esencial para las tareas de procesamiento de lenguaje natural (PLN). La arquitectura transformadora es la base de la mayoría de los modelos de lenguaje grandes (LLM) modernos.

El mecanismo de autoatención se introdujo por medio del transformador, un modelo de arquitectura de redes neuronales propuesto por los investigadores. El objetivo de la arquitectura propuesta era abordar los desafíos de los modelos tradicionales de machine learning que utilizan redes neuronales de convolución (CNN) y redes neuronales recurrentes (RNN).1

Los modelos secuenciales tradicionales siguen la misma arquitectura codificador-decodificador que los modelos transformadores, pero procesan los datos paso a paso o secuencia a secuencia (seq2seq). Esta función plantea un desafío para la paralelización, que es la capacidad de reducir el tiempo de cálculo y mejorar la generación de resultados calculando los pesos de atención en todas las partes de la secuencia de entrada simultáneamente.



La autoatención desempeñó un papel clave en el avance de los LLM al permitir la paralelización dentro de los ejemplos de entrenamiento. Este método es útil porque, cuanto mayor sea la longitud de la secuencia, más restricciones de memoria limitarán el procesamiento por lotes en los ejemplos de entrenamiento. Mediante la autoatención, los datos de entrenamiento de LLM se pueden dividir en lotes y procesar simultáneamente en varias GPU.1 La autoatención reduce la potencia computacional necesaria para entrenar modelos de machine learning con un procesamiento por lotes eficiente en paralelo.

La autoatención no solo contribuye a distribuir la carga computacional de manera eficiente, sino que también permite la capacidad de procesar pesos de atención simultáneamente. Esta capacidad permite que el modelo se centre en partes relevantes de una secuencia de entrada para predecir dinámicamente la importancia de cada elemento dentro de una secuencia. La autoatención es buena para tareas de PLN, como traducción automática, análisis de sentimientos y resúmenes.