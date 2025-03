El artículo “Attention is All You Need”, escrito por Viswani et al., se inspiró en la autoatención para presentar una nueva arquitectura de red neuronal: el transformador. Su modelo de transformador evitó por completo las convoluciones y la recurrencia, y en su lugar empleó solo capas de atención y capas de retroalimentación lineal estándar.

El propio modelo de los autores siguió una estructura de codificador-decodificador, similar a la de sus predecesores basados en RNN. Los modelos posteriores basados en transformadores se apartaron de ese marco codificador-decodificador. Uno de los primeros modelos de referencia publicados a raíz del artículo sobre los transformadores, BERT (abreviatura de representaciones de codificador bidireccional de transformadores), es un modelo de solo codificador. Los modelos LLM autorregresivos que revolucionaron la generación de texto, como los modelos GPT (Transformador Preentrenado Generativo), son solo decodificadores.

“Attention is All You Need” propuso varias innovaciones en el mecanismo de atención, una de las cuales fue la atención de productos punto escalados, para mejorar el rendimiento y adaptar la atención a una estructura de modelo completamente nueva.