La característica central de los modelos de transformadores es su mecanismo de autoatención, de la cual los modelos de transformadores derivan su impresionante capacidad para detectar las relaciones (o dependencias) entre cada parte de una secuencia de entrada. A diferencia de las arquitecturas RNN y CNN que la precedieron, la arquitectura transformadora utiliza únicamente capas de atención y capas estándar de retroalimentación.
Los beneficios de la autoatención, y específicamente la técnica de atención multicabezal que emplean los modelos de transformadores para calcularla, son los que permiten a los transformadores superar el rendimiento de las RNN y CNN que anteriormente habían sido de última generación.
Antes de la introducción de los modelos de transformadores, la mayoría de las tareas de NLP dependían de redes neuronales recurrentes (neural networks). La forma en que las RNN procesan datos secuenciales es inherentemente serializada: Ingesta los elementos de una secuencia de entrada uno a la vez y en un orden específico.
Esto dificulta la capacidad de las RNN de capturar dependencias de largo alcance, lo que significa que las RNN solo pueden procesar secuencias de texto cortas de manera efectiva.
Esta deficiencia fue abordada en cierta medida con la introducción de redes de memoria a corto plazo (LSTM), pero sigue siendo una deficiencia fundamental de las RNN.
Los mecanismos de atención, por el contrario, pueden examinar una secuencia completa simultáneamente y tomar decisiones sobre cómo y cuándo enfocarse en pasos de tiempo específicos de esa secuencia.
Además de mejorar significativamente la capacidad de comprender las dependencias de largo alcance, esta cualidad de los transformadores también permite la paralelización: la capacidad de realizar muchos pasos computacionales a la vez, en lugar de hacerlo de forma serializada.
Al estar bien adaptados al paralelismo, los modelos de transformadores pueden aprovechar al máximo la potencia y velocidad que ofrecen las GPU tanto durante el entrenamiento como durante la inferencia. Esta posibilidad, a su vez, desbloqueó la oportunidad de capacitar modelos de transformadores en conjuntos de datos masivos sin precedentes mediante el aprendizaje autosupervisado.
Especialmente para los datos visuales, los transformadores también ofrecen algunos beneficios sobre las redes neuronales convolucionales. Las CNN son inherentemente locales y emplean convoluciones para procesar subconjuntos más pequeños de datos de entrada, una pieza a la vez.
Por lo tanto, las CNN también tienen dificultades para discernir dependencias de largo alcance, como las correlaciones entre palabras (en texto) o pixeles (en imágenes) que no son vecinas entre sí. Los mecanismos de atención no tienen esta limitación.