La característica central de los modelos de transformador es su mecanismo de autoatención, del que deriva su impresionante capacidad para detectar las relaciones (o dependencias) entre cada parte de una secuencia de entrada. A diferencia de las arquitecturas RNN y CNN que la precedieron, la arquitectura del transformador utiliza únicamente capas de atención y capas prealimentadas estándar.
Los beneficios de la autoatención, y en concreto la técnica de atención multicabezal que emplean los modelos de transformador para calcularla, son las que permiten a estos superar el rendimiento de las RNN y las CNN, que hasta ahora habían sido lo último en tecnología.
Antes de la introducción de los modelos de transformador, la mayoría de las tareas de PLN se basaban en redes neuronales recurrentes (RNN). La forma en que las RNN procesan los datos secuenciales es serializada de forma intrínseca: ingieren los elementos de una secuencia de entrada de uno en uno y en un orden específico.
Esto dificulta su capacidad para captar dependencias de largo alcance, por lo que solo pueden procesar eficazmente secuencias de texto cortas.
Esta limitación se solucionó en cierta medida con la introducción de las redes de memoria a corto plazo (LSTM), pero sigue siendo un defecto fundamental de las RNN.
Por el contrario, los mecanismos de atención pueden examinar toda una secuencia simultáneamente y decidir cómo y cuándo centrarse en pasos temporales concretos de esa secuencia.
Además de mejorar significativamente la capacidad de comprender las dependencias de largo alcance, esta cualidad de los transformadores también permite la paralelización, es decir, la capacidad de realizar muchos pasos computacionales a la vez en lugar de hacerlo de forma serializada.
Al estar bien adaptados al paralelismo, los modelos de transformador pueden aprovechar al máximo la potencia y velocidad que ofrecen las GPU tanto durante el entrenamiento como durante la inferencia. Esta posibilidad ha permitido, a su vez, aprovechar la oportunidad de entrenar modelos de transformador en conjuntos de datos masivos sin precedentes mediante el aprendizaje autosupervisado.
Especialmente en lo que respecta a los datos visuales, los transformadores también ofrecen algunas ventajas con respecto a las redes neuronales convolucionales. Las CNN son intrínsecamente locales, ya que utilizan convoluciones para procesar de uno en uno subconjuntos más pequeños de datos de entrada.
Por eso, las CNN tienen dificultades para discernir dependencias de largo alcance, como correlaciones entre palabras (en texto) o píxeles (en imágenes) que no se encuentran próximos entre sí. Los mecanismos de atención no están sujetos a esta limitación.