A funcionalidade central dos modelos de transformação é seu mecanismo de autoatenção, do qual os modelos de transformação derivam sua impressionante capacidade de detectar os relacionamentos (ou dependências) entre cada parte de uma sequência de entrada. Diferentemente das arquiteturas de RNN e CNN que a precederam, a arquitetura de transformação usa apenas camadas de atenção e camadas de feedforward padrão.
Os benefícios da autoatenção, e especificamente a técnica de atenção de várias cabeças que os modelos de transformação empregam para calculá-la, são o que permite que os transformadores excedam o desempenho das RNNs e CNNs, que antes eram de última geração.
Antes do lançamento dos modelos de transformação, a maioria das tarefas de NLP dependia de redes neurais recorrentes (RNNs). A forma como as RNNs processam dados sequenciais é inerentemente serializada: elas realizam a ingestão dos elementos de uma sequência de entrada um de cada vez e em uma ordem específica.
Isso dificulta a capacidade das RNNs de capturar dependências de longo alcance, o que significa que as RNNs só podem processar sequências curtas de texto de forma eficaz.
O lançamento das redes de memória de curto prazo (LSTMs) lidou, de certa forma, com essa deficiência, mas ela continua sendo um ponto fraco fundamental das RNNs.
Os mecanismos de atenção, por outro lado, podem examinar uma sequência inteira simultaneamente e tomar decisões sobre como e quando focar em etapas de tempo específicas dessa sequência.
Além de melhorar significativamente a capacidade de entender dependências de longo alcance, essa qualidade dos transformadores também permite a paralelização: a capacidade de executar muitas etapas computacionais de uma só vez, em vez de maneira serializada.
A adequação ao paralelismo permite que os modelos de transformação aproveitem ao máximo a potência e a velocidade oferecidas pelas GPUs durante o treinamento e a inferência. Essa possibilidade, por sua vez, desbloqueou a oportunidade de treinar modelos de transformação em conjuntos de dados maciços sem precedentes por meio do aprendizado autossupervisionado.
Especialmente para dados visuais, os transformadores também oferecem algumas vantagens em relação às redes neurais convolucionais. As CNNs são inerentemente locais e usam convoluções para processar subconjuntos menores de dados de entrada, um de cada vez.
Portanto, as CNNs também lutam para identificar dependências de longo alcance, como correlações entre palavras (em textos) ou pixels (em imagens) que não estejam próximos entre si. Os mecanismos de atenção não têm essa limitação.