Fitur utama dari model transformator adalah mekanisme perhatian diri mereka, dari mana model transformator memperoleh kemampuan mengesankan mereka untuk mendeteksi hubungan (atau dependensi) antara setiap bagian dari urutan input. Tidak seperti arsitektur RNN dan CNN yang mendahuluinya, arsitektur transformator hanya menggunakan lapisan perhatian dan lapisan feedforward standar.
Manfaat perhatian diri, dan khususnya teknik perhatian multi-kepala yang digunakan model transformator untuk menghitungnya, adalah apa yang memungkinkan transformator untuk melebihi kinerja RNN dan CNN yang sebelumnya canggih.
Sebelum pengenalan model transformator, sebagian besar tugas NLP mengandalkan jaringan neural berulang atau neural networks (RNN). Cara RNN memproses data sekuensial secara inheren diserialisasi: mereka menyerap elemen-elemen dari urutan input satu per satu dan dalam urutan tertentu.
Hal ini menghalangi kemampuan RNN untuk menangkap ketergantungan jarak jauh, yang berarti RNN hanya dapat memproses urutan teks pendek secara efektif.
Kekurangan ini agak diatasi dengan pengenalan jaringan memori jangka pendek (LSTM), tetapi tetap menjadi kelemahan mendasar RNN.
Mekanisme perhatian, sebaliknya, dapat memeriksa seluruh urutan secara bersamaan dan membuat keputusan tentang bagaimana dan kapan untuk fokus pada langkah-langkah tertentu dari urutan tersebut.
Selain secara signifikan meningkatkan kemampuan untuk memahami ketergantungan jarak jauh, kualitas transformer ini juga memungkinkan paralelisasi: kemampuan untuk melakukan banyak langkah komputasi sekaligus, daripada secara serial.
Sangat cocok untuk paralelisme memungkinkan model transformator untuk mengambil keuntungan penuh dari kekuatan dan kecepatan yang ditawarkan oleh GPU selama pelatihan dan inferensi. Kemungkinan ini, pada gilirannya, membuka peluang untuk melatih model transformator pada kumpulan data besar yang belum pernah terjadi sebelumnya melalui pembelajaran yang diawasi sendiri.
Terutama untuk data visual, transformator juga menawarkan beberapa keunggulan dibandingkan neural networks. CNN pada dasarnya bersifat lokal, menggunakan konvolusi untuk memproses subset data input yang lebih kecil satu per satu.
Oleh karena itu, CNN juga kesulitan untuk melihat ketergantungan jarak jauh, seperti korelasi antara kata (dalam teks) atau piksel (dalam gambar) yang tidak saling berdekatan. Mekanisme perhatian tidak memiliki batasan ini.