الميزة الأساسية لنماذج المحولات هي آلية الاهتمام الذاتي، والتي تستمد منها نماذج المحولات قدرتها المذهلة على اكتشاف العلاقات (أو التبعيات) بين كل جزء من تسلسل الإدخال. وعلى عكس بنية الشبكات العصبية المتكررة (RNN) والتلافيفية (CNN) التي سبقتها، تعتمد بنية المحولات فقط على طبقات الانتباه والطبقات الأمامية التقليدية.
فائدة الانتباه الذاتي، وتحديداً تقنية الانتباه متعدد الرؤوس التي تستخدمها نماذج المحولات لحسابها، هي ما يمكّن المحولات من تجاوز فائدة الشبكات العصبية ذاتية التردد والشبكات التلافيفية التي كانت في السابق من أحدث النماذج.
قبل تقديم نماذج المحولات، اعتمدت معظم مهام معالجة اللغة الطبيعية على الشبكات العصبية المتكررة. فالطريقة التي تعالج بها الشبكات العصبية المتكررة البيانات المتسلسلة هي تسلسلية بطبيعتها: فهي تستوعب عناصر تسلسل الإدخال واحدًا تلو الآخر وبترتيب محدد.
ويؤدي ذلك إلى ضعف قدرة الشبكات العصبية المتكررة على استيعاب العلاقات البعيدة المدى، وبالتالي تقتصر فعاليتها على معالجة النصوص القصيرة فقط.
وقد تمت معالجة هذا النقص إلى حد ما من خلال إدخال شبكات الذاكرة قصيرة المدى (LSTMs)، ولكنه لا يزال يمثل عيبًا أساسيًا في شبكات الذاكرة المحمولة.
على النقيض من ذلك، يمكن لآليات الانتباه فحص تسلسل كامل في وقت واحد واتخاذ قرارات حول كيفية ووقت التركيز على خطوات زمنية محددة من هذا التسلسل.
وبالإضافة إلى تحسين القدرة على فهم التبعيات بعيدة المدى بشكل كبير، تسمح هذه النوعية من المحولات أيضًا بالتوازي: القدرة على تنفيذ العديد من الخطوات الحسابية في وقت واحد، بدلاً من التسلسل.
بفضل ملاءمتها للعمل المتوازي، تستطيع نماذج المحولات استغلال القوة والسرعة التي تقدمها وحدات معالجة الرسوميات GPUs بشكل كامل خلال مراحل التدريب والاستنتاج. وبدوره، أتاح هذا الاحتمال الفرصة لتدريب نماذج المحولات على مجموعات بيانات ضخمة غير مسبوقة من خلال التعلم ذاتي الإشراف.
خاصة بالنسبة للبيانات المرئية، توفر المحولات أيضا بعض المزايا مقارنة بالشبكات العصبية. تعتمد الشبكات التلافيفية بشكل أساسي على المعالجة المحلية التفافات لمعالجة مجموعات فرعية أصغر من بيانات الإدخال قطعةً تلو الأخرى.
وبالتالي، تكافح الشبكات التلافيفية أيضا لتمييز التبعيات بعيدة المدى، مثل الارتباطات بين الكلمات (في النص) أو وحدات البكسل (في الصور) التي لا تجاور بعضها البعض. كما أن آليات الانتباه ليس لديها هذا القيد.