يقوم النموذج بتمرير الرموز المميزة عبر شبكة محول من المحولات. تعد نماذج المحولات، التي ظهرت عام 2017، مفيدة نظرًا لآلية الانتباه الذاتي الخاصة بها، والتي تسمح لها "بالانتباه" إلى الرموز المميزة المختلفة في لحظات مختلفة. هذه التقنية هي محور المحول وابتكاراته الرئيسية. يُعدُّ الانتباه الذاتي مفيدًا جزئيًا لأنه يسمح لنموذج الذكاء الاصطناعي بحساب العلاقات والتبعيات بين الرموز المميزة، خاصة تلك البعيد بعضها عن بعض في النص. وتسمح بنية المحول بالتوازي، مما يجعل العملية أكثر كفاءة من الطرق السابقة. وقد أتاحت هذه الصفات للنماذج اللغوية الكبيرة (LLM) بالتعامل مع مجموعات البيانات التي اتسمت بأنها كبيرة الحجم بشكل لم يسبق له مثيل.
بمجرد تقسيم النص إلى رموز مميزة، يتم تعيين كل رمز مميز إلى متجه من الأرقام يُسمَّى تضمين. وتتكون الشبكات العصبية من طبقات من الخلايا العصبية الاصطناعية، حيث تقوم كل خلية عصبية بإجراء عملية رياضية. وتتكون المحولات من العديد من هذه الطبقات، وفي كل منها يتم تعديل التضمينات بشكل طفيف، لتصبح تمثيلات سياقية أكثر ثراءً من طبقة إلى أخرى.
الهدف من هذه العملية هو أن يتعلم النموذج الارتباطات الدلالية بين الكلمات، بحيث تظهر كلمات مثل "النباح" و"كلب" أقرب بعضها من بعض في فضاء المتجهات في مقالة عن الكلاب أكثر من ظهور الكلمتين "النباح" و"الشجرة"، وذلك بناء على الكلمات المحيطة المتعلقة بالكلاب في المقالة. تضيف المحولات أيضًا ترميزات موضعية، والتي تعطي كل رمز مميز معلومات حول مكانه في التسلسل.
ولحساب الانتباه، يتم إسقاط كل تضمين في ثلاثة متجهات مختلفة باستخدام مصفوفات الوزن المكتسبة: استعلام ومفتاح وقيمة. ويمثل الاستعلام ما "يبحث عنه" رمز مميز معين، ويمثل المفتاح المعلومات التي يحتوي عليها كل رمز مميز، حيث القيمة "تُرجع" المعلومات من كل متجه مفتاح، بعد قياسها بوزن الانتباه الخاص بها.
يتم حساب درجات المحاذاة على أنها التشابه بين الاستعلامات والمفاتيح. وهذه الدرجات، بمجرد تطبيعها إلى أوزان انتباه، تحدد مقدار ما يتدفق من كل متجه قيمة في تمثيل الرمز المميز الحالي. وتسمح هذه العملية للنموذج بالتركيز بمرونة على السياق ذي الصلة مع تجاهل الرموز المميزة الأقل أهمية (مثل "الشجرة").
وهكذا نرى أن الانتباه الذاتي يخلق ارتباطات "مرجحة" بين جميع الرموز المميزة بشكل أكثر كفاءة من البِنى السابقة. ويقوم النموذج بتعيين الأوزان لكل علاقة بين الرموز المميزة. ويمكن أن تحتوي النماذج اللغوية الكبيرة (LLM) على مليارات أو تريليونات من هذه الأوزان، والتي تعد أحد أنواع معلمات LLM، وهي متغيرات التكوين الداخلية لنموذج التعلم الآلي الذي يتحكم في كيفية معالجة البيانات وإجراء التنبؤات. ويشير عدد المعلمات إلى عدد هذه المتغيرات الموجودة في النموذج، علمًا بأن بعض النماذج اللغوية الكبيرة (LLM) تحتوي على مليارات المعلمات. وتعتبر نماذج اللغة الصغيرة أصغر حجمًا ونطاقًا مع عدد قليل نسبيًا من المعلمات، مما يجعلها مناسبة للنشر على أجهزة أصغر أو في بيئات محدودة الموارد.
أثناء التدريب، يقوم النموذج بعمل تنبؤات عبر ملايين الأمثلة المستمدة من بيانات التدريب الخاصة به، وتحدد دالة الخسارة خطأ كل تنبؤ. ومن خلال دورة تكرارية لعمل التنبؤات ثم تحديث أوزان النموذج من خلال الانتشار الخلفي وانحدار التدرج، "يتعلم" النموذج الأوزان في الطبقات التي تنتج متجهات الاستعلام والمفتاح والقيمة.
بمجرد تحسين هذه الأوزان بشكل كافٍ، فإنها تكون قادرة على استيعاب تضمين المتجه الأصلي لأي رمز مميز وإنتاج متجهات الاستعلام والمفتاح والقيمة له، والتي عند التفاعل مع المتجهات المولَّدة لجميع الرموز المميزة الأخرى، ستؤدي إلى درجات محاذاة "أفضل" والتي بدورها تؤدي إلى أوزان انتباه تساعد النموذج على إنتاج مخرجات أفضل. فتكون النتيجة النهائية الحصول على نموذج قد تعلم أنماطًا في قواعد النحو والحقائق وبنية التفكير وأنماط الكتابة والمزيد.