ما هي آلية الانتباه؟

4 ديسمبر 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

Cole Stryker

Editorial Lead, AI Models

Gather

ما هي آلية الانتباه؟

آلية الانتباه هي تقنية في التعلم الآلي تُوجّه نماذج التعلم العميق لإعطاء الأولوية (أو التركيز) على أكثر أجزاء بيانات الإدخال صلة. ساهم الابتكار في آليات الانتباه في تطوير بنية المحولات، مما أدى إلى ظهور النماذج اللغوية الكبيرة (LLMs) الحديثة التي تُشغِّل تطبيقات شائعة مثل ChatGPT.

كما يشير اسمها، فإن آليات الانتباه مستوحاة من قدرة البشر (وغيرهم من الكائنات الحية) على التركيز بشكل انتقائي على التفاصيل البارزة وتجاهل التفاصيل الأقل أهمية في اللحظة الحالية. إن امتلاك القدرة على الوصول إلى جميع المعلومات مع التركيز فقط على المعلومات الأكثر صلة يساعد في ضمان عدم فقدان أي تفاصيل مهمة، مع تحقيق استخدام فعال للذاكرة والوقت المحدودَيْن.

من الناحية الرياضية، تحسب آلية الانتباه أوزان الانتباه التي تعكس الأهمية النسبية لكل جزء من تسلسل الإدخال للمهمة المطروحة. ثم تُطبِّق هذه الأوزان لزيادة (أو تقليل) تأثير كل جزء من الإدخال وفقًا لأهميته النسبية. يتم تدريب نموذج الانتباه - أي نموذج الذكاء الاصطناعي الذي يستخدم آلية الانتباه - على تحديد أوزان انتباه دقيقة من خلال التعلم الخاضع للإشراف أو التعلم الخاضع للإشراف الذاتي باستخدام مجموعة بيانات كبيرة من الأمثلة.

تم تقديم آليات الانتباه لأول مرة بواسطة Bahdanau وزملاؤه في عام 2014 كتقنية لمعالجة أوجه القصور في نماذج الشبكات العصبية المتكررة (RNNs)، والتي كانت آنذاك الأكثر تقدمًا في الترجمة الآلية. لاحقًا، تم دمج آليات الانتباه في الشبكات العصبية التلافيفية (CNNs)، مما أتاح استخدامها في مهام مثل توصيف الصور والإجابة عن الأسئلة المرئية.

في عام 2017، قدم البحث الرائد "Attention is All You Need" نموذج المحول، الذي تخلى تمامًا عن التكرار والالتفافات العصبية لصالح طبقات الانتباه فقط إلى جانب الطبقات الأمامية القياسية. أصبحت بنية المحولات منذ ذلك الحين الركيزة الأساسية للنماذج المتقدمة التي تقود عصر الذكاء الاصطناعي التوليدي.

على الرغم من أن آليات الانتباه ترتبط في المقام الأول بالنماذج اللغوية الكبيرة (LLMs) المستخدمة في مهام معالجة اللغة الطبيعية (NLP)، مثل تلخيص النصوص، والإجابة عن الأسئلة، وتوليد النصوص، وتحليل المشاعر، فإن النماذج القائمة على الانتباه تُستخدم أيضًا على نطاق واسع في مجالات أخرى. تُستخدم نماذج الانتشار الرائدة في توليد الصور، وغالبًا ما تتضمن آليات الانتباه. في مجال رؤية الكمبيوتر، حققت محولات الرؤية (ViTs) نتائج فائقة في مهام مثل اكتشاف الأجسام، 1 وتجزئة الصورة2 والإجابة عن الأسئلة المرئية.3

ما أهمية آليات الانتباه؟

حققت نماذج المحولات وآليات الانتباه التي تشغلها نتائج متقدمة في مختلف مجالات التعلم العميق تقريبًا. توفر طبيعة آليات الانتباه لهذه المحولات مزايا كبيرة مقارنة بآليات التلافيف المستخدمة في الشبكات العصبية التلافيفية (CNNs) والحلقات التكرارية المستخدمة في الشبكات العصبية المتكررة (RNNs).

  • المرونة بمرور الوقت: تعالج الشبكات العصبية المتكررة (RNNs) البيانات التسلسلية بطريقة متسلسلة، مما يعني أنها تعالج كل خطوة زمنية في التسلسل بشكل فردي وفق ترتيب محدد. وهذا يجعل من الصعب على هذه الشبكات اكتشاف اكتشاف الارتباطات—المعروفة باسم الاعتماديات في علم البيانات—التي تفصل بينها العديد من الخطوات. وعلى النقيض من ذلك، يمكن لآليات الانتباه تحليل التسلسل بالكامل في آنٍ واحد واتخاذ قرارات بشأن ترتيب التركيز على الخطوات المحددة.

  • المرونة على المساحة: تعد الشبكات العصبية التلافيفية (CNNs) محلية بطبيعتها، حيث تستخدم الالتفافات لمعالجة أجزاء أصغر من بيانات الإدخال واحدة تلو الأخرى. وهذا يجعل من الصعب على الشبكات العصبية التلافيفية تمييز الاعتماديات المتباعدة، مثل الارتباطات بين الكلمات (في النص) أو وحدات البكسل (في الصور) التي لا تكون متجاورة. أما آليات الانتباه، فلا تعاني من هذا القيد، إذ تعالج البيانات بطريقة مختلفة تمامًا.

  • التوازي: تستلزم طبيعة آليات الانتباه تنفيذ العديد من الخطوات الحسابية في وقت واحد، بدلًا من تنفيذها بطريقة متسلسلة. وهذا بدوره يتيح درجة عالية من الحوسبة المتوازية، مع الاستفادة من القوة والسرعة التي توفرها وحدات معالجة الرسوميات.

لفهم كيفية عمل آليات الانتباه في التعلم العميق ولماذا كانت المحفّز وراء ثورة الذكاء الاصطناعي التوليدي، من المفيد أولًا فهم سبب تقديم الانتباه في الأصل: وهو تحسين نماذج (Seq2Seq) القائمة على الشبكات العصبية المتكررة المستخدمة في الترجمة الآلية.
 

طريقة عمل نموذج Seq2Seq بدون آليات انتباه

تُعد الشبكات العصبية المتكررة (RNNs) نوعًا من الشبكات العصبية التي تحتوي على حلقات تكرارية تعمل بمثابة ذاكرة، مما يتيح لها معالجة البيانات المتسلسلة. تستقبل الشبكات العصبية المتكررة تسلسلًا مرتبًا من متجهات الإدخال وتعالجها على خطوات زمنية. بعد كل خطوة زمنية، يتم إعادة الحالة الناتجة للشبكة—والمعروفة باسم الحالة المخفية إلى الحلقة، إلى جانب متجه الإدخال التالي.

تعاني الشبكات العصبية المتكررة (RNNs) بسرعة من اضمحلال التدرج أو انفجار التدرج أثناء التدريب، مما جعلها غير عملية للعديد من مهام معالجة اللغة الطبيعية (NLP)، حيث يحد ذلك بشكل كبير من طول جمل الإدخال التي يمكن معالجتها.4 تم التخفيف من هذه القيود جزئيًا عبر تحسين بنية الشبكات العصبية المتكررة من خلال شبكات الذاكرة طويلة وقصيرة المدى (LSTMs)، والتي تضيف آليات التوجيه للحفاظ على "الذاكرة طويلة المدى".

قبل ظهور آلية الانتباه، كان نموذج Seq2Seq هو النموذج الأكثر تقدمًا في الترجمة الآلية. يعتمد نموذج Seq2Seq على استخدام شبكتين من شبكات LSTMs في بنية وحدة التشفير-فك التشفير.

  • يعالج أول LSTM، وهو المشفر، الجملة المصدر خطوة بخطوة، ثم يُخرج الحالة المخفية للخطوة الزمنية النهائية. يقوم هذا الإخراج ، متجه السياق ، بترميز الجملة بأكملها كتضمين متجه واحد. لتمكين Seq2Seq من التعامل بمرونة مع الجمل بأعداد متفاوتة من الكلمات، يكون متجه السياق دائما بنفس الطول.
  • يأخذ LSTM الثاني، وحدة فك التشفير، إخراج تضمين المتجه بواسطة المشفر كمدخل أولي ويفك تشفيره ، كلمة بكلمة، في لغة ثانية.

يتيح ترميز تسلسلات الإدخال في عدد ثابت من الأبعاد لنموذج Seq2Seq معالجة تسلسلات ذات أطوال مختلفة، ولكنه أدى أيضًا إلى ظهور عيوب جوهرية:

  • يمثل التسلسلات الطويلة أو المعقدة بنفس مستوى التفاصيل الذي يستخدمه للجمل الأقصر والأبسط. يؤدي ذلك إلى اختناق معلوماتي في التسلسلات الأطول وإلى هدر الموارد في التسلسلات الأقصر.
  • يمثل هذا المتجه فقط الحالة المخفية النهائية لشبكة التشفير. من الناحية النظرية، يجب أن تحتوي كل حالة مخفية لاحقة على معلومات مقدمة من الحالة المخفية السابقة، والتي بدورها تحتوي على معلومات من الخطوة الزمنية التي سبقتها، وهكذا، وصولًا إلى الخطوة الأولى. لكن من الناحية العملية، "يفقد" المتجه السياقي حتما جزءًا من المعلومات من الخطوات الزمنية المبكرة، مما يضعف أداء النموذج في التسلسلات الأطول.
     

كيف حسّنت آليات الانتباه نماذج Seq2Seq

اقترح Bahdanau وزملاؤه. آلية الانتباه في بحثهم المنشور عام 2014 بعنوان Neural Machine Translation by Jointly Learning to Align and Translate بهدف تحسين الاتصال بين المشفِّر (Encoder) ووحدة فك التشفير (Decoder) والتخلص من اختناق المعلومات.

بدلا من تمرير الحالة المخفية النهائية فقط من وحدة التشفير - والمعروفة باسم متجه السياق - إلى وحدة فك التشفير، مرر نموذجهم كل الحالات المخفية إلى وحدة فك التشفير. تم استخدام آلية الانتباه لتحديد أي حالة مخفية—أيْ أيّ كلمة في الجملة الأصلية—كانت الأكثر صلة في كل خطوة ترجمة تنفذها وحدة فك التشفير.

ووفقًا لما ذكره البحث "يُحرر هذا النهج النموذج من الحاجة إلى ترميز الجملة المصدرية بالكامل في متجه ثابت الطول، كما يسمح له بالتركيز فقط على المعلومات ذات الصلة بتوليد الكلمة المستهدفة التالية. يؤثر هذا بشكل إيجابي كبير على قدرة نظام الترجمة الآلية العصبية على تحقيق نتائج جيدة عند التعامل مع الجمل الأطول."5

ركزت أبحاث معالجة اللغة الطبيعية (NLP) اللاحقة بشكل أساسي على تحسين الأداء وتوسيع حالات الاستخدام لآليات الانتباه في النماذج المتكررة. أدى ابتكار نماذج المحولات عام 2017، التي تعتمد بالكامل على آلية الانتباه، إلى جعل الشبكات العصبية المتكررة (RNNs) شبه متقادمة في مجال معالجة اللغة الطبيعية.

كيف تعمل آليات الانتباه؟

يتمثل الأساسي لآلية الانتباه في تحديد الأهمية النسبية لمختلف أجزاء تسلسل الإدخال، ثم توجيه النموذج إلى التركيز على الأجزاء المهمة وتجاهل الأجزاء غير المهمة.

على الرغم من وجود أنواع وفئات آليات انتباه عديدة، كل منها يناسب حالات استخدام وأولويات مختلفة، إلا أن جميع آليات الانتباه تتضمن ثلاث عمليات أساسية:

  1.  عملية "قراءة" تسلسلات البيانات غير المُنسَّقة وتحويلها إلى تمثيلات متجهية ، حيث يتم تمثيل كل عنصر في التسلسل بواسطة متجه (متجهات) ميزات خاص به.

  2. عملية تحديد أوجه التشابه والارتباطات والاعتماديات الأخرى (أو انعدامها) بين كل متجه بدقة، يتم قياسها من خلال درجات المحاذاة (أو درجات الانتباه)، التي تعكس مدى محاذاتها (أو عدم محاذاتها). ثم يتم استخدام درجات المحاذاة لحساب أوزان الانتباه باستخدام دالة softmax، والتي تعمل على تطبيع جميع القيم إلى نطاق يتراوح بين 0 و1 بحيث مجموعها الإجمالي 1. على سبيل المثال، يعني تعيين وزن الانتباه بقيمة 0 لعنصر ما أنه يجب تجاهله، في حين يعني وزن الانتباه بقيمة 1 أن هذا العنصر يجب أن يحظى بانتباه بنسبة 100٪ لأن جميع العناصر الأخرى سيكون لها أوزان انتباه تساوي 0 (نظرًا لأن مجموع الأوزان يجب أن يكون 1). بعبارة أخرى، يمثل ناتج دالة softmax توزيع الاحتمالات.

  3. عملية استخدام أوزان الانتباه لتضخيم أو تقليل تأثير عناصر الإدخال المحددة على كيفية قيام النموذج بإجراء التنبؤات. بعبارة أخرى، تُستخدم أوزان الانتباه لمساعدة النماذج على التركيز على المعلومات المهمة أو تجاهل المعلومات غير الضرورية.

الاستعلامات والمفاتيح والقيم

قدم البحث الرائد "Attention is All You Need" آلية الانتباه باستخدام مصطلحات قواعد البيانات العلائقية، مثل الاستعلامات، والمفاتيح، والقيم. تم تصميم قواعد البيانات العلائقية لتسهيل تخزين البيانات واسترجاعها، حيث يتم تعيين معرّف فريد ("مفتاح") لكل جزء من البيانات، ويرتبط كل مفتاح بقيمة مقابلة. في مجال معالجة اللغة الطبيعية (NLP)، تمثل "قاعدة البيانات" الخاصة بالنموذج المفردات التي تعلمها من مجموعة البيانات التدريبية.

كان للبحث الرائد "Attention is All You Need" تأثير كبير، حتى أن الآليات السابقة للانتباه غالبًا ما يتم وصفها بأثر رجعي باستخدام هذه المصطلحات. بشكل عام، تتضمن هذه الرؤية لآليات الانتباه التفاعل بين ثلاثة أنواع من تمثيلات المتجهات لكل رمز مميز في التسلسل.

  • يمثل متجه الاستعلام المعلومات التي يبحث عنها رمز مميز معين.
  • تمثل متجهات المفاتيح المعلومات التي يحتوي عليها كل رمز مميز. تُستخدم المحاذاة بين الاستعلام والمفتاح لحساب في حساب أوزان الانتباه.
  • تطبق القيمة (أو متجه القيمة) المعلومات المرجحة بالانتباه من المتجهات الرئيسية. يتم ترجيح المساهمات من المفاتيح التي تتماشى بقوة مع الاستعلام بشكل أكبر. سيتم ترجيح المساهمات من المفاتيح غير ذات الصلة بطلب البحث بالقرب من الصفر.

تُميَّز أنواع آليات الانتباه المختلفة بشكل أساسي وفقًا لطريقة ترميز المتجهات، وكيفية حساب درجات المحاذاة، وآلية تطبيق أوزان الانتباه لتزويد النموذج بالمعلومات ذات الصلة.
 

الانتباه الإضافي

تم تصميم آلية الانتباه التي ابتكرها Bahdanau خصيصًا للترجمة الآلية. وهي تستخدم شبكة عصبية متكررة ثنائية الاتجاه لتشفير كل رمز مميز في الإدخال. تعمل هذه البنية على معالجة تسلسل الإدخال في الاتجاه الأمامي والعكسي، ثم دمج النتائج معًا. يعد هذا النهج مفيدًا بشكل خاص عند التعامل مع اللغات التي تختلف فيها ترتيب الكلمات، مثل الأسماء والصفات، بين النص الأصلي والترجمة.

في هذه الآلية، تمثل الحالة المخفية لوحدة فك التشفير عند كل خطوة زمنية في الجملة المُترجمة متجه الاستعلام، بينما تمثل الحالة المخفية للمشفّر عند كل خطوة في الجملة المصدر متجه المفتاح.

يتم تحديد درجات المحاذاة بعد ذلك بواسطة شبكة عصبية أمامية بسيطة، وهي طبقة الانتباه، والتي يتم تدريبها بشكل مشترك مع بقية النموذج. تتكون طبقة الانتباه من ما يصل إلى ثلاثة مجموعات فرعية من أوزان النموذج القابلة للتعلم: أوزان الاستعلام لحالات فك التشفير المخفية ("Wq")، وأوزان المفاتيح لحالات التشفير المخفية ("Wk")، وأوزان القيم لتحجيم المخرجات النهائية ("wv"). تمثل هذه الأوزان "معرفة النموذج": فمن خلال ضبط القيم المحددة لتلك الأوزان أثناء التدريب لتقليل دالة الفقد، يتعلم النموذج إجراء ترجمات دقيقة.

في كل خطوة، يعمل الانتباه الإضافي بالطريقة التالية:

  • متجه الاستعلام (بعد ضربه في Wq) تتم إضافته إلى متجه المفتاح (بعد ضربه في Wk). إذا كانا متطابقين، فإن جمعهما معًا سينتج قيمة كبيرة. أما إذا كانا غير مرتبطين ببعضهما، فإن جمعهما سينتج قيمة صغيرة أو قيمة سالبة.
  • يتم إدخال الرقم الناتج إلى tفيNH دالة تنشيط، والتي تقوم بتعيين جميع الإدخلات إلى رقم بين -1 و1.
  • الناتج من tفيNH الدالة يتم بعد ذلك ضربه بأوزان القيمة wv. وهذا يعطي درجة المحاذاة بين متجه الاستعلام ومتجه المفتاح هذا.
  • يتم بعد ذلك إدخال درجة المحاذاة في دالة softmax، والتي تُنتج وزن انتباه لمتجه المفتاح هذا.
     

يتم حساب متجه السياق الذي تستخدمه وحدة فك التشفير لتوليد الجملة المترجمة على أنه المجموع المُرجح بالانتباه لكل متجه مفتاح. تتمثل إحدى ميزات الانتباه الإضافي في أنه لا يشترط أن يكون لمتجهات الاستعلام ومتجهات المفاتيح الطول نفسه.

الانتباه بالضرب النقطي

في عام 2015، قدم Luong وزملاؤه عدة منهجيات جديدة لتبسيط وتحسين آلية الانتباه التي طورها Bahdanau في الترجمة الآلية. ربما كان أبرز إسهاماتهم هو تقديم دالة جديدة لحساب درجات المحاذاة تعتمد على الضرب بدلًا من الجمع. كما أنها تخلت عن استخدام دالة التنشيط tفيNH ، حيث تم حساب التشابه بين متجهات الحالات المخفية باستخدام الضرب النقطي. لهذا السبب، يُطلق على هذه الآلية غالبًا اسم الانتباه بالضرب النقطي أو الانتباه الضربي (Multiplicative Attention).

الفكرة وراء استخدام حاصل الضرب النقطي لمقارنة متجهات الاستعلام تستند إلى أسس رياضية وعملية على حد سواء:

  • إذا تمت محاذاة متجهات Q  وK  - أي أن متجه الاستعلام ومتجه المفتاح متشابهان في المعنى—فإن ضربهما سينتج قيمة كبيرة. وبعد تطبيق دالة softmax، تؤدي هذه القيمة الكبيرة إلى وزن انتباه مرتفع لذلك المفتاح. أما إذا لم يتم محاذاة المتجهات جيدًا، فسيكون ناتج الضرب النقطي صغيرًا أو سالبًا، مما يؤدي إلى وزن انتباه منخفض بعد تطبيق دالة softmax.
  • في التطبيق العملي، يُعد الضرب أسرع بكثير وأكثر كفاءة حسابيًا للشبكات العصبية مقارنةً بعمليات الجمع، حيث يمكن تنفيذه في خطوات أقل باستخدام الضرب المصفوفي.6

تتمثل إحدى نتائج استخدام الانتباه بالضرب النقطي في أن حسابات الضرب النقطي تتطلب أن يكون لكل من المتجهين العدد نفسه من الأبعاد، dK .

بينما يستمر الانتباه الإضافي (Additive Attention) في حساب المتجه السياقي على أنه المجموع المُرجَّح لمتجهات المفتاح، يقوم الانتباه بالضرب النقطي بحساب المتجه السياقي على أنه المتوسط المُرجَّح لمتجهات المفتاح.
 

الانتباه بالضرب النقطي المتدرج

أشار مؤلفا بحث "Attention is All You Need" إلى أنه على الرغم من أن الانتباه بالضرب النقطي أسرع وأكثر كفاءة من الناحية الحسابية من الانتباه الإضافي، إلا أن الانتباه الإضافي يتفوق على الانتباه بالضرب النقطي التقليدي مع المتجهات الأطول.

لقد افترضوا أنه عندما تكون dK كبيرة جداً، فإن قيم الضرب النقطي الناتجة تكون كبيرة أيضًا. وعند قيام دالة Softmax بضغط هذه القيم الكبيرة لتتناسب بين 0 و1، يؤدي الانتشار العكسي إلى تدرجات صغيرة جدًا يصعب تحسينها. كشفت التجارب أن قياس حاصل الضرب النقطي لمتجهين بطول dK ضرب  1dK قبل تطبيع softmax ينتج عنه تدرجات أكبر مما يسهل تحسين النموذج وجعل التدريب أكثر استقرارًا وسلاسة.

تُكتَب دالة الانتباه بالضرب النقطي المقيَّس في نماذج المحولات بالصورة التالية فيttENtioN(Q,K,V)=Softmفيx(QKTdK)V .

 

الانتباه الذاتي

كانت أقدم أنواع آليات الانتباه تؤدي جميعها ما يُعرف الآن باسم الانتباه المتقاطع. في الانتباه المتقاطع، تأتي الاستعلامات والمفاتيح من مصادر بيانات مختلفة. على سبيل المثال، في مهام الترجمة الآلية، تأتي المفاتيح من مجموعة نصية بلغة معينة، في حين تأتي الاستعلامات من لغة أخرى. أما في مهام التعرف على الكلام، فإن الاستعلامات تكون بيانات صوتية، في حين أن المفاتيح تكون بيانات نصية تستخدم لتفريغ الصوت إلى نص مكتوب.

في الانتباه الذاتي، تأتي الاستعلامات، والمفاتيح، والقيم جميعها من المصدر نفسه. على الرغم من أن آليات انتباه كل من Bahdanau وLuong قد تم تصميمها بشكل صريح لمهام الترجمة الآلية، قدَّم Cheng وزملاؤه مفهوم الانتباه الذاتي -الذي أطلقوا عليه اسم "الانتباه الداخلي" - كطريقة لتحسين فهم النصوص في مهام قراءة الآلة عمومًا. ركزت آلية الانتباه الخاصة بهم، الموضحة في بحث منشور عام 2016، ليس على كيفية مساهمة عناصر الإدخال في تسلسل عام، ولكن على كيفية ارتباط الرموز المختلفة داخل الإدخال ببعضها البعض.

تأمل نموذجًا لغويًا يترجم النص الإنجليزي التالي
".On Friday, the judge issued a sentence"

  • الكلمة السابقةthe تشير إلى أن كلمةjudge تُستخدم هنا كاسم، أي الشخص الذي يترأس محاكمة قانونية، وليس كفعل يعني "يقيّم" أو "يصدر حكمًا".
  • هذا السياق لكلمةjudge تشير إلى أن كلمةsentence على الأرجح تشير إلى عقوبة قانونية وليس إلى "جملة نحوية"
  • الكلمةissued تعزز هذه الترجمة، حيث توضح أنها تتعلق بالمفهوم القانوني وليس النحوي.
  • لذلك، عند ترجمة الكلمةsentence ينبغي أن يركز النموذج علىjudge وissued . مع إيلاء بعض الانتباه أيضًا لكلمةthe . يمكن أن يتجاهل الكلمات الأخرى بشكل أو بآخر. ستقوم آلية الانتباه الذاتي المدربة جيدًا بحساب أوزان الانتباه وفقًا لذلك.

ركز بحث Cheng وزملاؤه بشكل حصري على قدرة الانتباه الذاتي على قراءة وفهم النصوص، لكن سرعان ما تبين أن نمذجة العلاقات داخل التسلسل يمكن أن تكون أداة قوية أيضًا في كتابة النصوص. وقد أدى التطوير المستمر لللانتباه الذاتي، إلى جانب نماذج المحولات التي مكّنها، إلى ظهور الذكاء الاصطناعي التوليدي الحديث ونماذج الانحدار الذاتي التي تستطيع توليد نصوص أصلية.
 

الانتباه الذاتي والترجمة الآلية

تستطيع نماذج الانحدار الذاتي أداء ترجمة النصوص آليًا باستخدام الانتباه الذاتي، لكنها تتبع نهجًا مختلفًا في ذلك. فبينما يتعامل الانتباه المتقاطع مع الجملة المصدر والجملة المُترجمة كسلسلتين منفصلتين، يعامل الانتباه الذاتي النص الأصلي والنص المُترجم على أنهما تسلسل واحد.

لكي يتمكن نموذج لغوي كبير (LLM) قائم على الانحدار الذاتي والانتباه الذاتي من ترجمة النصوص، فإنه يتعلم جميع الكلمات التي يصادفها أثناء التدريب—عبر جميع اللغات—كجزء من مفردات رموز مميزة متعددة اللغات. يدرك النموذج ببساطة أنه عندما يحتوي التسلسل على تعليمات مثل "ترجم [الكلمات المكتوبة بلغة 1] إلى لغة 2"، فإن الكلمات التالية في التسلسل يجب أن تكون رموزًا مميزة من اللغة 2

في جوهره، لا يدرك النموذج اللغوي الكبير القائم على الانحدار الذاتي تلقائيًا أنه توجد لغات مختلفة. وبدلًا من ذلك، يفهم فقط كيف أن مجموعات معينة من الرموز المميزة—والتي تمثل هنا كلمات من نفس اللغة—تُولي الانتباه لبعضها البعض. يتم تعزيز هذا الفهم السياقي بشكل أكبر من خلال تقنيات مثل ضبط النموذج وفقًا للتعليمات.

 

الانتباه في نماذج المحولات

قدم البحث الرائد "Attention is All You Need"، الذي ألفه Vaswani وزملاؤه، مفهوم الانتباه الذاتي كأساس لتقديم بنية شبكة عصبية جديدة: المحول. اعتمد نموذج المحول بالكامل على آليات الانتباه، متخليًا عن التلافيف العصبية (CNNs) والتكرار المستخدم في الشبكات العصبية المتكررة (RNNs)، واستبدلهما بطبقات الانتباه فقط وطبقات أمامية خطية قياسية.

اعتمد النموذج الذي قدمه مؤلفو البحث "Attention is All You Need" على بنية التشفير-فك التشفير، على غرار النماذج السابقة القائمة على الشبكات العصبية المتكررة. لاحقًا، تخلت النماذج القائمة على المحول عن إطار التشفير-فك التشفير. كان أحد أول النماذج البارزة التي تم إصدارها بعد ورقة المحولات هو نموذج BERT (اختصارًا لـ Bidirectional Encoder Representations from Transformers)، والذي يعتمد فقط على المشفر. أما النماذج اللغوية الكبيرة القائمة على الانحدار الذاتي، والتي أحدثت ثورة في توليد النصوص، مثل نماذج GPT (Generative Pretrained Transformer)، فهي تعتمد فقط على فك التشفير.

قدم بحث "Attention Is All You Need" عدة ابتكارات في آلية الانتباه، كان من أبرزها الانتباه بالضرب النقطي المقيَّس، وذلك بهدف تحسين الأداء وتكييف آلية الانتباه مع بنية نموذج جديدة بالكامل.
 

الترميز الموضعي

يمكن أن يكون لترتيب الكلمات ومواضعها تأثير مهم على معانيها. فبينما تحافظ الشبكات العصبية المتكررة (RNNs) بطبيعتها على المعلومات حول موضع كل رمز مميز من خلال حساب الحالات المخفية بشكل متسلسل، أي كلمة تلو الأخرى، يجب على نماذج المحولات ترميز المعلومات الموضعية بشكل صريح.

باستخدام الترميز الموضعي، يضيف النموذج متجهًا من القيم لكل رمز مميز مستمدًا من موضعه النسبي، وذلك قبل أن يدخل الإدخال إلى آلية الانتباه. عادةً ما يكون لهذا المتجه الموضعي أبعاد أقل بكثير من تمثيل الرمز المميز نفسه، مما يعني أن جزءًا صغيرًا فقط من تمثيل الرمز المميز يتلقى معلومات موضعية. الرياضيات وراء هذه العملية قد تكون معقدة، ولكن المنطق الأساسي بسيط:

  • كلما اقترب الرمزين المميزين، كلما كانت المتجهات الموضعية أكثر تشابهًا.
  • وكلما زاد تشابه المتجهات الموضعية الخاصة بكل منهما، زاد التشابه بين متجهات الرمز المميز الخاصة بهم بعد إضافة تلك المتجهات الموضعية.
  • كلما كانت التضمينات المحدثة موضعياً أكثر تشابهاً، كلما كانت درجة محاذاة الرمز المميز أكبر، مما يؤدي إلى زيادة وزن الانتباه بين هذين الرمزين. وبالتالي ، يتعلم النموذج دفع المزيد من الاهتمام الذاتي للرمز المميز القريب.

صمّم Vaswani وزملاؤه خوارزمية بسيطة تستخدم دالة الجيب للرموز الموجودة في المواضع الزوجية، ودالة جيب التمام للرموز في المواضع الفردية. لاحقًا، حسّنت خوارزميات مثل الترميز الموضعي الدوَّار القدرة على ترميز المعلومات الموضعية بفعالية في التسلسلات الطويلة جدًا، مما ساعد بدوره في تمكين النماذج اللغوية الكبيرة (LLMs) ذات نوافذ السياق الأكبر.
 

آلية الانتباه الذاتي في نماذج المُحوِّلات

بمجرد تحديث تمثيلات الرموز المميزة بمعلومات الترميز الموضعي، يتم استخدام كل منها لإنشاء ثلاثة متجهات جديدة من خلال تمرير تمثيل الرمز المميز الأصلي عبر ثلاث طبقات عصبية خطية متوازية تسبق أول طبقة انتباه. تمتلك كل طبقة متوازية مصفوفة أوزان فريدة، يتم تعلم قيمها المحددة من خلال التدريب المسبق الخاضع للإشراف الذاتي باستخدام مجموعة بيانات ضخمة من النصوص.

  • يتم ضرب التضمين في مصفوفة الوزن WQ لإنتاج متجه الاستعلام (Q)، الذي يحتوي على dK  أبعاد
  • يتم ضرب التضمين في مصفوفة الوزن WK لإنتاج المتجه الرئيسي (K)، أيضًا بأبعاد dK 
  • يتم ضرب التضمين في مصفوفة الوزن WV لإنتاج متجه القيمة ( V )، مع الأبعاد  dV

تتمثل الوظيفة الأساسية لآلية الانتباه في تحديد الأهمية النسبية لكل زوج من الاستعلام والمفتاح بين كل رمز مميز. بالنسبة لكل رمز x في تسلسل الإدخال، يقوم نموذج المحول بحساب أوزان الانتباه (ثم تطبيقها) على النحو التالي:

  1. متجه استعلام الرمز المميّز لـ x Qx مضروبة في متجه المفتاح لكل رمز مميز K. يكون ناتج الضرب النقطي كبيرًا إذا كان الرمز الآخر ذا صلة عالية، بينما يكون صغيرًا أو سالبًا إذا كان الرمز الآخر غير ذي صلة.
  2. سيتم تحجيم كل منتج نقطي - أي مضروب - في 1dK. والناتج هو درجة المحاذاة بين الرمز المميز x وكل رمز مميز آخر.
  3. يتم إدخال درجات المحاذاة إلى دالة Softmax، التي تقوم بتطبيع كل درجة إلى قيمة بين 0 و1 بحيث يكون مجموعها 1. هذه القيم تمثل أوزان الانتباه بين الرمز x وبقية الرموز. يمكنك تصوّر كل رمز مميز على أنه يحتوي الآن على متجه مقابل لأوزان الانتباه، حيث يمثل كل عنصر في هذا المتجه مدى تأثير رمز مميز على الرمز المميز الهدف.
  4. يتم الآن ضرب متجه القيمة لكل رمز مميز آخر في وزن الانتباه الخاص به.
  5. يتم حساب المتوسط لجميع متجهات القيم المُرجّحة بالانتباه. ويمثل المتجه الناتج متوسط جميع المساهمات المُرجّحة بالانتباه من كل متجه مفتاح.
  6. أخيرًا، يتم إضافة متجه التغييرات الناتج لكل رمز مميز إلى تمثيل المتجه الأصلي للرمز x. وبذلك، يتم تحديث تمثيل متجه الرمز x ليعكس بشكل أفضل السياق الذي توفره الرموز الأخرى في التسلسل.

الانتباه متعدد الرؤوس

يُعد أخذ متوسط المساهمات المُرجّحة بالانتباه من الرموز المميزة الأخرى بدلاً من معالجة كل مساهمة على حدة نهجًا فعالًا من الناحية الرياضية، لكنه يؤدي إلى فقدان بعض التفاصيل. ولمعالجة هذا القصور، تعتمد بنية المحوِّل على الانتباه متعدد الرؤوس.

للاستفادة من كفاءة التوزيع المتوسط مع الاستمرار في معالجة العلاقات المعقدة بين الرموز المميزة، تقوم نماذج المحولات بتنفيذ عمليات الانتباه الذاتي عدة مرات بالتوازي في كل طبقة انتباه داخل الشبكة. يتم تقسيم تمثيل كل رمز مميز أصلي إلى h مجموعات متساوية الحجم. يتم تمرير كل جزء من التمثيل إلى واحدة من h مصفوفات موازية لأوزان الاستعلام (Q)، والمفتاح (K)، والقيمة (V)، والتي تُعرف باسم رأس الاستعلام، ورأس المفتاح، ورأس القيمة على التوالي. يتم بعد ذلك تمرير المتجهات الناتجة من هذه الثلاثيات المتوازية إلى رأس الانتباه المقابل.

في الطبقات النهائية لكل كتلة انتباه، يتم في النهاية دمج مخرجات هذه المسارات المتوازية h معًا. عمليًا، يؤدي تدريب النموذج إلى تعلم كل مسار أوزانًا مختلفة تلتقط جوانب منفصلة من المعاني الدلالية. يسمح ذلك للنموذج بمعالجة الطرق المختلفة التي يمكن أن يؤثر بها سياق الكلمات الأخرى على معنى الكلمة. على سبيل المثال، قد يتخصص أحد رؤوس الانتباه في تحليل تغييرات الأزمنة النحوية، بينما قد يركز رأس آخر على تأثير الكلمات المجاورة على النغمة العامة للنص.

في هذه المرحلة، يتم توضيح الدائرة الكاملة لعملية ضرب المصفوفات في كتلة الانتباه للمحول القياسي. تجدر الإشارة إلى أن التطورات اللاحقة لآلية الانتباه في المحول، مثل الانتباه متعدد الاستعلامات والانتباه بالاستعلامات المجمّعة، تبسّط أو تدمج بعض عناصر العملية لتقليل المتطلبات الحسابية.

توليد المخرجات

في الطبقات الأخيرة من نماذج المحولات، يتم تدريب رؤوس الانتباه غالبًا لإجراء تنبؤات متخصصة. على سبيل المثال، قد يتخصص أحد رؤوس الانتباه في الطبقة الأخيرة من النموذج اللغوي الكبير في التعرف على الكيانات المسماة، بينما قد يركز رأس آخر على تحليل المشاعر، وهكذا.

في نماذج الانحدار الذاتي اللغوية الكبيرة (autoregressive LLMs)، تكون الطبقة قبل الأخيرة طبقة خطية تستقبل المتجه المُحوَّل بالكامل وتُسقطه إلى حجم يتطابق مع تمثيلات المتجهات (vector embeddings) التي تعلمها النموذج لكل رمز مميز في مفرداته. يتيح ذلك حساب الدرجات التي تمثل مدى تطابق المتجه الناتج مع كل رمز في المفردات. أما الطبقة الأخيرة، فهي طبقة دالة Softmax، والتي تعمل على تحويل تلك الدرجات إلى احتمالات (بمجموع كلي يساوي 1)، ثم تستخدم تلك الاحتمالات لتحديد الكلمة التالية الأكثر احتمالًا بناءً على الكلمات التي سبقتها.

الحواشي

1. "Leaderboard: Object Detection on COCO test-dev," Papers With Code, تم الوصول إليه في 18 نوفمبر 2024
2. "Leaderboards: Image Segmentation" Papers With Code, تم الوصول إليه في 18 نوفمبر 2024
3. "Leaderboard: Visual Question Answering (VQA) on VQA v2 test-dev," Papers With Code, تم الوصول إليه في 18 نوفمبر 2024
4. "Learning long-term dependencies with gradient descent is difficult," IEE Transactions on Neural Networks 5(2): 157-66, فبراير 1994
5. "Neural Machine Translation by Jointly Learning to Align and Translate," arXiv, 1 سبتمبر 2014
6. "Multiplicative Attention," Papers With Code