ما المقصود بالانتباه الذاتي؟

رسم توضيحي تجريدي لخطوط من نقاط حمراء على خلفية زرقاء

المؤلفون

Vanna Winland

AI Advocate & Technology Writer

ما المقصود بالاهتمام الذاتي؟

الانتباه الذاتي هو نوع من آليات الانتباه المستخدمة في نماذج التعلم الآلي. تُستخدم هذه الآلية لتقييم أهمية الرموز المميزة أو الكلمات في تسلسل المدخلات لفهم العلاقات بينها على نحو أفضل. إنه جزء مهم من نماذج المحولات، وهي بنية ذكاء اصطناعي فائقة الإمكانات ضرورية لمهام معالجة اللغة الطبيعية (NLP. بنية المحولات هي الأساس لمعظم النماذج اللغوية الكبيرة (LLMs) الحديثة.

طرحت آلية الانتباه الذاتي عن طريق نموذج المحول، بنية الشبكات العصبية التي اقترحها الباحثون. الهدف من البنية المقترحة هو مواجهة تحديات نماذج التعلم الآلي التقليدية التي تستخدم الشبكات العصبية التلافيفية (CNNs) والشبكات العصبية المتكررة (RNNs).1

تتبع النماذج المتسلسلة التقليدية بنية وحدة فك التشفير نفسها مثل نماذج المحولات ولكنها تعالج البيانات خطوة بخطوة أو من التسلسل إلى التسلسل (seq2seq). تشكل هذه الوظيفة تحديًا للمعالجة المتوازية، وهي القدرة على تقليل وقت الحوسبة وتحسين توليد المخرجات من خلال حساب أوزان الانتباه عبر جميع أجزاء تسلسل المدخلات في وقت واحد.

أدى الانتباه الذاتي دورًا رئيسيًا في النهوض بالنماذج اللغوية الكبيرة من خلال تمكين التوازي داخل أمثلة التدريب. هذه الطريقة مفيدة لأنه كلما زاد طول التسلسل، زادت قيود الذاكرة التي تحد من التجميع عبر أمثلة التدريب. باستخدام الانتباه الذاتي، يمكن تقسيم بيانات تدريب النموذج اللغوي الكبير إلى دفعات ومعالجتها بالتوازي على وحدات معالجة رسومات متعددة.1 يقلل الانتباه الذاتي من قوة الحوسبة اللازمة لتدريب نماذج التعلم الآلي من خلال معالجة التجميع الفعال بالتوازي.

لا يُسهم الانتباه الذاتي في توزيع الحمل الحوسبي بكفاءة فحسب، بل يتيح القدرة على معالجة أوزان الانتباه في وقت واحد كذلك. تسمح هذه القدرة للنموذج بالتركيز على الأجزاء ذات الصلة من تسلسل المدخلات للتنبؤ ديناميكيًا بأهمية كل عنصر داخل التسلسل. الانتباه الذاتي مفيد لمهام معالجة اللغة الطبيعية مثل الترجمة الآلية وتحليل المشاعر والتلخيص.  

كيف يعمل الانتباه الذاتي؟

يتشابه الانتباه الذاتي في نماذج التعلم الآلي مع المفهوم السلوكي البشري من حيث أن كليهما ينطوي على التركيز على العناصر ذات الصلة ضمن سياق أكبر لمعالجة المعلومات بدقة. في علم النفس، يتعلق الأمر بالتركيز على أفكارك أو سلوكياتك، بينما في التعلم العميق، يتعلق الأمر بالتركيز على الأجزاء ذات الصلة من تسلسل المدخلات.

تشتمل بنية المحول على طبقة انتباه ذاتي حيث يتم دمج عملية الانتباه. تم شرح الخطوات كما وردت في الورقة البحثية التي أعدها Ashish Vaswani وآخرون والتي تعرف بطبقة الانتباه الذاتي "Attention is All You Need".

تضمين تسلسل المدخلات

تسلسل المدخلات هو سلسلة من نقاط البيانات المضمّنة في تضمينات أو تمثيلات رقمية يمكن لخوارزمية التعلم الآلي استخدامها لحساب درجات الانتباه اللازمة لإنتاج تسلسل المخرجات.

في الترجمة الآلية، تُعد الجملة في الترجمة الآلية تسلسل مدخلات، حيث يُعد كل جزء من الجملة نقطة بيانات أو رمز إدخال. تُحول الرموز المميزة إلى تضمينات تعمل كوحدات دلالية يمكن للنموذج معالجتها.2 يتم استخدام التضمينات لحساب أوزان الانتباه التي تساعد النموذج على إعطاء الأولوية (أو الاهتمام بـ) للمدخلات الأكثر صلة.

توليد متجهات لدالة الانتباه

يستخدم النموذج هذه التضمينات لتوليد ثلاثة متجهات رئيسية لكل رمز مميز: الاستعلام (Q) والمفتاح (K) والقيمة (V). سوف تستخدم هذه القيم لمساعدة النموذج على إجراء أقوى التطابقات الدلالية داخل جملة المدخلات.

تُجرى عمليات ضرب المصفوفات للحصول على متجهات الاستعلام والمفتاح والقيمة. تحسب آلية الانتباه المجموع المرجح للقيم بناء على الاستعلام المعني ومصفوفات وزن عناصر المفتاح والقيمة والمدخلات المضمنة.1 تعرف هذه العملية باسم التحول الخطي.

حوسبة درجات الانتباه 

بعد تحويل التضمينات، تحسب درجات الانتباه لكل عنصر في التسلسل. يتم الحصول على درجات الانتباه عن طريق أخذ حاصل الضرب النقطي المتدرج بين متجهات الاستعلام ومتجهات المفتاح. تمثل أوزان الانتباه هذه مقدار التركيز (أو الانتباه) الذي يجب أن يعطيه رمز مميز معين للرموز المميزة الأخرى في تسلسل.

بعد ذلك، يتم قياس درجة الانتباه حسب الجذر التربيعي لأبعاد المتجهات الرئيسية. تساعد هذه العملية على تثبيت التدرجات ومنعها من النمو بصورة كبيرة جدًا بحيث لا يمكن حوسبتها بكفاءة مع زيادة أبعاد المتجهات.

تحويل درجات الانتباه إلى احتمالات 

تحول درجات الانتباه، التي تم الحصول عليها من خلال حاصل الضرب النقطي لمتجهات الاستعلام والمتجهات الرئيسية، إلى احتمالات باستخدام وظيفة softmax. هذه العملية تسمى التطبيع.

مع هذه الاحتمالات الطبيعية، تسمح كتلة انتباه softmax لبنية المحول بالقدرة على تقييم أهمية عناصر المدخلات في أثناء توليد المخرجات.3 تستخدم هذه الاحتمالات لإيجاد الأهمية النسبية لكل عنصر في التسلسل. يستخدم نموذج الانتباه هذه الأوزان الطبيعية لتحديد أجزاء تسلسل المدخلات التي يجب التركيز عليها.

وأخيرًا، تسهم أوزان الانتباه المشتقة من هذه العملية في المجموع المرجح النهائي لمتجه القيمة. كلما زادت درجة الانتباه، زاد وزن الانتباه الذي يتمتع به التسلسل. هذا يعني أنه سيكون له تأثير أكبر في الناتج النهائي للمجموع المرجح لمتجه القيمة.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

تعمل نماذج الانتباه على تحسين فهم السياق 

تُعد نماذج الانتباه فعالة في التقاط التبعيات بعيدة المدى بغض النظر عن المسافة بين كل عنصر أو رمز مميز داخل التسلسل. يعد الانتباه متعدد الرؤوس امتدادًا مهمًا للانتباه الذاتي الذي يعزز هذه الوظيفة الأساسية من خلال الاهتمام بعناصر مختلفة ضمن مدخلات مجموعة البيانات في وقت واحد. يمكن أن تنتبه النماذج إلى جوانب أو علاقات متميزة في البيانات في وقت واحد، ما يسمح بربط السياق بصورة أعمق بين التبعيات أو الرموز المميزة.

حسنت النماذجُ ثنائية الاتجاه الأولية، مثل تمثيلات التشفير ثنائي الاتجاه من المحولات (BERT)، فهمَ السياق من خلال السماح للنموذج بالنظر في المعلومات من كل من التسلسل الأمامي والخلفي. في الانتباه ثنائي الاتجاه، يهدف النموذج إلى فهم معنى الكلمة بناء على الكلمات المحيطة بها.4

أسهمت نماذج GPT في انتشار آليات الانتباه الذاتي، ما يسلط الضوء على فائدة نافذة السياق الموسعة للمهام التوليدية. تؤدي القدرة على معالجة المزيد من المعلومات في وقت واحد إلى تحسين الدقة والفهم.

تستخدم نماذج الذكاء الاصطناعي الانتباه الذاتي لمعالجة تسلسلات المدخلات الطويلة بكفاءة، وتبادل معلومات الانتباه على نطاق واسع مع تقليل استخدام الذاكرة.5 يسمح الانتباه الذاتي للنموذج باكتساب فهم سياقي أعمق باستخدام نافذة السياق داخل النموذج. كلما زاد حجم نافذة السياق، زاد عدد الرموز المميزة التي يمكن للنموذج الانتباه لها في وقت واحد.

حالات الاستخدام

مهام معالجة اللغة الطبيعية (NLP): تعمل آلية الانتباه الذاتي على تعزيز القدرات اللغوية لنماذج التعلم الآلي من خلال السماح بتحليل كامل وفعال للنص بأكمله. أظهر البحث تطورات في تصنيف المشاعر.6 يمكن للنماذج أداء مهام معالجة اللغة الطبيعية (NLP) على نحو جيد لأن طبقة الانتباه تسمح لها بحساب العلاقة بين الكلمات بغض النظر عن المسافة بينها.7

رؤية الكمبيوتر: لا تقتصر آليات الانتباه الذاتي على مهام معالجة اللغة الطبيعية (NLP). بل يمكن استخدامها للتركيز على أجزاء معينة من الصورة. تشير التطورات في نماذج التعرف على الصور إلى أن الانتباه الذاتي هو عنصر بالغ الأهمية لزيادة إمكاناتها وقدرتها على التعميم.8

الحواشي

1. “Attention Is All You Need“، آAshish Vaswani وآخرون، وقائع المؤتمر الدولي الحادي والثلاثين حول أنظمة معالجة المعلومات العصبية، arXiv:1706.03762v7، تمت المراجعة في 2 أغسطس 2023.

2. “Tokenization”، مقال، في مقدمة في استرجاع المعلومات، Christopher Manning، وPrabhakar Raghavan وHinrich Schutze، 2008.

3. “Rethinking Softmax: Self-Attention with Polynomial Activation “، Hemanth Saratchandran وآخرون، المعهد الأسترالي للتعلم الآلي، جامعة أديلايد، arXiv:2410.18613v1، 24 أكتوبر 2024.

4. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding“، Jacob Devlin وآخرون، arXiv:1810.04805v2، تمت مراجعته في 24 مايو 2019.

5. “Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective “، Zhiyuan Zeng وآخرون، arXiv:2412.14135، 18 ديسمبر 2024.

6. “Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification “، Weijiang Li وآخرون، الحوسبة العصبية مجلد 387، 28 إبريل 2020.

7. “Parallel Scheduling Self-attention Mechanism: Generalization and Optimization،” Mingfei Yu وMasahiro Fujita، arXiv:2012.01114v1، 2 ديسمبر 2020.

8. “Exploring Self-attention for Image Recognition،” Hengshuang Zhao، وJiaya Jia وVladlen Koltun، وقائع مؤتمر IEEE/CVF حول الرؤية الحاسوبية والتعرف على الأنماط، 2020.

الموارد

ما هو التضمين المتجه؟
موضوع ذو صلة
ما هي آلية الانتباه؟
موضوع ذو صلة
ما هو نموذج المحول؟
موضوع ذو صلة
ما هي مجموعة البيانات؟
موضوع ذو صلة
حلول ذات صلة
®IBM® watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي في وقت قصير وباستخدام جزء بسيط من البيانات.

استكشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات في مجال الذكاء الاصطناعي

تساعد خدمات IBM Consulting AI في إعادة تصور طريقة عمل الشركات باستخدام حلول الذكاء الاصطناعي من أجل النهوض بأعمالها.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا