نموذج المحول هو نوع من هندسة الشبكات العصبية التي تتميز بمعالجة البيانات المتسلسلة، وهو مرتبط بشكل بارز بنماذج اللغة الكبيرة.. وقد حققت نماذج المحولات أيضًا أداءً متميزًا في مجالات أخرى من الذكاء الاصطناعي، مثل الرؤية الحاسوبية، والتعرف على الكلام، والتنبؤ بالسلاسل الزمنية.
تم وصف بنية المحول لأول مرة في الورقة البحثية الأساسية لعام 2017 بعنوان "Attention is All You Need" التي أعدها Vaswani وآخرون، والتي تُعد الآن لحظة فارقة في التعلم العميق.
تم طرح النماذج القائمة على المحولات في الأصل كتطور لنماذج الشبكة العصبية التكرارية (RNN) المستخدمة في الترجمة الآلية، ومنذ ذلك الحين حققت النماذج القائمة على المحولات تطورات متطورة في كل مجالات التعلم الآلي تقريبًا.
على الرغم من تعدد استخداماتها، لا تزال نماذج المحولات تتم مناقشتها بشكل شائع في سياق حالة الاستخدام من معالجة اللغة الطبيعية، مثل روبوتات المحادثة، وإنشاء النص، والتلخيص، والإجابة عن الأسئلة، وتحليل المشاعر.
كان نموذج بيرت المشفر (أو التمثيلات المشفرة ثنائية الاتجاه من المحولات)، الذي قدمته جوجل في عام 2019، معيارًا رئيسيًا في إنشاء المحولات ويظل الأساس لمعظم تطبيقات تضمين الكلمات الحديثة، من قواعد بيانات المتجهات الحديثة إلى بحث جوجل.
لقد حفزت برامج نماذج اللغة الكبيرة المعتمدة على فك التشفير المتسلسل التلقائي فقط، مثل نموذج GPT-3 (المختصر للمحول التوليدي المدرب مسبقًا) الذي دعم إطلاق ChatGPT من OpenAI، العصر الحديث للذكاء الاصطناعي التوليدي (الذكاء الاصطناعي).
كما أن قدرة نماذج المحولات على التمييز المعقد لكيفية تأثير كل جزء من تسلسل البيانات وارتباطه بالآخرين تضفي عليها العديد من الاستخدامات متعددة الوسائط.
فعلى سبيل المثال، غالبًا ما تتجاوز محولات الرؤية (ViTs) أداء الشبكات العصبية التلافيفية (CNN) في تجزئة الصور واكتشاف الأشياء والمهام ذات الصلة. كما تعمل بنية المحول أيضًا على تشغيل العديد من نماذج الانتشار المستخدمة لتوليد الصور وتحويل النص إلى كلام (TTS) ونماذج لغة الرؤية(VLMs).
الميزة الأساسية لنماذج المحولات هي آلية الاهتمام الذاتي، والتي تستمد منها نماذج المحولات قدرتها المذهلة على اكتشاف العلاقات (أو التبعيات) بين كل جزء من تسلسل الإدخال. وعلى عكس بنية الشبكات العصبية المتكررة (RNN) والتلافيفية (CNN) التي سبقتها، تعتمد بنية المحولات فقط على طبقات الانتباه والطبقات الأمامية التقليدية.
فائدة الانتباه الذاتي، وتحديداً تقنية الانتباه متعدد الرؤوس التي تستخدمها نماذج المحولات لحسابها، هي ما يمكّن المحولات من تجاوز فائدة الشبكات العصبية ذاتية التردد والشبكات التلافيفية التي كانت في السابق من أحدث النماذج.
قبل تقديم نماذج المحولات، اعتمدت معظم مهام معالجة اللغة الطبيعية على الشبكات العصبية المتكررة. فالطريقة التي تعالج بها الشبكات العصبية المتكررة البيانات المتسلسلة هي تسلسلية بطبيعتها: فهي تستوعب عناصر تسلسل الإدخال واحدًا تلو الآخر وبترتيب محدد.
ويؤدي ذلك إلى ضعف قدرة الشبكات العصبية المتكررة على استيعاب العلاقات البعيدة المدى، وبالتالي تقتصر فعاليتها على معالجة النصوص القصيرة فقط.
وقد تمت معالجة هذا النقص إلى حد ما من خلال إدخال شبكات الذاكرة قصيرة المدى (LSTMs)، ولكنه لا يزال يمثل عيبًا أساسيًا في شبكات الذاكرة المحمولة.
على النقيض من ذلك، يمكن لآليات الانتباه فحص تسلسل كامل في وقت واحد واتخاذ قرارات حول كيفية ووقت التركيز على خطوات زمنية محددة من هذا التسلسل.
وبالإضافة إلى تحسين القدرة على فهم التبعيات بعيدة المدى بشكل كبير، تسمح هذه النوعية من المحولات أيضًا بالتوازي: القدرة على تنفيذ العديد من الخطوات الحسابية في وقت واحد، بدلاً من التسلسل.
بفضل ملاءمتها للعمل المتوازي، تستطيع نماذج المحولات استغلال القوة والسرعة التي تقدمها وحدات معالجة الرسوميات GPUs بشكل كامل خلال مراحل التدريب والاستنتاج. وبدوره، أتاح هذا الاحتمال الفرصة لتدريب نماذج المحولات على مجموعات بيانات ضخمة غير مسبوقة من خلال التعلم ذاتي الإشراف.
خاصة بالنسبة للبيانات المرئية، توفر المحولات أيضا بعض المزايا مقارنة بالشبكات العصبية. تعتمد الشبكات التلافيفية بشكل أساسي على المعالجة المحلية التفافات لمعالجة مجموعات فرعية أصغر من بيانات الإدخال قطعةً تلو الأخرى.
وبالتالي، تكافح الشبكات التلافيفية أيضا لتمييز التبعيات بعيدة المدى، مثل الارتباطات بين الكلمات (في النص) أو وحدات البكسل (في الصور) التي لا تجاور بعضها البعض. كما أن آليات الانتباه ليس لديها هذا القيد.
يعد فهم المفهوم الرياضي للانتباه، وبشكل أكثر تحديدًا الانتباه الذاتي، أمرًا ضروريًا لفهم نجاح نماذج المحولات في العديد من المجالات. وتعد آليات الانتباه، في الأساس، خوارزميات مصممة لتحديد أجزاء تسلسل البيانات التي يجب أن "تنتبه إليها" نماذج الذكاء الاصطناعي في أي لحظة معينة.
تأمل نموذجًا لغويًا يترجم النص الإنجليزي "
بشكل عام، تقوم طبقات انتباه نموذج المحول بتقييم واستخدام السياق المحدد لكل جزء من تسلسل البيانات في 4 خطوات:
وقبل التدريب، لا "يعرف" نموذج المحول بعد كيفية إنشاء عمليات تضمين المتجهات المثلى ودرجات المحاذاة. أثناء التدريب، يقوم النموذج بعمل تنبؤات عبر ملايين الأمثلة المستمدة من بيانات التدريب الخاصة به، وتحدد دالة الخسارة خطأ كل تنبؤ.
من خلال دورة متكررة لإجراء تنبؤات ثم تحديث ترجيحات النموذج من خلال الانتشار الخلفي وأصل التدرج، "يتعلم" النموذج لإنشاء المتجهات الموجهة ودرجات المحاذاة وأوزان الانتباه التي تؤدي إلى مخرجات دقيقة.
تعمل نماذج المحولات مثل قواعد البيانات العلائقية على توليد متجهات الاستعلام والمفتاح والقيمة لكل جزء من تسلسل البيانات،وتستخدمها لحساب أوزان الانتباه من خلال سلسلة من عمليات ضرب المصفوفات.
تم تصميم قواعد البيانات العلائقية لتبسيط تخزين واسترجاع البيانات ذات الصلة: فهي تقوم بتعيين معرف فريد («مفتاح») لكل جزء من البيانات، ويرتبط كل مفتاح بقيمة مقابلة. طبقت الورقة البحثية "Attention is All You Need" هذا الإطار المفاهيمي لمعالجة العلاقات بين كل رمز مميز داخل تسلسل نصي.
بالنسبة لبرنامج نموذج اللغة الكبير، فإن "قاعدة بيانات" النموذج هي مفردات الرمز المميز التي تعلمها من عينات النصوص في بيانات التدريب الخاصة به. آلية الانتباه الخاصة به تستخدم المعلومات من "قاعدة البيانات" لفهم سياق اللغة.
في حين أن الحروف—الحروف أو الأرقام أو علامات الترقيم - هي الوحدة الأساسية التي نستخدمها نحن البشر لتمثيل اللغة، فإن أصغر وحدة لغوية تستخدمها نماذج الذكاء الاصطناعي هي الرمز المميز. يتم تعيين رقم معرّف لكل رمز مميز، وأرقام المعرفات هذه (بدلاً من الكلمات أو حتى الرموز نفسها) هي الطريقة التي تتنقل بها نماذج اللغة الكبيرة قاعدة بيانات المفردات الخاصة بها. هذا الترميز للغة يقلل بشكل كبير من القوة الحسابية اللازمة لمعالجة النص.
لتوليد متجهات الاستعلام والمفاتيح لتغذية طبقات انتباه المحول، يحتاج النموذج إلى تضمين متجه أولي غير محدد السياق لكل رمز مميز. يمكن تعلُّم هذه التضمينات الرمزية الأولية أثناء التدريب أو استيرادها من نموذج تمثيل كلمات تم تدريبه مسبقًا.
يمكن أن يؤثر ترتيب الكلمات وموضعها بشكل كبير على معانيها الدلالية. في حين أن الطبيعة التسلسلية لشبكات الشبكية العصبية المتسلسلة تحافظ بطبيعتها على المعلومات حول موضع كل رمز مميز، يجب أن تضيف نماذج المحولات معلومات موضعية بشكل صريح لكي تأخذها آلية الانتباه بعين الاعتبار.
مع الترميز الموضعي، يضيف النموذج متجهًا من القيم إلى تضمين كل رمز مميز، مشتقًا من موضعه النسبي، قبل أن يدخل الإدخال إلى آلية الانتباه. كلما اقترب الرمزين المميزين من بعضهما البعض، زاد تشابه متجهيهما الموضعيين، وبالتالي زادت درجة محاذاتهما من إضافة المعلومات الموضعية. وبالتالي يتعلم النموذج كيفية إيلاء اهتمام أكبر للرمز المميز القريب.
عند إضافة المعلومات الموضعية، يُستخدم كل تمثيل رمز محدث لتوليد ثلاثة متجهات جديدة. يتم إنشاء متجهات الاستعلام والمفتاح والقيمة هذه عن طريق تمرير التضمين الرمز الأصلي عبر كل من ثلاث طبقات الشبكة العصبية المتوازية التي تسبق طبقة الاهتمام الأولى. تحتوي كل مجموعة فرعية متوازية من تلك الطبقة الخطية على مصفوفة فريدة من الأوزان التي تم تعلمها من خلال التدريب الذاتي المسبق الخاضع للإشراف الذاتي على مجموعة بيانات ضخمة من النصوص.
تتمثل الوظيفة الأساسية لآلية انتباه المحول في تعيين أوزان انتباه دقيقة لأزواج متجهات استعلام كل رمز مميز مع المتجهات الرئيسية لجميع الرموز المميزة الأخرى في التسلسل. عند تحقيق ذلك، يمكنك التفكير في كل رمز والآن بعد أن أصبح هناك متجه مطابق لأوزان الانتباه، حيث يمثل كل عنصر في هذا المتجه مدى تأثير أي رمز آخر عليه.
وفي جوهرها، تم تحديث تضمين المتجه ليعكس بشكل أفضل السياق الذي توفره الرموز المميزة الأخرى في التسلسل.
لالتقاط العديد من الطرق المتعددة الجوانب التي قد ترتبط بها الرموز المميزة مع بعضها البعض، تطبق نماذج التحويل آلية الانتباه متعدد الرؤوس عبر كتل الاهتمام المتعددة.
قبل إدخالها إلى طبقة التغذية الأمامية الأولى، يتم تقسيم تمثيل كل رمز مميز للمدخلات إلى مجموعات فرعية متساوية الحجم. ويتم تغذية كل قطعة من التضمين في واحدة من مصفوفات h المتوازية لأوزان Q وK و V ، ويسمى كل منها رأس الاستعلام أو الرأس الأساسي أو رأس القيمة. ويتم بعد ذلك تغذية المتجهات الناتجة عن كل من هذه التوائم الثلاثية المتوازية لرؤوس الاستعلام والمفتاح والقيمة في مجموعة فرعية مقابلة من طبقة الانتباه التالية، والتي تسمى رأس الانتباه.
وفي الطبقات الأخيرة من كل كتلة انتباه، يتم في النهاية ربط مخرجات هذه الدوائر المتوازية h معًا مرة أخرى قبل إرسالها إلى طبقة التغذية الأمامية التالية. زمن الناحية العملية، يؤدي التدريب النموذجي إلى تعلم كل دائرة أوزانًا مختلفة تلتقط جانبًا منفصلاً من المعاني الدلالية.
في بعض الحالات، قد يؤدي تمرير التضمين المحدث سياقيًا بواسطة كتلة الانتباه إلى فقدان غير مقبول للمعلومات من التسلسل الأصلي.
ولمعالجة ذلك، غالبًا ما توازن نماذج المحولات المعلومات السياقية التي توفرها آلية الانتباه مع المعنى الدلالي الأصلي لكل رمز مميز. وبعد أن يتم تجميع المجموعات الفرعية المحدثة بعناية من تضمين الرمز المميز معًا مرة أخرى، تتم إضافة المتجه المحدث إلى تضمين المتجه الأصلي (المشفر بالموضع) الخاص بالرمز المميز. يتم توفير تضمين الرمز المميز الأصلي من خلال اتصال متبقي بين تلك الطبقة وطبقة سابقة من الشبكة.
يتم تغذية المتجه الناتج في طبقة تغذية أمامية خطية أخرى، حيث يتم تطبيعها مرة أخرى إلى حجم ثابت قبل تمريرها إلى كتلة الانتباه التالية. وتساعد هذه التدابير معًا في الحفاظ على الاستقرار في التدريب وتساعد على ضمان عدم فقدان المعنى الأصلي للنص مع حركة البيانات بشكل أعمق إلى الشبكات العصبية.
في النهاية، يحتوي النموذج على معلومات سياقية كافية لتوجيه مخرجاته النهائية. وستعتمد طبيعة طبقة الإخراج ووظيفتها على المهمة المحددة التي تم تصميم نموذج المحول من أجلها.
في عمليات نماذج اللغة الكبيرة التلقائي، تستخدم الطبقة الأخيرة دالة softmax لتحديد احتمالية تطابق الكلمة التالية مع كل رمز مميز في "قاعدة بيانات" المفردات الخاصة بها. واعتمادًا على معايير العينة المحددة، يستخدم النموذج تلك الاحتمالات لتحديد الرمز المميز التالي لتسلسل الإخراج.
وترتبط نماذج المحولات بشكل أكثر شيوعًا بمعالجة اللغة الطبيعية، حيث تكون قد طورت في الأصل لحالات استخدام الترجمة الآلية. وأبرزها أن بنية المحول أدت إلى ظهور نماذج اللغة الكبيرة (لنماذج اللغة الكبيرة) التي حفزت ظهور الذكاء الاصطناعي التوليدي.
معظم برامج نموذج اللغة الكبيرة التي يعرفها الجمهور بشكل أفضل، بدءًا من النماذج مغلقة المصدر مثل سلسلة GPT من OpenAI ونماذج Claude من Anthropic إلى النماذج مصدر مفتوح بما في ذلك Meta Llama أو IBM® Granite ، تُعد نماذج توليدية تتابعية تعتمد فقط على وحدة فك الترميز.
تم تصميم نماذج اللغة الكبيرة التوليدية التتابعية لإنشاء النص، والذي يمتد أيضا بشكل طبيعي إلى المهام المجاورة مثل التلخيص والإجابة على الأسئلة. يتم تدريبها من خلال التعلّم الذاتي الخاضع للإشراف، حيث يتم تزويد النموذج بالكلمة الأولى من مقطع نصي وتكليفه بالتنبؤ بالكلمة التالية بشكل متكرر حتى نهاية التسلسل.
تمكّن المعلومات التي توفرها آلية الانتباه الذاتي النموذج من استخلاص السياق من الإدخال والحفاظ على تماسك واستمرارية مخرجاته.
تمثل نماذج اللغة المقنعة بجهاز فك التشفير (MLMs)، مثل BERT ومشتقاته العديدة، الفرع التطوري الرئيسي الآخر لنماذج اللغة الكبيرة المعتمدة على المحولات. وفي التدريب، يتم تزويد الامتيازات والرهون البحرية بعينة نصية مع بعض الرموز المقنعة -المخفية - ومكلفة بإكمال المعلومات المفقودة.
على الرغم من أن منهجية التدريب هذه أقل فعالية في توليد النصوص، إلا أنها تساعد الآلات متعددة اللغات على التفوق في المهام التي تتطلب معلومات سياقية قوية، مثل الترجمة وتصنيف النصوص وتعلم التضمينات.
على الرغم من أن نماذج المحولات صُممت في الأصل، ولا تزال مرتبطة بشكل بارز بحالات الاستخدام، إلا أنه يمكن استخدامها في أي حالة تتضمن بيانات متسلسلة تقريبًا. وقد أدى ذلك إلى تطوير نماذج تعتمد على المحولات في مجالات أخرى، بدءًا من ضبط دقيق نماذج لنماذج اللغة الكبيرة إلى أنظمة متعددة الوسائط إلى نماذج مخصصة للتنبؤ بالسلاسل الزمنية وViTs للرؤية الكمبيوتر.
تتناسب بعض طرائق البيانات بشكل طبيعي مع التمثيل المتسلسل الصديق للمحول أكثر من غيرها. تعتبر السلاسل الزمنية وبيانات الصوت والفيديو متسلسلة بطبيعتها، في حين أن بيانات الصورة ليست كذلك. على الرغم من ذلك، حققت VITs والنماذج الأخرى القائمة على الانتباه نتائج حديثة للعديد من مهام رؤية الكمبيوتر، بما في ذلك شرح الصور واكتشاف الأشياء وتجزئة الصور والإجابة على الأسئلة المرئية.
يتطلب استخدام نماذج المحولات للبيانات التي لا يعتقد تقليديا أنها "متسلسلة" حلا مفاهيميا لتمثيل تلك البيانات كتسلسل. على سبيل المثال، لاستخدام آليات الانتباه لفهم البيانات المرئية، تستخدم تقنيات الفيديو التفاعلية تضمينات الرقعة لجعل بيانات الصور قابلة للتفسير كتسلسلات.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
1 BERT من Google يتم طرحه في جميع أنحاء العالم (الرابط موجود خارج ibm.com)، Search Engine Journal، 9 ديسمبر 2019