ما هو نموذج المحول؟

طالب جامعي شاب يقرأ كتابا

المؤلفون

Cole Stryker

Staff Editor, AI Models

IBM Think

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

ما هو نموذج المحول؟

نموذج المحول هو نوع من هندسة الشبكات العصبية التي تتميز بمعالجة البيانات المتسلسلة، وهو مرتبط بشكل بارز بنماذج اللغة الكبيرة.. وقد حققت نماذج المحولات أيضًا أداءً متميزًا في مجالات أخرى من الذكاء الاصطناعي، مثل الرؤية الحاسوبية، والتعرف على الكلام، والتنبؤ بالسلاسل الزمنية.

تم وصف بنية المحول لأول مرة في الورقة البحثية الأساسية لعام 2017 بعنوان "Attention is All You Need" التي أعدها Vaswani وآخرون، والتي تُعد الآن لحظة فارقة في التعلم العميق.

تم طرح النماذج القائمة على المحولات في الأصل كتطور لنماذج الشبكة العصبية التكرارية (RNN) المستخدمة في الترجمة الآلية، ومنذ ذلك الحين حققت النماذج القائمة على المحولات تطورات متطورة في كل مجالات التعلم الآلي تقريبًا.

على الرغم من تعدد استخداماتها، لا تزال نماذج المحولات تتم مناقشتها بشكل شائع في سياق حالة الاستخدام من معالجة اللغة الطبيعية، مثل روبوتات المحادثة، وإنشاء النص، والتلخيص، والإجابة عن الأسئلة، وتحليل المشاعر.

كان نموذج بيرت المشفر (أو التمثيلات المشفرة ثنائية الاتجاه من المحولات)، الذي قدمته جوجل في عام 2019، معيارًا رئيسيًا في إنشاء المحولات ويظل الأساس لمعظم تطبيقات تضمين الكلمات الحديثة، من قواعد بيانات المتجهات الحديثة إلى بحث جوجل.

لقد حفزت برامج نماذج اللغة الكبيرة المعتمدة على فك التشفير المتسلسل التلقائي فقط، مثل نموذج GPT-3 (المختصر للمحول التوليدي المدرب مسبقًا) الذي دعم إطلاق ChatGPT من OpenAI، العصر الحديث للذكاء الاصطناعي التوليدي (الذكاء الاصطناعي).

كما أن قدرة نماذج المحولات على التمييز المعقد لكيفية تأثير كل جزء من تسلسل البيانات وارتباطه بالآخرين تضفي عليها العديد من الاستخدامات متعددة الوسائط.

فعلى سبيل المثال، غالبًا ما تتجاوز محولات الرؤية (ViTs) أداء الشبكات العصبية التلافيفية (CNN) في تجزئة الصور واكتشاف الأشياء والمهام ذات الصلة. كما تعمل بنية المحول أيضًا على تشغيل العديد من نماذج الانتشار المستخدمة لتوليد الصور وتحويل النص إلى كلام (TTS) ونماذج لغة الرؤية(VLMs).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما أهمية نماذج المحولات؟

الميزة الأساسية لنماذج المحولات هي آلية الاهتمام الذاتي، والتي تستمد منها نماذج المحولات قدرتها المذهلة على اكتشاف العلاقات (أو التبعيات) بين كل جزء من تسلسل الإدخال. وعلى عكس بنية الشبكات العصبية المتكررة (RNN) والتلافيفية (CNN) التي سبقتها، تعتمد بنية المحولات فقط على طبقات الانتباه والطبقات الأمامية التقليدية.

فائدة الانتباه الذاتي، وتحديداً تقنية الانتباه متعدد الرؤوس التي تستخدمها نماذج المحولات لحسابها، هي ما يمكّن المحولات من تجاوز فائدة الشبكات العصبية ذاتية التردد والشبكات التلافيفية التي كانت في السابق من أحدث النماذج.

قبل تقديم نماذج المحولات، اعتمدت معظم مهام معالجة اللغة الطبيعية على الشبكات العصبية المتكررة. فالطريقة التي تعالج بها الشبكات العصبية المتكررة البيانات المتسلسلة هي تسلسلية بطبيعتها: فهي تستوعب عناصر تسلسل الإدخال واحدًا تلو الآخر وبترتيب محدد.

ويؤدي ذلك إلى ضعف قدرة الشبكات العصبية المتكررة على استيعاب العلاقات البعيدة المدى، وبالتالي تقتصر فعاليتها على معالجة النصوص القصيرة فقط.
وقد تمت معالجة هذا النقص إلى حد ما من خلال إدخال شبكات الذاكرة قصيرة المدى (LSTMs)، ولكنه لا يزال يمثل عيبًا أساسيًا في شبكات الذاكرة المحمولة.

على النقيض من ذلك، يمكن لآليات الانتباه فحص تسلسل كامل في وقت واحد واتخاذ قرارات حول كيفية ووقت التركيز على خطوات زمنية محددة من هذا التسلسل.

وبالإضافة إلى تحسين القدرة على فهم التبعيات بعيدة المدى بشكل كبير، تسمح هذه النوعية من المحولات أيضًا بالتوازي: القدرة على تنفيذ العديد من الخطوات الحسابية في وقت واحد، بدلاً من التسلسل.

بفضل ملاءمتها للعمل المتوازي، تستطيع نماذج المحولات استغلال القوة والسرعة التي تقدمها وحدات معالجة الرسوميات GPUs بشكل كامل خلال مراحل التدريب والاستنتاج. وبدوره، أتاح هذا الاحتمال الفرصة لتدريب نماذج المحولات على مجموعات بيانات ضخمة غير مسبوقة من خلال التعلم ذاتي الإشراف.

خاصة بالنسبة للبيانات المرئية، توفر المحولات أيضا بعض المزايا مقارنة بالشبكات العصبية. تعتمد الشبكات التلافيفية بشكل أساسي على المعالجة المحلية التفافات لمعالجة مجموعات فرعية أصغر من بيانات الإدخال قطعةً تلو الأخرى.

وبالتالي، تكافح الشبكات التلافيفية أيضا لتمييز التبعيات بعيدة المدى، مثل الارتباطات بين الكلمات (في النص) أو وحدات البكسل (في الصور) التي لا تجاور بعضها البعض. كما أن آليات الانتباه ليس لديها هذا القيد.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

ما المقصود بالاهتمام الذاتي؟

يعد فهم المفهوم الرياضي للانتباه، وبشكل أكثر تحديدًا الانتباه الذاتي، أمرًا ضروريًا لفهم نجاح نماذج المحولات في العديد من المجالات. وتعد آليات الانتباه، في الأساس، خوارزميات مصممة لتحديد أجزاء تسلسل البيانات التي يجب أن "تنتبه إليها" نماذج الذكاء الاصطناعي في أي لحظة معينة.

تأمل نموذجًا لغويًا يترجم النص الإنجليزي "on Friday, the judge issued a sentence. "

  • الكلمة السابقة "the " تشير إلى أن كلمة "judge " تشير إلى اسم، أي الشخص الذي يترأس محاكمة قانونية، وليس إلى فعل بمعنى "يقيّم" أو "يصدر حكمًا".
  • هذا السياق لكلمة "judge " تشير إلى أن كلمة "sentence " على الأرجح يشير إلى عقوبة قانونية وليس إلى "جملة" نحوية.
  • الكلمة "issued " تعني ضمنًا أن "sentence " تشير إلى المفهوم القانوني وليس المفهوم النحوي.
  • لذلك، عند ترجمة الكلمة "sentence ," ينبغي أن يركز النموذج على "judge " و"issued. " وأيضًا ينبغي يركز إلى حد ما على الكلمة "the " يمكن أن يتجاهل الكلمات الأخرى بشكل أو بآخر.

كيف يعمل الانتباه الذاتي؟

بشكل عام، تقوم طبقات انتباه نموذج المحول بتقييم واستخدام السياق المحدد لكل جزء من تسلسل البيانات في 4 خطوات:

  1. يقوم النموذج "بقراءة" تسلسلات بيانات غير منسقة وتحويلها إلى تضمين، حيث يتم تمثيل كل عنصر في التسلسل بواسطة متجهات الميزات الخاصة به والتي تعكس عدديًا صفات مثل المعنى الدلالي.

  2. يحدد النموذج أوجه التشابه والارتباطات والتبعيات الأخرى (أو عدم وجودها) بين كل متجه وكل متجه آخر. في معظم نماذج المحولات، يتم تحديد الأهمية النسبية لمتجه إلى آخر عن طريق حساب حاصل الضرب القياسي بين كل متجه. إذا كانت المتجهات محاذاة بشكل جيد، فإن ضربها معا سينتج عنه قيمة كبيرة. إذا لم تكونا متحاذيتين، فسيكون حاصل ضربهما النقطي صغيرًا أو سالبًا.

  3. يتم تحويل "درجات المحاذاة" هذه إلى أوزان انتباه. يتم تحقيق ذلك باستخدام درجات المحاذاة كمدخلات من أجل دالة التنشيط Softmax التي توحِّد جميع القيم إلى نطاق بين 0–1 بحيث يصل مجموعها إلى 1. لذا، على سبيل المثال، يعني تعيين وزن انتباه يساوي 0 بين "المتجه أ" و"المتجه ب" أنه يجب تجاهل المتجه ب عند وضع تنبؤات حول المتجه أ. أما تعيين وزن انتباه يساوي 1 للمتجه ب فيعني أنه يجب أن يحظى بـ 100% من انتباه النموذج عند اتخاذ قرارات حول المتجه أ.

  4. تستخدم أوزان الانتباه هذه للتأكيد على تأثير عناصر إدخال معينة أو التقليل من التأكيد عليها في أوقات محددة. وبمعنى آخر، تساعد أوزان الانتباه نماذج المحولات على التركيز على معلومات معينة أو تجاهلها في لحظة معينة.

وقبل التدريب، لا "يعرف" نموذج المحول بعد كيفية إنشاء عمليات تضمين المتجهات المثلى ودرجات المحاذاة. أثناء التدريب، يقوم النموذج بعمل تنبؤات عبر ملايين الأمثلة المستمدة من بيانات التدريب الخاصة به، وتحدد دالة الخسارة خطأ كل تنبؤ.

من خلال دورة متكررة لإجراء تنبؤات ثم تحديث ترجيحات النموذج من خلال الانتشار الخلفي وأصل التدرج، "يتعلم" النموذج لإنشاء المتجهات الموجهة ودرجات المحاذاة وأوزان الانتباه التي تؤدي إلى مخرجات دقيقة.

كيف تعمل نماذج المحولات؟

تعمل نماذج المحولات مثل قواعد البيانات العلائقية على توليد متجهات الاستعلام والمفتاح والقيمة لكل جزء من تسلسل البيانات،وتستخدمها لحساب أوزان الانتباه من خلال سلسلة من عمليات ضرب المصفوفات.

تم تصميم قواعد البيانات العلائقية لتبسيط تخزين واسترجاع البيانات ذات الصلة: فهي تقوم بتعيين معرف فريد («مفتاح») لكل جزء من البيانات، ويرتبط كل مفتاح بقيمة مقابلة. طبقت الورقة البحثية "Attention is All You Need" هذا الإطار المفاهيمي لمعالجة العلاقات بين كل رمز مميز داخل تسلسل نصي.

  • يمثل متجه الاستعلام المعلومات التي «يبحث عنها» رمز مميز معين. فيما يلي، يتم استخدام متجه الاستعلام الخاص بالرمز المميز لحساب كيفية تأثير الرموز المميزة الأخرى على معناه أو اقترانه أو دلالاته في السياق.
  • تمثل متجهات المفاتيح المعلومات التي يحتوي عليها كل رمز مميز. يتم استخدام المحاذاة بين الاستعلام والمفتاح لحساب أوزان الانتباه التي تعكس مدى ملاءمتها في سياق هذا التسلسل النصي.
  • القيمة (أو متجه القيمة) "ترجع" المعلومات من كل متجه رئيسي، مقاسة حسب وزن الانتباه الخاص بها. المساهمات القادمة من المفاتيح التي تتوافق بشكل قوي مع الاستعلام تُمنح أوزانًا أعلى؛ أما المساهمات من المفاتيح غير المرتبطة بالاستعلام فسيتم تقليل أوزانها لتقترب من الصفر.

بالنسبة لبرنامج نموذج اللغة الكبير، فإن "قاعدة بيانات" النموذج هي مفردات الرمز المميز التي تعلمها من عينات النصوص في بيانات التدريب الخاصة به. آلية الانتباه الخاصة به تستخدم المعلومات من "قاعدة البيانات" لفهم سياق اللغة.

التجزئة وتضمين الإدخال

في حين أن الحروف—الحروف أو الأرقام أو علامات الترقيم - هي الوحدة الأساسية التي نستخدمها نحن البشر لتمثيل اللغة، فإن أصغر وحدة لغوية تستخدمها نماذج الذكاء الاصطناعي هي الرمز المميز. يتم تعيين رقم معرّف لكل رمز مميز، وأرقام المعرفات هذه (بدلاً من الكلمات أو حتى الرموز نفسها) هي الطريقة التي تتنقل بها نماذج اللغة الكبيرة قاعدة بيانات المفردات الخاصة بها. هذا الترميز للغة يقلل بشكل كبير من القوة الحسابية اللازمة لمعالجة النص.

لتوليد متجهات الاستعلام والمفاتيح لتغذية طبقات انتباه المحول، يحتاج النموذج إلى تضمين متجه أولي غير محدد السياق لكل رمز مميز. يمكن تعلُّم هذه التضمينات الرمزية الأولية أثناء التدريب أو استيرادها من نموذج تمثيل كلمات تم تدريبه مسبقًا.

الترميز الموضعي

يمكن أن يؤثر ترتيب الكلمات وموضعها بشكل كبير على معانيها الدلالية. في حين أن الطبيعة التسلسلية لشبكات الشبكية العصبية المتسلسلة تحافظ بطبيعتها على المعلومات حول موضع كل رمز مميز، يجب أن تضيف نماذج المحولات معلومات موضعية بشكل صريح لكي تأخذها آلية الانتباه بعين الاعتبار.

مع الترميز الموضعي، يضيف النموذج متجهًا من القيم إلى تضمين كل رمز مميز، مشتقًا من موضعه النسبي، قبل أن يدخل الإدخال إلى آلية الانتباه. كلما اقترب الرمزين المميزين من بعضهما البعض، زاد تشابه متجهيهما الموضعيين، وبالتالي زادت درجة محاذاتهما من إضافة المعلومات الموضعية. وبالتالي يتعلم النموذج كيفية إيلاء اهتمام أكبر للرمز المميز القريب.

إنشاء متجهات الاستعلام والمفتاح والقيمة

عند إضافة المعلومات الموضعية، يُستخدم كل تمثيل رمز محدث لتوليد ثلاثة متجهات جديدة. يتم إنشاء متجهات الاستعلام والمفتاح والقيمة هذه عن طريق تمرير التضمين الرمز الأصلي عبر كل من ثلاث طبقات الشبكة العصبية المتوازية التي تسبق طبقة الاهتمام الأولى. تحتوي كل مجموعة فرعية متوازية من تلك الطبقة الخطية على مصفوفة فريدة من الأوزان التي تم تعلمها من خلال التدريب الذاتي المسبق الخاضع للإشراف الذاتي على مجموعة بيانات ضخمة من النصوص.

  • تتمثل التمثيلات في مصفوفة الأوزان WQ للحصول على متجهات استعلامية (Q) التي تمتلك أبعاد dk 
  • يتم ضرب التمثيلات المضمّنة في مصفوفة الأوزان WK لإنتاج المتجه الرئيسي (K)، الذي يمتلك أيضًا أبعاد dk
  • يتم ضرب التضمينات في مصفوفة الوزن WV لإنتاج متجهات القيمة (V)، والذي يمتلك أبعاد dv

حوسبة الاهتمام الذاتي

تتمثل الوظيفة الأساسية لآلية انتباه المحول في تعيين أوزان انتباه دقيقة لأزواج متجهات استعلام كل رمز مميز مع المتجهات الرئيسية لجميع الرموز المميزة الأخرى في التسلسل. عند تحقيق ذلك، يمكنك التفكير في كل رمز x  والآن بعد أن أصبح هناك متجه مطابق لأوزان الانتباه، حيث يمثل كل عنصر في هذا المتجه مدى تأثير أي رمز آخر عليه.

  • يتم الآن ضرب متجه القيمة لكل رمز مميز آخر في وزن الانتباه الخاص به.
  • يتم تلخيص جميع متجهات القيمة المرجحة بالانتباه معا. يمثل المتجه الناتج المعلومات السياقية المجمعة التي يتم توفيرها للرمز المميز xمن خلال جميع الرموز المميزة الأخرى في التسلسل.
  • وأخيرًا، يُضاف متجه التغييرات الناتجة والموزونة بأوزان الانتباه من كل رمز إلى xالتمثيل الأصلي للرمز بعد إضافة الترميز الموضعي.

وفي جوهرها، xتم تحديث تضمين المتجه ليعكس بشكل أفضل السياق الذي توفره الرموز المميزة الأخرى في التسلسل.

انتباه متعدد الرؤوس

لالتقاط العديد من الطرق المتعددة الجوانب التي قد ترتبط بها الرموز المميزة مع بعضها البعض، تطبق نماذج التحويل آلية الانتباه متعدد الرؤوس عبر كتل الاهتمام المتعددة.

قبل إدخالها إلى طبقة التغذية الأمامية الأولى، يتم تقسيم تمثيل كل رمز مميز للمدخلات إلى مجموعات فرعية متساوية الحجم. ويتم تغذية كل قطعة من التضمين في واحدة من مصفوفات h المتوازية لأوزان Q وK و V ، ويسمى كل منها رأس الاستعلام أو الرأس الأساسي أو رأس القيمة. ويتم بعد ذلك تغذية المتجهات الناتجة عن كل من هذه التوائم الثلاثية المتوازية لرؤوس الاستعلام والمفتاح والقيمة في مجموعة فرعية مقابلة من طبقة الانتباه التالية، والتي تسمى رأس الانتباه.

وفي الطبقات الأخيرة من كل كتلة انتباه، يتم في النهاية ربط مخرجات هذه الدوائر المتوازية h معًا مرة أخرى قبل إرسالها إلى طبقة التغذية الأمامية التالية. زمن الناحية العملية، يؤدي التدريب النموذجي إلى تعلم كل دائرة أوزانًا مختلفة تلتقط جانبًا منفصلاً من المعاني الدلالية.

التوصيلات المتبقية وتطبيع الطبقات

في بعض الحالات، قد يؤدي تمرير التضمين المحدث سياقيًا بواسطة كتلة الانتباه إلى فقدان غير مقبول للمعلومات من التسلسل الأصلي.

ولمعالجة ذلك، غالبًا ما توازن نماذج المحولات المعلومات السياقية التي توفرها آلية الانتباه مع المعنى الدلالي الأصلي لكل رمز مميز. وبعد أن يتم تجميع المجموعات الفرعية المحدثة بعناية من تضمين الرمز المميز معًا مرة أخرى، تتم إضافة المتجه المحدث إلى تضمين المتجه الأصلي (المشفر بالموضع) الخاص بالرمز المميز. يتم توفير تضمين الرمز المميز الأصلي من خلال اتصال متبقي بين تلك الطبقة وطبقة سابقة من الشبكة.

يتم تغذية المتجه الناتج في طبقة تغذية أمامية خطية أخرى، حيث يتم تطبيعها مرة أخرى إلى حجم ثابت قبل تمريرها إلى كتلة الانتباه التالية. وتساعد هذه التدابير معًا في الحفاظ على الاستقرار في التدريب وتساعد على ضمان عدم فقدان المعنى الأصلي للنص مع حركة البيانات بشكل أعمق إلى الشبكات العصبية.

توليد المخرجات

في النهاية، يحتوي النموذج على معلومات سياقية كافية لتوجيه مخرجاته النهائية. وستعتمد طبيعة طبقة الإخراج ووظيفتها على المهمة المحددة التي تم تصميم نموذج المحول من أجلها.

في عمليات نماذج اللغة الكبيرة التلقائي، تستخدم الطبقة الأخيرة دالة softmax لتحديد احتمالية تطابق الكلمة التالية مع كل رمز مميز في "قاعدة بيانات" المفردات الخاصة بها. واعتمادًا على معايير العينة المحددة، يستخدم النموذج تلك الاحتمالات لتحديد الرمز المميز التالي لتسلسل الإخراج.

نماذج المحولات في معالجة اللغة الطبيعية (NLP)

وترتبط نماذج المحولات بشكل أكثر شيوعًا بمعالجة اللغة الطبيعية، حيث تكون قد طورت في الأصل لحالات استخدام الترجمة الآلية. وأبرزها أن بنية المحول أدت إلى ظهور نماذج اللغة الكبيرة (لنماذج اللغة الكبيرة) التي حفزت ظهور الذكاء الاصطناعي التوليدي.

معظم برامج نموذج اللغة الكبيرة التي يعرفها الجمهور بشكل أفضل، بدءًا من النماذج مغلقة المصدر مثل سلسلة GPT من OpenAI ونماذج Claude من Anthropic إلى النماذج مصدر مفتوح بما في ذلك Meta Llama أو IBM® Granite ، تُعد نماذج توليدية تتابعية تعتمد فقط على وحدة فك الترميز.

تم تصميم نماذج اللغة الكبيرة التوليدية التتابعية لإنشاء النص، والذي يمتد أيضا بشكل طبيعي إلى المهام المجاورة مثل التلخيص والإجابة على الأسئلة. يتم تدريبها من خلال التعلّم الذاتي الخاضع للإشراف، حيث يتم تزويد النموذج بالكلمة الأولى من مقطع نصي وتكليفه بالتنبؤ بالكلمة التالية بشكل متكرر حتى نهاية التسلسل.

تمكّن المعلومات التي توفرها آلية الانتباه الذاتي النموذج من استخلاص السياق من الإدخال والحفاظ على تماسك واستمرارية مخرجاته.

تمثل نماذج اللغة المقنعة بجهاز فك التشفير (MLMs)، مثل BERT ومشتقاته العديدة، الفرع التطوري الرئيسي الآخر لنماذج اللغة الكبيرة المعتمدة على المحولات. وفي التدريب، يتم تزويد الامتيازات والرهون البحرية بعينة نصية مع بعض الرموز المقنعة -المخفية - ومكلفة بإكمال المعلومات المفقودة.

على الرغم من أن منهجية التدريب هذه أقل فعالية في توليد النصوص، إلا أنها تساعد الآلات متعددة اللغات على التفوق في المهام التي تتطلب معلومات سياقية قوية، مثل الترجمة وتصنيف النصوص وتعلم التضمينات.

نماذج المحولات في مجالات أخرى

على الرغم من أن نماذج المحولات صُممت في الأصل، ولا تزال مرتبطة بشكل بارز بحالات الاستخدام، إلا أنه يمكن استخدامها في أي حالة تتضمن بيانات متسلسلة تقريبًا. وقد أدى ذلك إلى تطوير نماذج تعتمد على المحولات في مجالات أخرى، بدءًا من ضبط دقيق نماذج لنماذج اللغة الكبيرة إلى أنظمة متعددة الوسائط إلى نماذج مخصصة للتنبؤ بالسلاسل الزمنية وViTs للرؤية الكمبيوتر.

تتناسب بعض طرائق البيانات بشكل طبيعي مع التمثيل المتسلسل الصديق للمحول أكثر من غيرها. تعتبر السلاسل الزمنية وبيانات الصوت والفيديو متسلسلة بطبيعتها، في حين أن بيانات الصورة ليست كذلك. على الرغم من ذلك، حققت VITs والنماذج الأخرى القائمة على الانتباه نتائج حديثة للعديد من مهام رؤية الكمبيوتر، بما في ذلك شرح الصور واكتشاف الأشياء وتجزئة الصور والإجابة على الأسئلة المرئية.

يتطلب استخدام نماذج المحولات للبيانات التي لا يعتقد تقليديا أنها "متسلسلة" حلا مفاهيميا لتمثيل تلك البيانات كتسلسل. على سبيل المثال، لاستخدام آليات الانتباه لفهم البيانات المرئية، تستخدم تقنيات الفيديو التفاعلية تضمينات الرقعة لجعل بيانات الصور قابلة للتفسير كتسلسلات.

  • أولاً، يتم تقسيم الصورة إلى مجموعة من التصحيحات. على سبيل المثال، يمكن تقسيم صورة 224 × 224 بكسل إلى 256 رقعة 14 × 14 بكسل، ما يقلل بشكل كبير من عدد الخطوات الحسابية المطلوبة لمعالجة الصورة.
  • بعد ذلك، تقوم طبقة الإسقاط الخطي بتعيين كل رقعة إلى متجه تضمين.
  • تتم إضافة المعلومات الموضعية إلى كل من تضمينات الرقعة هذه، على غرار الترميز الموضعي الموضح سابقًا في هذه المقالة.
  • يمكن الآن أن تعمل عمليات تضمين الرقعة هذه بشكل أساسي كسلسلة من عمليات تضمين الرموز، ما يسمح بتفسير الصورة من خلال آلية الانتباه.
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1  BERT من Google يتم طرحه في جميع أنحاء العالم (الرابط موجود خارج ibm.com)، Search Engine Journal، 9 ديسمبر 2019