My IBM Log in اشترك

ما المقصود بالانتشار العكسي؟

2 يوليو 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

Cole Stryker

Editorial Lead, AI Models

Gather

ما المقصود بالانتشار العكسي؟

الانتشار العكسي هو تقنية تعلم آلي ضرورية لتحسين الشبكات العصبية الاصطناعية. ويسهِّل استخدام خوارزميات النزول الاشتقاقي لتحديث أوزان الشبكة، وهي الطريقة التي "تتعلم" من خلالها نماذج التعلم العميق التي تقود الذكاء الاصطناعي (AI) الحديث.

الانتشار العكسي، المعروف بـ "انتشار الخطأ العكسي"، عبارة عن طريقة أنيقة لحساب الكيفية التي تؤثر بها التغييرات- الحاصلة في أي من أوزان أو تحيزات الشبكة العصبية- في دقة تنبؤات النموذج، فهو ضروري لاستخدام التعلم الخاضع للإشراف أو التعلم شبه الخاضع للإشراف أو التعلم الخاضع للإشراف الذاتي من أجل تدريب الشبكات العصبية.

على الرغم من أنه تم اقتراح معادلات وأسلاف للانتشار العكسي بشكل مستقل في سياقات مختلفة تعود إلى ستينيات القرن الماضي، إلا أن David E. Rumelhart وGeoffrey Hinton وRonald J. Williams نشروا لأول مرة خوارزمية التعلم الرسمي. وقد قدمت ورقتهم البحثية التي صدرت عام 1986 بعنوان "تعلم التمثيلات عن طريق الانتشار العكسي للأخطاء" اشتقاق خوارزمية الانتشار العكسي كما هي مستخدمة ومفهومة في سياق التعلم الآلي الحديث.

منطق الانتشار العكسي هو أن طبقات الخلايا العصبية في الشبكات العصبية الاصطناعية هي في الأساس سلسلة من الوظائف الرياضية المتداخلة. أثناء التدريب، تتداخل هذه المعادلات المترابطة في دالة أخرى: "دالة الخسارة" التي تقيس الفرق (أو "الخسارة") بين المخرجات (أو "الحقيقة الأساسية") المطلوبة لمدخل معين والمخرجات الفعلية للشبكة العصبية.

لذلك يمكننا استخدام "قاعدة السلسلة"، وهو مبدأ حساب التفاضل والتكامل الذي يعود تاريخه إلى القرن السابع عشر، لحساب المعدل الذي تساهم به كل خلية عصبية في الخسارة الإجمالية. عند القيام بذلك، يمكننا حساب تأثير التغييرات على أي متغير—أي على أي وزن أو تحيز—داخل المعادلات التي تمثلها تلك الخلايا العصبية.

من الناحية الرياضية، تعمل عملية الانتشار العكسي بشكل عكسي من المخرجات لحساب "تدرج" دالة الخسارة بكفاءة: متجه المشتقات لكل معادلة في الشبكة. يخبر هذا التدرج خوارزميات التحسين مثل "النزول الاشتقاقي" عن المعادلات التي يجب تعديلها، والاتجاه الذي يجب ضبطه فيه، لتقليل الخسارة.

هذه العمليات الثلاث المتشابكة — دالة الخسارة التي تتبع خطأ النموذج عبر المدخلات المختلفة، والانتشار العكسي لهذا الخطأ لمعرفة كيفية إسهام أجزاء مختلفة من الشبكة في الخطأ، وخوارزميات النزول الاشتقاقي التي تضبط ترجيحات النموذج وفقًا لذلك — هي كيف "تتعلم" نماذج التعلم العميق. على هذا النحو، يعد الانتشار العكسي أمرًا أساسيًا لتدريب نماذج الشبكات العصبية، بدءًا من الإدراك الحسي متعدد الطبقات الأساسي إلى بنيات الشبكات العصبية العميقة المعقدة المستخدمة في الذكاء الاصطناعي التوليدي.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

آلية عمل الشبكات العصبية

نظرًا لأن عملية الانتشار العكسي أساسية جدًا لكيفية تدريب الشبكات العصبية، فإن التفسير المفيد للعملية يتطلب فهمًا عمليًا لكيفية قيام الشبكات العصبية بالتنبؤات.

والأهم من ذلك، من المفيد فهم الغرض والسياق من "الأوزان" و "التحيزات": معلمات النموذج القابلة للتعديل التي يتم تحسينها من خلال الانتشار العكسي والنزول الاشتقاقي.

بنية الشبكة العصبية

تهدف الشبكات العصبية إلى محاكاة بنية الدماغ البشري تقريبًا. إنها تتكون من العديد من العقد المترابطة (أو الخلايا العصبية) مرتبة في طبقات. تقوم الشبكات العصبية بإجراء تنبؤات بمجرد أن تقوم بيانات الإدخال الأصلية بإجراء "تمرير أمامي" عبر الشبكة بأكملها.

تتلقى الخلايا العصبية في "طبقة الإدخال" بيانات الإدخال، عادةً على شكل تضمين متجه ، حيث تتلقى كل خلية عصبية إدخال ميزة فردية من متجه الإدخال. على سبيل المثال ، النموذج الذي يعمل مع صور ذات تدرج رمادي 10 × 10 بكسل سيحتوي عادة على 100 خلية عصبية في طبقة الإدخال الخاصة به ، مع كل خلية عصبية مدخلة تقابل بكسل فردي. وبالتالي تتطلب الشبكات العصبية عادةً مدخلات ذات حجم ثابت، على الرغم من أن تقنيات مثل التجميع أو التطبيع يمكن أن توفر بعض المرونة.

في الشبكة العصبية القياسية للتغذية الأمامية، يتم توصيل كل خلية عصبية في طبقة المدخلات بكل خلية من الخلايا العصبية في الطبقة التالية، والتي تكون هي نفسها متصلة بالخلايا العصبية في الطبقة التالية، وهكذا دواليك حتى طبقة المخرجات حيث يتم إجراء التنبؤات النهائية. الطبقات الوسيطة بين طبقة المدخلات وطبقة المخرجات التي تسمى الطبقات المخفية في الشبكة، حيث يحدث معظم "التعلّم".

بينما تستلزم بعض بُنى الشبكات العصبية المتخصصة، مثل نماذج مجموعة متنوعة من الخبراء أو الشبكات العصبية التلافيفية، وجود اختلافات أو إضافات أو استثناءات لهذا الترتيب المباشر، فإن كل الشبكات العصبية تستخدم هذا الهيكل الأساسي.

الأوزان والتحيزات

على الرغم من أن كل خلية عصبية تتلقى مدخلات من كل عقدة من الطبقة السابقة، إلا أنه لا يتم إعطاء كل هذه المدخلات نفس الأهمية. يتم إعطاء كل اتصال بين خليتين عصبيتين "وزناً" فريداً : مضاعف يزيد أو يقلل من مساهمة إحدى الخلايا العصبية في خلية عصبية في الطبقة التالية.

يمكن أيضًا منح كل خلية عصبية فردية "تحيزًا": قيمة ثابتة تضاف إلى مجموع المدخلات المرجحة من الخلايا العصبية في الطبقة السابقة.

الهدف النهائي من الانتشار العكسي والنزول الاشتقاقي هو حساب الأوزان والتحيزات التي ستنتج أفضل تنبؤات النموذج. تُعطى الخلايا العصبية المقابلة لسمات البيانات التي ترتبط بشكل كبير بالتنبؤات الدقيقة أوزانًا أكبر، وقد تُعطى الوصلات الأخرى أوزانًا تقترب من الصفر.

قد تشتمل الشبكات العصبية العميقة الحديثة، التي غالبًا ما تتضمن عشرات الطبقات المخفية التي تضم كل منها كثيرًا من الخلايا العصبية، على الآلاف أو الملايين أو –في حالة أغلب النماذج اللغوية الكبيرة– المليارات من هذه المعلمات القابلة للتعديل.

دالات التنشيط

يتم تكوين كل خلية عصبية لإجراء عملية رياضية، تسمى "دالة التنشيط"، على مجموع المدخلات الموزونة المتفاوتة التي تتلقاها من العقد في الطبقة السابقة. تقدم وظائف التنشيط "اللاخطية"، مما يمكن النموذج من التقاط الأنماط المعقدة في بيانات الإدخال وتدرجات الإنتاجية التي يمكن تحسينها. يؤدي استخدام دوال التنشيط الخطي فقط إلى انهيار الشبكة العصبية بشكل أساسي إلى نموذج الانحدار الخطي .

تتضمن دوال التنشيط الشائعة في الشبكات العصبية ما يلي:

  • دالة سيجمويد، التي تعين أي مدخلات بقيمة تتراوح بين 0 و1.
  • دالة الظل الزائدي (أو tanh) ، التي تعين المدخلات إلى قيمة بين -1 و 1.
  • الوحدة الخطية المصححة (أو ReLU)، والتي تعين أي مدخلات سالبة إلى 0 وتترك أي إدخال إيجابي دون تغيير.
  • دالة softmax، التي تحوّل متجه المدخلات إلى متجه تتراوح عناصره بين 0 و1 ومجموعها مجتمعةً إلى 1.

فكِّر في الوحدة المخفية الافتراضية مع دالة التنشيط tanh ومصطلح التحيز في الطبقة الثانية من الشبكة العصبية التي تضم 3 عقد إدخال؛ a وb و في طبقة الإدخال الخاصة بها. كل اتصال بين عقد الإدخال والعقدة z له وزن فريد يُرمز إليه بالحرف w. يمكننا وصف قيمة الإخراج التي ستمررها العقدة z إلى الخلايا العصبية في الطبقة التالية باستخدام المعادلة المبسطة z = tanh(waz*a + wbz*b + wcz*c + t).

تتصل الخلية العصبية z بالخلايا العصبية في الطبقة التالية. ومن ثَمَّ، تُعد هذه المعادلة الخاصة بـ z جزءًا من دوال التنشيط في الطبقة التالية، وتمثل بالتبعية أيضًا جزءًا من كل دالة تنشيط لأي خلايا عصبية في أي طبقة لاحقة.

لماذا نستخدم الانتشار العكسي؟

كما سيتم شرحه في الأقسام التالية، يعدّ الانتشار العكسي خوارزمية سريعة وفعالة بشكل ملحوظ لفك تشابك الشبكة الهائلة من المتغيرات والمعادلات المترابطة في الشبكة العصبية.

لتوضيح كفاءة الانتشار العكسي، قارن مايكل نيلسن بين هذا الأسلوب ونهج بديل بسيط وبديهي لحوسبة تدرج دالة خسارة الشبكة العصبية في كتابه عبر الإنترنت "Neural Networks and Deep Learning".

كما يوضح Nielsen، يمكن للمرء بسهولة تقدير تأثير التغييرات على أي وزن محدد wj في الشبكة عن طريق إكمال تمريرة أمامية لقيمتين مختلفتين قليلاً من wj، مع الحفاظ على جميع المعلمات الأخرى دون تغيير، ومقارنة الخسارة الناتجة لكل تمريرة. من خلال صياغة هذه العملية في معادلة مباشرة وتنفيذ بضعة أسطر من التعليمات البرمجية في Python، يمكنك أتمتة هذه العملية لكل وزن في الشبكة.

لكن تخيل الآن أن هناك مليون وزن في نموذجك، وهو ما سيكون متواضعاً جداً بالنسبة لنموذج تعلم عميق حديث. لحساب التدرج بالكامل، ستحتاج إلى إكمال 1000001 تمريرة أمامية عبر الشبكة: 1 لإنشاء خط الأساس، ثم تمريرة أخرى لتقييم التغييرات في كل من المليون وزن.

يمكن للانتشار العكسي تحقيق نفس الهدف في تمريرتين: تمريرة أمامية وتمريرة خلفية.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

المفاهيم الرياضية الرئيسية للانتشار العكسي

لتبسيط شرح كيفية عمل الانتشار العكسي، سيكون من المفيد أولاً عمل مراجعة موجزة لبعض المفاهيم والمصطلحات الرياضية الأساسية.

  • المشتق هو معدل التغير في المعادلة عند لحظة معينة. في المعادلة الخطية، معدل التغير هو ميل ثابت. في المعادلة غير الخطية، مثل تلك المستخدمة في دوال التنشيط، يختلف هذا الميل. الاشتقاق هو عملية إيجاد مشتق دالة معينة. من خلال اشتقاق دالة غير خطية، يمكننا بعد ذلك إيجاد الميل—أي معدل التغير اللحظي—عند أي نقطة محددة في المنحنى.
  • في الدوال ذات المتغيرات المتعددة، المشتق الجزئي هو مشتق أحد المتغيرات بالنسبة إلى المتغيرات الأخرى. إذا غيرنا متغيرًا واحدًا وأبقينا المتغيرات الأخرى كما هي، فكيف تتغير مخرجات الدالة الكلية؟ تحتوي دوال التنشيط للعقد المنفردة في الشبكة العصبية على العديد من المتغيرات، بما في ذلك العديد من المدخلات من الخلايا العصبية في الطبقات السابقة والأوزان المطبقة على تلك المدخلات. عند التعامل مع عقدة معينة n، فإن العثور على المشتقات الجزئية لدوال التنشيط للخلايا العصبية من الطبقة السابقة يسمح لنا بعزل تأثير كل منها على الناتج الكلي لدالة التنشيط الخاصة بها n.
  • الميل هو متجه يحتوي على جميع المشتقات الجزئية لدالة ذات متغيرات متعددة. إنه يمثل بشكل أساسي جميع العوامل التي تؤثر على المعدل الذي سيتغير به ناتج معادلة معقدة بعد تغيير المدخلات.
  • قاعدة السلسلة هي معادلة لحساب مشتقات الدوال التي لا تتضمن متغيرات متعددة فحسب، بل دوال متعددة. على سبيل المثال ، ضع في اعتبارك دالة مركبة ƒ(x) = A(B(x)). مشتق الدالة المركبة، f، يساوي مشتق الدالة الخارجية (A) مضروبًا في مشتق الدالة الداخلية (B).

قاعدة السلسلة ضرورية لحساب مشتقات وظائف التنشيط في الشبكات العصبية ، والتي تتكون من مخرجات وظائف التنشيط للخلايا العصبية الأخرى في الطبقات السابقة.

وعلى الرغم من أن المنطق الكامن وراء التكاثر العكسي بسيط نسبيًا، إلا أن الرياضيات والترميز يمكن أن يصبحا معقدين للغاية، خاصةً لأولئك الذين ليسوا على دراية بحساب التفاضل والتكامل للمتغيرات.

كيف يعمل الانتشار العكسي؟

من خلال العمل بشكل عكسي من مخرجات النموذج، يطبق الانتشار العكسي "قاعدة السلسلة" لحساب تأثير التغييرات في كل معلمة شبكة عصبية فردية على الخطأ الكلي لتنبؤات النموذج.

باختصار، يتمثل الغرض من الانتشار العكسي في تدريب شبكة عصبية على إجراء تنبؤات أفضل من خلال التعلّم تحت الإشراف. والأهم من ذلك، أن الهدف من الانتشار العكسي هو تحديد كيفية تعديل أوزان النموذج والتحيزات لتقليل الخطأ كما تم قياسه بواسطة "دالة الخسارة".

على المستوى التقني والرياضي، يتمثل الهدف من عملية الانتشار العكسي في حساب تدرج دالة الخسارة بالنسبة لكل معلمة من معلمات الشبكة العصبية. وبعبارات أبسط، يستخدم الانتشار العكسي قاعدة السلسلة لحساب المعدل الذي تتغير به الخسارة استجابةً لأي تغيير في وزن معين (أو تحيّز) في الشبكة.

بشكل عام، يستلزم تدريب الشبكات العصبية باستخدام الانتشار العكسي الخطوات التالية:

  • تمريرة أمامية، إجراء التنبؤات على بيانات التدريب.
  • تقيس دالة الخسارة الخطأ في تنبؤات النموذج أثناء ذلك التمرير الأمامي.
  • الانتشار العكسي للخطأ، أو التمرير العكسي، لحساب المشتقات الجزئية لدالة الخسارة.
  • النزول الاشتقاقي، لتحديث أوزان النموذج.

تمريرة إلى الأمام

تنتج الشبكات العصبية تنبؤات من خلال الانتشار الأمامي. الانتشار الأمامي هو في الأساس سلسلة طويلة من المعادلات المتداخلة، حيث تُستخدم مخرجات دوال التنشيط من طبقة معينة من الخلايا العصبية كمدخلات لدوال التنشيط في الطبقة التالية،

يبدأ تدريب النموذج عادة بتهيئة عشوائية للأوزان والتحيزات. يتم تكوين المعلمات الفائقة للنموذج، مثل عدد الطبقات المخفية وعدد العقد في كل طبقة ودوال التنشيط لخلايا عصبية معينة، يدويًا ولا تخضع للتدريب.

في كل تمريرة أمامية، يتم أخذ عينة من المدخلات من مجموعة بيانات التدريب. تستقبل عقد طبقة الإدخال متجه الإدخال، ويمرر كل منها قيمته—مضروبة في بعض الأوزان الأولية العشوائية—إلى عقد الطبقة المخفية الأولى. تأخذ الوحدات المخفية المجموع المرجح لقيم المخرجات هذه كمدخلات لدالة التنشيط، التي تعمل قيمة مخرجاتها (المشروطة بوزن أولي عشوائي) كمدخل للخلايا العصبية في الطبقة التالية. يستمر هذا حتى طبقة المخرجات، حيث يحدث التنبؤ النهائي.

تأمل هذا المثال المبسط للشبكة العصبية التي تصنف الإدخالات إلى إحدى الفئات الخمس التالية:

  • تتلقى طبقة الإدخال تمثيلًا عدديًا لمثال مأخوذ من بيانات التدريب.
  • تمرر العقد المدخلة قيمها إلى الوحدات المخفية في الطبقة التالية. تستخدم الوحدات المخفية دالة تنشيط ReLU.
  • حيث تتدفق البيانات عبر الطبقات المخفية، كل منها يستخرج السمات الرئيسية تدريجيًا حتى تصل إلى طبقة المخرجات.
  • طبقة الإخراج تحتوي على 5 خلايا عصبية، كل منها يتوافق مع فئة تصنيف محتملة.
  • تستخدم الخلايا العصبية للمخرجات دالة تنشيط softmax. تتوافق قيمة المخرجات لكل خلية عصبية خارِجَة في دالة softmax مع احتمال، من أصل 1، أن المدخلات يجب تصنيفها على أنها الفئة التي تمثلها الخلية العصبية.
  • تتوقع الشبكة بأن الإدخال الأصلي ينتمي إلى فئة الخلية العصبية الناتجة التي لها أعلى قيمة لدالة softmax.

في شبكة مُدرّبة جيدًا، سيُخرج هذا النموذج باستمرار قيمة احتمالية عالية للتصنيف الصحيح ويخرج قيم احتمالية منخفضة للتصنيفات الأخرى غير الصحيحة. ومع ذلك، لم يتم تدريب هذه الشبكة العصبية بعد. في هذه المرحلة، تكون أوزانها وانحيازاتها ذات قيم أولية عشوائية، لذا فإن تنبؤاتها غير دقيقة بشكل عام.

دالة الخسارة

بعد كل تمريرة أمامية، تقيس "دالة الخسارةالفرق (أو "الخسارة") بين المخرجات المتوقعة للنموذج لإدخال معين والتنبؤات الصحيحة (أو "الحقيقة الأساسية") لهذا المدخل. وبعبارة أخرى، فإنها تقيس مدى اختلاف الناتج الفعلي للنموذج عن الناتج المطلوب.

في التعلم الخاضع للإشراف، الذي يستخدم البيانات المصنفة، تقدم التعليقات التوضيحية اليدوية الحقيقة الأساسية. في التعلم الخاضع للإشراف الذاتي، الذي يخفي أجزاءً من عينات البيانات غير المصنفة ونماذج المهام أو يحولها عن طريق إعادة بنائها، تُستخدم العينة الأصلية بمنزلة حقيقة أساسية.

الهدف من دالة الخسارة هذه هو قياس عدم الدقة بطريقة تعكس بشكل مناسب طبيعة الخطأ في مخرجات النموذج وحجمه لكل مدخل. تعد الصيغ الرياضية المختلفة للخسارة هي الأنسب لمهام محددة: على سبيل المثال، تعمل المتغيرات من متوسط الخطأ التربيعي بشكل جيد لمشاكل الانحدار، في حين تعمل المتغيرات من خسارة الأنتروبيا المتقاطعة بشكل جيد للتصنيف.

نظرًا إلى أن دالة الخسارة تأخذ إخراجات الشبكة العصبية كإدخال، وأن إخراجات الشبكة العصبية هي دالة مركبة تشتمل على العديد من دوال التنشيط المتداخلة الخاصة بالخلايا العصبية الفردية، يستلزم التمييز بين دوال الخسارة تمييز الشبكة بأكملها. للقيام بذلك، يستخدم الانتشار العكسي قاعدة السلسلة.

"دالة الخسارة" أو "دالة التكلفة" أو "دالة الخطأ؟"
من الجدير بالملاحظة بسرعة أنه في بعض السياقات، يتم استخدام مصطلحي دالة التكلفة أو دالة الخطأ بدلاً من دالة الخسارة، مع استبدال كلمة "التكلفة" أو "الخطأ" بكلمة "الخسارة".

على الرغم من أن بعض أدبيات التعلّم الآلي تُسند فروقًا دقيقة فريدة لكل مصطلح، إلا أنها قابلة للتبادل بشكل عام.1 دالة الهدف هي مصطلح أوسع نطاقًا لأي دالة تقييم من هذا القبيل نريد إما تصغيرها أو تعظيمها. تشير دالة الخسارة أو دالة التكلفة أو دالة الخطأ على وجه التحديد إلى المصطلحات التي نريد تقليلها.

التمرير للخلف

من الطبقة النهائية، يقوم "التمرير العكسي" بتمييز دالة الخسارة لحساب كيف تساهم كل معلمة من معلمات الشبكة في الخطأ الكلي لإدخال واحد.

بالعودة إلى المثال السابق لنموذج المصنف، سنبدأ بالخلايا العصبية الـ 5 في الطبقة النهائية، والتي سنسميها الطبقة L. تمثل قيمة softmax لكل خلية عصبية ناتجة احتمالًأ، من أصل 1، أن ينتمي المدخل إلى فئتها. في نموذج مدرب بشكل مثالي، سيكون للخلية العصبية التي تمثل التصنيف الصحيح قيمة مخرجات قريبة من 1، بينما سيكون للخلية العصبية الأخرى قيمة مخرجات قريبة من 0.

في الوقت الحالي، سنركز على وحدة الخرج التي تمثل التنبؤ الصحيح، والتي سنسميها Lc. دالة تنشيط Lc هي دالة مركبة، تحتوي على العديد من وظائف التنشيط المتداخلة للشبكة العصبية بأكملها من طبقة الإدخال إلى طبقة الإخراج. قد يستلزم تقليل دالة الخسارة إجراء تعديلات في جميع أنحاء الشبكة تجعل ناتج دالة تنشيط Lc أقرب إلى 1.

للقيام بذلك، سنحتاج إلى معرفة كيف سيؤدي أي تغيير في الطبقات السابقة إلى تغيير مخرجات Lc نفسها. بعبارة أخرى، علينا إيجاد المشتقات الجزئية لدالة تنشيط Lc.

تعتمد مخرجات دالة تنشيط Lc على المساهمات التي تتلقاها من الخلايا العصبية في الطبقة قبل الأخيرة، والتي سنسميها الطبقة L-1. إحدى الطرق لتغيير مخرجات Lcهي تغيير الأوزان بين الخلايا العصبية في L-1 و Lc. من خلال حساب المشتق الجزئي لكل وزن L-1 فيما يتعلق بالأوزان الأخرى، يمكننا أن نرى كيف أن زيادة أو نقصان أي منها سيجعل ناتج Lc أقرب إلى (أو بعيدًا عن) 1.

ولكن هذه ليست الطريقة الوحيدة لتغيير إخراج Lc. يتم تحديد المساهمات التي تتلقاها Lc من الخلايا العصبية L-1 ليس من خلال الأوزان المطبَّقة على قيم إخراج L-1 فحسب، بل أيضًا من خلال قيم الإخراج الفعلية (قبل الوزن) نفسها. تتأثر قيم إخراجات الخلايا العصبية L-1 بدورها بالأوزان المطبقة على الإدخالات التي تتلقاها من L-2. لذا، يمكننا تمييز دوال التنشيط في L-1 لإيجاد المشتقات الجزئية للأوزان المطبَّقة على مساهمات L-2. توضح لنا هذه المشتقات الجزئية مدى تأثير أي تغيير يحدث في وزن L-2 في إخراجات L-1، وهو ما سيؤثر لاحقًا في قيمة إخراج Lc ومن ثَمَّ يؤثر في دالة الخسارة.

وبنفس المنطق، يمكننا أيضًا التأثير على قيم المخرجات التي تتلقاها الخلايا العصبية L-1 من الخلايا العصبية L-2 عن طريق تعديل المساهمات التي تتلقاها الخلايا العصبية L-2 من الخلايا العصبية في L-3. لذلك نجد المشتقات الجزئية في L-3 ، وهكذا، نكرر هذه العملية بشكل متكرر حتى نصل إلى طبقة الإدخال. عندما ننتهي، يكون لدينا تدرج دالة الخسارة: متجه المشتق الجزئي لكل وزن ومعلمة تحيز في الشبكة.

لقد أكملنا الآن تمريرة أمامية وخلفية لمثال تدريبي واحد. ومع ذلك، فإن هدفنا هو تدريب النموذج على التعميم بشكل جيد على المدخلات الجديدة. ويتطلب ذلك التدريب على عدد كبير من العينات التي تعكس تنوع المدخلات التي سيكلف بها النموذج ونطاقها وإجراء تنبؤات بعد التدريب.

نزول متدرج

الآن بعد أن أصبح لدينا تدرجات دالة الخسارة فيما يتعلق بكل معلمة وزن وتحيز في الشبكة، يمكننا تقليل دالة الخسارة—وبالتالي تحسين النموذج—باستخدام الانحدار التدرجي لتحديث معلمات النموذج.

سيؤدي التحرك لأسفل -تنازليًا—في ميل دالة الخسارة إلى تقليل الخسارة. بما أن التدرج الذي قمنا بحسابه أثناء الانتشار العكسي يحتوي على المشتقات الجزئية لكل معلمة نموذج، فإننا نعرف الاتجاه الذي "تخطو" فيه كل معلمة من معلماتنا لتقليل الخسارة.

تعكس كل خطوة نموذج "التعلم" من بيانات التدريب الخاصة به. هدفنا هو تحديث الترجيحات بشكل متكرر حتى نصل إلى الحد الأدنى للتدرج. إن الهدف من خوارزميات الانحدار التدرجي هو إيجاد تعديلات المعلمات المحددة التي ستنقلنا إلى أسفل التدرج بأكبر قدر من الكفاءة.

معدل التعلم

حجم كل خطوة هو معلمة قابلة للضبط تسمى معدل التعلم. يعد اختيار معدل التعلم المناسب أمرًا مهمًا للتدريب الفعال والكفء.

تذكّر أن دوال التنشيط في الشبكة العصبية غير خطية. بعض التدرجات قد تشبه شكلًا حرف U: فالسير في اتجاه واحد يؤدي إلى تحريك التدرج إلى أسفل ، ولكن مواصلة السير في هذا الاتجاه سيؤدي في النهاية إلى تحريك التدرج إلى أعلى.

يضمن معدل التعلم المنخفض أننا نسير دائمًا في الاتجاه الصحيح، ولكن حساب العديد من التغييرات يستغرق وقتًا طويلاً ومكلفًا من الناحية الحسابية. ويُعد معدل التعلم المرتفع فعالاً من الناحية الحسابية، ولكنه يحمل مخاطر تجاوز الحد الأدنى.

حجم الدفعة

هناك اعتبار آخر في الانحدار التدرجي وهو عدد المرات التي يتم فيها تحديث الأوزان. يتمثل أحد الخيارات في حساب التدرجات لكل مثال في مجموعة بيانات التدريب، ثم أخذ متوسط تلك التدرجات واستخدامها لتحديث المعلمات. يتم تكرار العملية بشكل متكرر في سلسلة من فترات التدريب حتى يستقر معدل الخطأ. هذه الطريقة هي الانحدار التدرجي الدفعي.

عندما تكون مجموعة بيانات التدريب كبيرة جدًا — كما هو الحال عادةً في التعلم العميق — يستلزم أصل التدرج الدفعي أوقات معالجة طويلة للغاية. ويصبح حساب التدرجات لملايين الأمثلة لكل تكرار لتحديثات الأوزان غير فعال. في الانحدار التدرجي العشوائي (SGD)، تستخدم كل حقبة مثالاً تدريبيًا واحدًا لكل خطوة. على الرغم من أن الخسارة قد تتقلب من حقبة إلى أخرى، إلا أنها تتقارب بسرعة إلى الحد الأدنى خلال العديد من التحديثات.

الانحدار التدرجي ذو الدفعات الصغيرة يمثل نهجًا وسطًا. يتم أخذ عينات عشوائية من الأمثلة التدريبية على دفعات ذات حجم ثابت، ثم يتم حساب تدرجاتها واحتساب متوسطها معًا. يقلل هذا متطلبات الانحدار التدرجي على دفعات للتخزين في الذاكرة مع تقليل عدم الاستقرار النسبي للانحدار التدرجي العشوائي (SGD).

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي


¹ "التعلم العميق"، Goodfellow et al، مطبعة معهد ماساتشوستس للتكنولوجيا، 2016.