الانتشار العكسي هو تقنية تعلم آلي ضرورية لتحسين الشبكات العصبية الاصطناعية. ويسهِّل استخدام خوارزميات النزول الاشتقاقي لتحديث أوزان الشبكة، وهي الطريقة التي "تتعلم" من خلالها نماذج التعلم العميق التي تقود الذكاء الاصطناعي (AI) الحديث.
الانتشار العكسي، المعروف بـ "انتشار الخطأ العكسي"، عبارة عن طريقة أنيقة لحساب الكيفية التي تؤثر بها التغييرات- الحاصلة في أي من أوزان أو تحيزات الشبكة العصبية- في دقة تنبؤات النموذج، فهو ضروري لاستخدام التعلم الخاضع للإشراف أو التعلم شبه الخاضع للإشراف أو التعلم الخاضع للإشراف الذاتي من أجل تدريب الشبكات العصبية.
على الرغم من أنه تم اقتراح معادلات وأسلاف للانتشار العكسي بشكل مستقل في سياقات مختلفة تعود إلى ستينيات القرن الماضي، إلا أن David E. Rumelhart وGeoffrey Hinton وRonald J. Williams نشروا لأول مرة خوارزمية التعلم الرسمي. وقد قدمت ورقتهم البحثية التي صدرت عام 1986 بعنوان "تعلم التمثيلات عن طريق الانتشار العكسي للأخطاء" اشتقاق خوارزمية الانتشار العكسي كما هي مستخدمة ومفهومة في سياق التعلم الآلي الحديث.
منطق الانتشار العكسي هو أن طبقات الخلايا العصبية في الشبكات العصبية الاصطناعية هي في الأساس سلسلة من الوظائف الرياضية المتداخلة. أثناء التدريب، تتداخل هذه المعادلات المترابطة في دالة أخرى: "دالة الخسارة" التي تقيس الفرق (أو "الخسارة") بين المخرجات (أو "الحقيقة الأساسية") المطلوبة لمدخل معين والمخرجات الفعلية للشبكة العصبية.
لذلك يمكننا استخدام "قاعدة السلسلة"، وهو مبدأ حساب التفاضل والتكامل الذي يعود تاريخه إلى القرن السابع عشر، لحساب المعدل الذي تساهم به كل خلية عصبية في الخسارة الإجمالية. عند القيام بذلك، يمكننا حساب تأثير التغييرات على أي متغير—أي على أي وزن أو تحيز—داخل المعادلات التي تمثلها تلك الخلايا العصبية.
من الناحية الرياضية، تعمل عملية الانتشار العكسي بشكل عكسي من المخرجات لحساب "تدرج" دالة الخسارة بكفاءة: متجه المشتقات لكل معادلة في الشبكة. يخبر هذا التدرج خوارزميات التحسين مثل "النزول الاشتقاقي" عن المعادلات التي يجب تعديلها، والاتجاه الذي يجب ضبطه فيه، لتقليل الخسارة.
هذه العمليات الثلاث المتشابكة — دالة الخسارة التي تتبع خطأ النموذج عبر المدخلات المختلفة، والانتشار العكسي لهذا الخطأ لمعرفة كيفية إسهام أجزاء مختلفة من الشبكة في الخطأ، وخوارزميات النزول الاشتقاقي التي تضبط ترجيحات النموذج وفقًا لذلك — هي كيف "تتعلم" نماذج التعلم العميق. على هذا النحو، يعد الانتشار العكسي أمرًا أساسيًا لتدريب نماذج الشبكات العصبية، بدءًا من الإدراك الحسي متعدد الطبقات الأساسي إلى بنيات الشبكات العصبية العميقة المعقدة المستخدمة في الذكاء الاصطناعي التوليدي.
النشرة الإخبارية الخاصة بالمجال
ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
نظرًا لأن عملية الانتشار العكسي أساسية جدًا لكيفية تدريب الشبكات العصبية، فإن التفسير المفيد للعملية يتطلب فهمًا عمليًا لكيفية قيام الشبكات العصبية بالتنبؤات.
والأهم من ذلك، من المفيد فهم الغرض والسياق من "الأوزان" و "التحيزات": معلمات النموذج القابلة للتعديل التي يتم تحسينها من خلال الانتشار العكسي والنزول الاشتقاقي.
تهدف الشبكات العصبية إلى محاكاة بنية الدماغ البشري تقريبًا. إنها تتكون من العديد من العقد المترابطة (أو الخلايا العصبية) مرتبة في طبقات. تقوم الشبكات العصبية بإجراء تنبؤات بمجرد أن تقوم بيانات الإدخال الأصلية بإجراء "تمرير أمامي" عبر الشبكة بأكملها.
تتلقى الخلايا العصبية في "طبقة الإدخال" بيانات الإدخال، عادةً على شكل تضمين متجه ، حيث تتلقى كل خلية عصبية إدخال ميزة فردية من متجه الإدخال. على سبيل المثال ، النموذج الذي يعمل مع صور ذات تدرج رمادي 10 × 10 بكسل سيحتوي عادة على 100 خلية عصبية في طبقة الإدخال الخاصة به ، مع كل خلية عصبية مدخلة تقابل بكسل فردي. وبالتالي تتطلب الشبكات العصبية عادةً مدخلات ذات حجم ثابت، على الرغم من أن تقنيات مثل التجميع أو التطبيع يمكن أن توفر بعض المرونة.
في الشبكة العصبية القياسية للتغذية الأمامية، يتم توصيل كل خلية عصبية في طبقة المدخلات بكل خلية من الخلايا العصبية في الطبقة التالية، والتي تكون هي نفسها متصلة بالخلايا العصبية في الطبقة التالية، وهكذا دواليك حتى طبقة المخرجات حيث يتم إجراء التنبؤات النهائية. الطبقات الوسيطة بين طبقة المدخلات وطبقة المخرجات التي تسمى الطبقات المخفية في الشبكة، حيث يحدث معظم "التعلّم".
بينما تستلزم بعض بُنى الشبكات العصبية المتخصصة، مثل نماذج مجموعة متنوعة من الخبراء أو الشبكات العصبية التلافيفية، وجود اختلافات أو إضافات أو استثناءات لهذا الترتيب المباشر، فإن كل الشبكات العصبية تستخدم هذا الهيكل الأساسي.
على الرغم من أن كل خلية عصبية تتلقى مدخلات من كل عقدة من الطبقة السابقة، إلا أنه لا يتم إعطاء كل هذه المدخلات نفس الأهمية. يتم إعطاء كل اتصال بين خليتين عصبيتين "وزناً" فريداً : مضاعف يزيد أو يقلل من مساهمة إحدى الخلايا العصبية في خلية عصبية في الطبقة التالية.
يمكن أيضًا منح كل خلية عصبية فردية "تحيزًا": قيمة ثابتة تضاف إلى مجموع المدخلات المرجحة من الخلايا العصبية في الطبقة السابقة.
الهدف النهائي من الانتشار العكسي والنزول الاشتقاقي هو حساب الأوزان والتحيزات التي ستنتج أفضل تنبؤات النموذج. تُعطى الخلايا العصبية المقابلة لسمات البيانات التي ترتبط بشكل كبير بالتنبؤات الدقيقة أوزانًا أكبر، وقد تُعطى الوصلات الأخرى أوزانًا تقترب من الصفر.
قد تشتمل الشبكات العصبية العميقة الحديثة، التي غالبًا ما تتضمن عشرات الطبقات المخفية التي تضم كل منها كثيرًا من الخلايا العصبية، على الآلاف أو الملايين أو –في حالة أغلب النماذج اللغوية الكبيرة– المليارات من هذه المعلمات القابلة للتعديل.
يتم تكوين كل خلية عصبية لإجراء عملية رياضية، تسمى "دالة التنشيط"، على مجموع المدخلات الموزونة المتفاوتة التي تتلقاها من العقد في الطبقة السابقة. تقدم وظائف التنشيط "اللاخطية"، مما يمكن النموذج من التقاط الأنماط المعقدة في بيانات الإدخال وتدرجات الإنتاجية التي يمكن تحسينها. يؤدي استخدام دوال التنشيط الخطي فقط إلى انهيار الشبكة العصبية بشكل أساسي إلى نموذج الانحدار الخطي .
تتضمن دوال التنشيط الشائعة في الشبكات العصبية ما يلي:
فكِّر في الوحدة المخفية الافتراضية z، مع دالة التنشيط tanh ومصطلح التحيز t، في الطبقة الثانية من الشبكة العصبية التي تضم 3 عقد إدخال؛ a وb وc، في طبقة الإدخال الخاصة بها. كل اتصال بين عقد الإدخال والعقدة z له وزن فريد يُرمز إليه بالحرف w. يمكننا وصف قيمة الإخراج التي ستمررها العقدة z إلى الخلايا العصبية في الطبقة التالية باستخدام المعادلة المبسطة z = tanh(waz*a + wbz*b + wcz*c + t).
تتصل الخلية العصبية z بالخلايا العصبية في الطبقة التالية. ومن ثَمَّ، تُعد هذه المعادلة الخاصة بـ z جزءًا من دوال التنشيط في الطبقة التالية، وتمثل بالتبعية أيضًا جزءًا من كل دالة تنشيط لأي خلايا عصبية في أي طبقة لاحقة.
كما سيتم شرحه في الأقسام التالية، يعدّ الانتشار العكسي خوارزمية سريعة وفعالة بشكل ملحوظ لفك تشابك الشبكة الهائلة من المتغيرات والمعادلات المترابطة في الشبكة العصبية.
لتوضيح كفاءة الانتشار العكسي، قارن مايكل نيلسن بين هذا الأسلوب ونهج بديل بسيط وبديهي لحوسبة تدرج دالة خسارة الشبكة العصبية في كتابه عبر الإنترنت "Neural Networks and Deep Learning".
كما يوضح Nielsen، يمكن للمرء بسهولة تقدير تأثير التغييرات على أي وزن محدد wj في الشبكة عن طريق إكمال تمريرة أمامية لقيمتين مختلفتين قليلاً من wj، مع الحفاظ على جميع المعلمات الأخرى دون تغيير، ومقارنة الخسارة الناتجة لكل تمريرة. من خلال صياغة هذه العملية في معادلة مباشرة وتنفيذ بضعة أسطر من التعليمات البرمجية في Python، يمكنك أتمتة هذه العملية لكل وزن في الشبكة.
لكن تخيل الآن أن هناك مليون وزن في نموذجك، وهو ما سيكون متواضعاً جداً بالنسبة لنموذج تعلم عميق حديث. لحساب التدرج بالكامل، ستحتاج إلى إكمال 1000001 تمريرة أمامية عبر الشبكة: 1 لإنشاء خط الأساس، ثم تمريرة أخرى لتقييم التغييرات في كل من المليون وزن.
يمكن للانتشار العكسي تحقيق نفس الهدف في تمريرتين: تمريرة أمامية وتمريرة خلفية.
لتبسيط شرح كيفية عمل الانتشار العكسي، سيكون من المفيد أولاً عمل مراجعة موجزة لبعض المفاهيم والمصطلحات الرياضية الأساسية.
قاعدة السلسلة ضرورية لحساب مشتقات وظائف التنشيط في الشبكات العصبية ، والتي تتكون من مخرجات وظائف التنشيط للخلايا العصبية الأخرى في الطبقات السابقة.
وعلى الرغم من أن المنطق الكامن وراء التكاثر العكسي بسيط نسبيًا، إلا أن الرياضيات والترميز يمكن أن يصبحا معقدين للغاية، خاصةً لأولئك الذين ليسوا على دراية بحساب التفاضل والتكامل للمتغيرات.
من خلال العمل بشكل عكسي من مخرجات النموذج، يطبق الانتشار العكسي "قاعدة السلسلة" لحساب تأثير التغييرات في كل معلمة شبكة عصبية فردية على الخطأ الكلي لتنبؤات النموذج.
باختصار، يتمثل الغرض من الانتشار العكسي في تدريب شبكة عصبية على إجراء تنبؤات أفضل من خلال التعلّم تحت الإشراف. والأهم من ذلك، أن الهدف من الانتشار العكسي هو تحديد كيفية تعديل أوزان النموذج والتحيزات لتقليل الخطأ كما تم قياسه بواسطة "دالة الخسارة".
على المستوى التقني والرياضي، يتمثل الهدف من عملية الانتشار العكسي في حساب تدرج دالة الخسارة بالنسبة لكل معلمة من معلمات الشبكة العصبية. وبعبارات أبسط، يستخدم الانتشار العكسي قاعدة السلسلة لحساب المعدل الذي تتغير به الخسارة استجابةً لأي تغيير في وزن معين (أو تحيّز) في الشبكة.
بشكل عام، يستلزم تدريب الشبكات العصبية باستخدام الانتشار العكسي الخطوات التالية:
تنتج الشبكات العصبية تنبؤات من خلال الانتشار الأمامي. الانتشار الأمامي هو في الأساس سلسلة طويلة من المعادلات المتداخلة، حيث تُستخدم مخرجات دوال التنشيط من طبقة معينة من الخلايا العصبية كمدخلات لدوال التنشيط في الطبقة التالية،
يبدأ تدريب النموذج عادة بتهيئة عشوائية للأوزان والتحيزات. يتم تكوين المعلمات الفائقة للنموذج، مثل عدد الطبقات المخفية وعدد العقد في كل طبقة ودوال التنشيط لخلايا عصبية معينة، يدويًا ولا تخضع للتدريب.
في كل تمريرة أمامية، يتم أخذ عينة من المدخلات من مجموعة بيانات التدريب. تستقبل عقد طبقة الإدخال متجه الإدخال، ويمرر كل منها قيمته—مضروبة في بعض الأوزان الأولية العشوائية—إلى عقد الطبقة المخفية الأولى. تأخذ الوحدات المخفية المجموع المرجح لقيم المخرجات هذه كمدخلات لدالة التنشيط، التي تعمل قيمة مخرجاتها (المشروطة بوزن أولي عشوائي) كمدخل للخلايا العصبية في الطبقة التالية. يستمر هذا حتى طبقة المخرجات، حيث يحدث التنبؤ النهائي.
تأمل هذا المثال المبسط للشبكة العصبية التي تصنف الإدخالات إلى إحدى الفئات الخمس التالية:
في شبكة مُدرّبة جيدًا، سيُخرج هذا النموذج باستمرار قيمة احتمالية عالية للتصنيف الصحيح ويخرج قيم احتمالية منخفضة للتصنيفات الأخرى غير الصحيحة. ومع ذلك، لم يتم تدريب هذه الشبكة العصبية بعد. في هذه المرحلة، تكون أوزانها وانحيازاتها ذات قيم أولية عشوائية، لذا فإن تنبؤاتها غير دقيقة بشكل عام.
بعد كل تمريرة أمامية، تقيس "دالة الخسارة" الفرق (أو "الخسارة") بين المخرجات المتوقعة للنموذج لإدخال معين والتنبؤات الصحيحة (أو "الحقيقة الأساسية") لهذا المدخل. وبعبارة أخرى، فإنها تقيس مدى اختلاف الناتج الفعلي للنموذج عن الناتج المطلوب.
في التعلم الخاضع للإشراف، الذي يستخدم البيانات المصنفة، تقدم التعليقات التوضيحية اليدوية الحقيقة الأساسية. في التعلم الخاضع للإشراف الذاتي، الذي يخفي أجزاءً من عينات البيانات غير المصنفة ونماذج المهام أو يحولها عن طريق إعادة بنائها، تُستخدم العينة الأصلية بمنزلة حقيقة أساسية.
الهدف من دالة الخسارة هذه هو قياس عدم الدقة بطريقة تعكس بشكل مناسب طبيعة الخطأ في مخرجات النموذج وحجمه لكل مدخل. تعد الصيغ الرياضية المختلفة للخسارة هي الأنسب لمهام محددة: على سبيل المثال، تعمل المتغيرات من متوسط الخطأ التربيعي بشكل جيد لمشاكل الانحدار، في حين تعمل المتغيرات من خسارة الأنتروبيا المتقاطعة بشكل جيد للتصنيف.
نظرًا إلى أن دالة الخسارة تأخذ إخراجات الشبكة العصبية كإدخال، وأن إخراجات الشبكة العصبية هي دالة مركبة تشتمل على العديد من دوال التنشيط المتداخلة الخاصة بالخلايا العصبية الفردية، يستلزم التمييز بين دوال الخسارة تمييز الشبكة بأكملها. للقيام بذلك، يستخدم الانتشار العكسي قاعدة السلسلة.
"دالة الخسارة" أو "دالة التكلفة" أو "دالة الخطأ؟"
من الجدير بالملاحظة بسرعة أنه في بعض السياقات، يتم استخدام مصطلحي دالة التكلفة أو دالة الخطأ بدلاً من دالة الخسارة، مع استبدال كلمة "التكلفة" أو "الخطأ" بكلمة "الخسارة".
على الرغم من أن بعض أدبيات التعلّم الآلي تُسند فروقًا دقيقة فريدة لكل مصطلح، إلا أنها قابلة للتبادل بشكل عام.1 دالة الهدف هي مصطلح أوسع نطاقًا لأي دالة تقييم من هذا القبيل نريد إما تصغيرها أو تعظيمها. تشير دالة الخسارة أو دالة التكلفة أو دالة الخطأ على وجه التحديد إلى المصطلحات التي نريد تقليلها.
من الطبقة النهائية، يقوم "التمرير العكسي" بتمييز دالة الخسارة لحساب كيف تساهم كل معلمة من معلمات الشبكة في الخطأ الكلي لإدخال واحد.
بالعودة إلى المثال السابق لنموذج المصنف، سنبدأ بالخلايا العصبية الـ 5 في الطبقة النهائية، والتي سنسميها الطبقة L. تمثل قيمة softmax لكل خلية عصبية ناتجة احتمالًأ، من أصل 1، أن ينتمي المدخل إلى فئتها. في نموذج مدرب بشكل مثالي، سيكون للخلية العصبية التي تمثل التصنيف الصحيح قيمة مخرجات قريبة من 1، بينما سيكون للخلية العصبية الأخرى قيمة مخرجات قريبة من 0.
في الوقت الحالي، سنركز على وحدة الخرج التي تمثل التنبؤ الصحيح، والتي سنسميها Lc. دالة تنشيط Lc هي دالة مركبة، تحتوي على العديد من وظائف التنشيط المتداخلة للشبكة العصبية بأكملها من طبقة الإدخال إلى طبقة الإخراج. قد يستلزم تقليل دالة الخسارة إجراء تعديلات في جميع أنحاء الشبكة تجعل ناتج دالة تنشيط Lc أقرب إلى 1.
للقيام بذلك، سنحتاج إلى معرفة كيف سيؤدي أي تغيير في الطبقات السابقة إلى تغيير مخرجات Lc نفسها. بعبارة أخرى، علينا إيجاد المشتقات الجزئية لدالة تنشيط Lc.
تعتمد مخرجات دالة تنشيط Lc على المساهمات التي تتلقاها من الخلايا العصبية في الطبقة قبل الأخيرة، والتي سنسميها الطبقة L-1. إحدى الطرق لتغيير مخرجات Lcهي تغيير الأوزان بين الخلايا العصبية في L-1 و Lc. من خلال حساب المشتق الجزئي لكل وزن L-1 فيما يتعلق بالأوزان الأخرى، يمكننا أن نرى كيف أن زيادة أو نقصان أي منها سيجعل ناتج Lc أقرب إلى (أو بعيدًا عن) 1.
ولكن هذه ليست الطريقة الوحيدة لتغيير إخراج Lc. يتم تحديد المساهمات التي تتلقاها Lc من الخلايا العصبية L-1 ليس من خلال الأوزان المطبَّقة على قيم إخراج L-1 فحسب، بل أيضًا من خلال قيم الإخراج الفعلية (قبل الوزن) نفسها. تتأثر قيم إخراجات الخلايا العصبية L-1 بدورها بالأوزان المطبقة على الإدخالات التي تتلقاها من L-2. لذا، يمكننا تمييز دوال التنشيط في L-1 لإيجاد المشتقات الجزئية للأوزان المطبَّقة على مساهمات L-2. توضح لنا هذه المشتقات الجزئية مدى تأثير أي تغيير يحدث في وزن L-2 في إخراجات L-1، وهو ما سيؤثر لاحقًا في قيمة إخراج Lc ومن ثَمَّ يؤثر في دالة الخسارة.
وبنفس المنطق، يمكننا أيضًا التأثير على قيم المخرجات التي تتلقاها الخلايا العصبية L-1 من الخلايا العصبية L-2 عن طريق تعديل المساهمات التي تتلقاها الخلايا العصبية L-2 من الخلايا العصبية في L-3. لذلك نجد المشتقات الجزئية في L-3 ، وهكذا، نكرر هذه العملية بشكل متكرر حتى نصل إلى طبقة الإدخال. عندما ننتهي، يكون لدينا تدرج دالة الخسارة: متجه المشتق الجزئي لكل وزن ومعلمة تحيز في الشبكة.
لقد أكملنا الآن تمريرة أمامية وخلفية لمثال تدريبي واحد. ومع ذلك، فإن هدفنا هو تدريب النموذج على التعميم بشكل جيد على المدخلات الجديدة. ويتطلب ذلك التدريب على عدد كبير من العينات التي تعكس تنوع المدخلات التي سيكلف بها النموذج ونطاقها وإجراء تنبؤات بعد التدريب.
الآن بعد أن أصبح لدينا تدرجات دالة الخسارة فيما يتعلق بكل معلمة وزن وتحيز في الشبكة، يمكننا تقليل دالة الخسارة—وبالتالي تحسين النموذج—باستخدام الانحدار التدرجي لتحديث معلمات النموذج.
سيؤدي التحرك لأسفل -تنازليًا—في ميل دالة الخسارة إلى تقليل الخسارة. بما أن التدرج الذي قمنا بحسابه أثناء الانتشار العكسي يحتوي على المشتقات الجزئية لكل معلمة نموذج، فإننا نعرف الاتجاه الذي "تخطو" فيه كل معلمة من معلماتنا لتقليل الخسارة.
تعكس كل خطوة نموذج "التعلم" من بيانات التدريب الخاصة به. هدفنا هو تحديث الترجيحات بشكل متكرر حتى نصل إلى الحد الأدنى للتدرج. إن الهدف من خوارزميات الانحدار التدرجي هو إيجاد تعديلات المعلمات المحددة التي ستنقلنا إلى أسفل التدرج بأكبر قدر من الكفاءة.
حجم كل خطوة هو معلمة قابلة للضبط تسمى معدل التعلم. يعد اختيار معدل التعلم المناسب أمرًا مهمًا للتدريب الفعال والكفء.
تذكّر أن دوال التنشيط في الشبكة العصبية غير خطية. بعض التدرجات قد تشبه شكلًا حرف U: فالسير في اتجاه واحد يؤدي إلى تحريك التدرج إلى أسفل ، ولكن مواصلة السير في هذا الاتجاه سيؤدي في النهاية إلى تحريك التدرج إلى أعلى.
يضمن معدل التعلم المنخفض أننا نسير دائمًا في الاتجاه الصحيح، ولكن حساب العديد من التغييرات يستغرق وقتًا طويلاً ومكلفًا من الناحية الحسابية. ويُعد معدل التعلم المرتفع فعالاً من الناحية الحسابية، ولكنه يحمل مخاطر تجاوز الحد الأدنى.
هناك اعتبار آخر في الانحدار التدرجي وهو عدد المرات التي يتم فيها تحديث الأوزان. يتمثل أحد الخيارات في حساب التدرجات لكل مثال في مجموعة بيانات التدريب، ثم أخذ متوسط تلك التدرجات واستخدامها لتحديث المعلمات. يتم تكرار العملية بشكل متكرر في سلسلة من فترات التدريب حتى يستقر معدل الخطأ. هذه الطريقة هي الانحدار التدرجي الدفعي.
عندما تكون مجموعة بيانات التدريب كبيرة جدًا — كما هو الحال عادةً في التعلم العميق — يستلزم أصل التدرج الدفعي أوقات معالجة طويلة للغاية. ويصبح حساب التدرجات لملايين الأمثلة لكل تكرار لتحديثات الأوزان غير فعال. في الانحدار التدرجي العشوائي (SGD)، تستخدم كل حقبة مثالاً تدريبيًا واحدًا لكل خطوة. على الرغم من أن الخسارة قد تتقلب من حقبة إلى أخرى، إلا أنها تتقارب بسرعة إلى الحد الأدنى خلال العديد من التحديثات.
الانحدار التدرجي ذو الدفعات الصغيرة يمثل نهجًا وسطًا. يتم أخذ عينات عشوائية من الأمثلة التدريبية على دفعات ذات حجم ثابت، ثم يتم حساب تدرجاتها واحتساب متوسطها معًا. يقلل هذا متطلبات الانحدار التدرجي على دفعات للتخزين في الذاكرة مع تقليل عدم الاستقرار النسبي للانحدار التدرجي العشوائي (SGD).
احصل على فهم متعمق للشبكات العصبية ووظائفها الأساسية وأساسيات بناء واحدة منها.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
لقد قمنا باستطلاع آراء 2000 مؤسسة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
تعرّف على كيفية دمج الذكاء الاصطناعي التوليدي والتعلّم الآلي بثقة في أعمالك
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.
¹ "التعلم العميق"، Goodfellow et al، مطبعة معهد ماساتشوستس للتكنولوجيا، 2016.