أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
الضبط عبارة عن مجموعة من الأساليب لتقليل التجاوز في نماذج التعلم الآلي. وفي أسلوب الضبط، يتعمد الشخص حدوث خفض هامشي في دقة التدريب في مقابل زيادة قابلية التعميم.
يُشير التنظيم (Regularization) إلى مجموعة من الأساليب التي تهدف إلى معالجة فرط التخصيص في نماذج التعلم الآلي. وبهذا الشكل، يُعَد التنظيم طريقة لزيادة قابلية تعميم النموذج؛ أي أنه قادر على إنتاج تنبؤات دقيقة في مجموعات بيانات جديدة.1 ويوفر التنظيم قابلية التعميم المتزايدة هذه لغرض زيادة خطأ التدريب. أو بمعنى آخر، تؤدي طرق التنظيم عادةً إلى تنبؤات أقل دقة في بيانات التدريب لكنها تؤدي إلى تنبؤات أكثر دقة في بيانات الاختبار.
يختلف الضبط عن التحسين. إذ يعمل الضبط في الأساس على زيادة قابلية تعميم النموذج بينما التحسين يزيد من دقة تدريب النموذج. وكلا المفهومين، الضبط والتحسين، مهمان في التعلم الآلي وعلوم البيانات.
توجد العديد من أشكال الضبط. وأي عنصر مطلوب للحصول على دليل كامل سيتطلب معالجة طويلة قد تعادل طول نصوص كتاب كامل. ومع ذلك، تقدم هذه المقالة نظرة عامة عن النظرية اللازمة لفهم غرض الضبط في التعلم الآلي علاوةً على توفير دراسة استقصائية للعديد من أساليب الضبط الشائعة.
هذا التنازل عن زيادة خطأ التدريب لتقليل خطأ الاختبار يُعرف باسم مقايضة التباين والتحيز. وتعد مقايضة التحيز والتباين مشكلة معروفة في التعلم الآلي. ومن الضروري أولاً تعريف "التحيز" و"التباين". لنقولها باختصار:
إذن يمكن القول إن التحيز والتباين وبشكل عكسي يمثلان دقة النموذج في مجموعات التدريب والاختبار على التوالي.2 ومن الواضح أن المطورين يهدفون إلى تقليل انحياز النموذج وتباينه. ولا يكون التخفيض المتزامن في كليهما ممكنًا دائمًا، مما يؤدي إلى الحاجة إلى الضبط. إذ يؤدي الضبط إلى تقليل تباين النموذج على حساب زيادة التحيز.
من خلال زيادة الانحياز وتقليل التباين، يؤدي الضبط إلى حل مشكلة التجهيز الزائد للنموذج. ويحدث التجهيز الزائد عندما يقل الخطأ في بيانات التدريب بينما يتوقف الخطأ في بيانات الاختبار عن التناقص أو يبدأ في الزيادة.3 بمعنى آخر، التجهيز الزائد يصف النماذج ذات التحيز المنخفض والتباين العالي. ومع ذلك، إذا أدى الضبط إلى الكثير من التحيز، فإن النموذج سيكون ناقص التجهيز.
ورغم اسمه، فإن نقص التخصيص لا يعني ما هو عكس فرط التخصيص. إذ يَصِف مصطلح "نقص التخصيص" النماذج التي تتميز بالتحيز العالي والتباين العالي. فالنموذج الذي يعاني من نقص التخصيص ينتج تنبؤات خطأ غير مُرضية في أثناء التدريب والاختبار. وينتج هذا غالبًا عن عدم كفاية البيانات أو المَعلمات الخاصة بالتدريب.
ومع ذلك، يمكن أن يؤدي الضبط إلى نقص تجهيز النموذج أيضًا. إذا حدث الكثير من التحيز خلال عملية الضبط، فيمكن أن يتوقف تباين النموذج عن الانخفاض، بل وقد يتوقف حتى عن الزيادة. قد يكون للضبط هذا التأثير خاصة على النماذج البسيطة، وهي النماذج ذات المعلمات القليلة. وعند تحديد نوع ودرجة الضبط المراد تنفيذه، على الشخص أن يضع في اعتباره مدى تعقيد النموذج، ومجموعة البيانات، ونحو ذلك.4
احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.
الانحدار الخطي والانحدار اللوجستي كلاهما نموذجان تنبئيان يدعمان التعلم الآلي. يهدف الانحدار الخطي (أو المربعات الصغرى العادية) إلى قياس تأثير واحد أو أكثر من المؤشرات على إخراج معين والتنبؤ به من خلال إيجاد أفضل خط مناسب من خلال نقاط البيانات المقدمة (أي بيانات التدريب). ويهدف الانحدار اللوجستي إلى تحديد احتمالات الفئة عن طريق مخرجات ثنائية بالنظر إلى مجموعة من متغيرات التنبؤ. بمعنى آخر، يقدم الانحدار الخطي تنبؤات كمّية مستمرة بينما ينتج الانحدار اللوجستي تنبؤات فئوية منفصلة.5
وبطبيعة الحال، مع زيادة عدد متغيرات التنبؤ في أي من نموذجي الانحدار، فإن العلاقة بين المدخلات والمخرجات ليست دائمًا واضحة وتتطلب معالجة صيغة الانحدار. أدخل الضبط. توجد ثلاثة أشكال رئيسية لضبط نماذج الانحدار. لاحظ أن هذه القائمة ليست سوى مسح قصير. ويختلف تطبيق أساليب الضبط هذه سواءً في الانحدار الخطي أو اللوجستي بشكل دقيق.
في الإحصاء، يُطلق على هذه الأساليب أيضًا اسم "معامل الانكماش"؛ لأنها تقلص قيم معامل التنبؤ في النموذج التنبئي. في كل الأساليب الثلاثة، تتحكم لامدا في قوة الحد الجزائي، ويمكن حسابه باستخدام أساليب التحقق المتبادل المتنوعة.
زيادة البيانات هي أسلوب ضبط يتم فيه تعديل بيانات التدريب النموذجية. إذ يُوسّع حجم مجموعة التدريب بإنشاء عينات بيانات مصطنعة مستمدة من بيانات التدريب الموجودة مسبقًا. وتؤدي إضافة مزيد من العينات إلى مجموعة التدريب، خاصة في الحالات النادرة في بيانات العالم الحقيقي، إلى عرض النموذج لكمية أكبر وتنوع أكبر من البيانات التي يتعلم منها. وحديثًا اكتشفت أبحاث التعلم الآلي تعزيز البيانات للمصنفات، وخاصة بصفتها وسيلة لحل مجموعات البيانات غير المتوازنة.7 ومع ذلك، فإن تعزيز البيانات يختلف عن البيانات المصطنعة. فالبيانات المصطنعة تتضمن إنشاء بيانات اصطناعية جديدة بينما تعزيز البيانات ينتج نسخًا معدلة من بيانات موجودة مسبقًا بالفعل بغرض تنويع مجموعة البيانات وتكبيرها.
لعل التوقف المبكر هو أسلوب الضبط الأكثر سهولةً في التنفيذ. هذا لأنه، وباختصار، يحد من عدد التكرارات في أثناء تدريب النموذج. حيث يظل النموذج هنا يمر باستمرار عبر بيانات التدريب، ويتوقف بمجرد عدم وجود تحسن (بل وربما يتدهور أداؤه) في دقة التدريب والتحقق من الصحة. والهدف هو تدريب النموذج حتى يصل إلى أدنى خطأ تدريب ممكن يسبق مستوى استقرار أو زيادة في خطأ التحقق من الصحة.8
توجد العديد من حِزم Python للتعلم الآلي توفر خيارات لأوامر التدريب للتوقف المبكر. وفي الواقع، أحيانًا يكون التوقف المبكر هو الإعداد الافتراضي للتدريب.
تُعَد الشبكات العصبية نماذج معقدة للتعلم الآلي وهي المحفز لكثير من تطبيقات وخدمات الذكاء الاصطناعي. إذ تتكون الشبكات العصبية من طبقة إدخال، وطبقة واحدة أو أكثر من الطبقات المخفية، وطبقة إخراج، وكل طبقة بدورها تتكون من عدة عُقد.
الإسقاط يضبط الشبكات العصبية بإسقاط العُقد عشوائيًا، إلى جانب اتصالات الإدخال والإخراج، من الشبكة في أثناء التدريب (الشكل 3). ويُدرِّب الإسقاط العديد من الأشكال المختلفة للبنية ذات الحجم الثابت، حيث يحتوي كل شكل على عُقد عشوائية مختلفة مُستبعدة من البنية. وتُستخدم شبكة عصبية واحدة دون إسقاط لغرض الاختبارات، باستخدام طريقة متوسط تقريبية مستمدة من بنى التدريب المعدَّلة عشوائيًا. وبهذه الطريقة، يقترب الإسقاط من تدريب عدد كبير من الشبكات العصبية ذات العديد من البنى المتنوعة.9
تضاؤل الترجيح هو شكل آخر من أشكال الضبط المستخدَم للشبكات العصبية العميقة. إذ أنه يقلل من مجموع عوامل ترجيح الشبكة المربعة عن طريق معلمة الضبط، تمامًا مثل ضبط L2 في النماذج الخطية.10 لكن عند استخدامه في الشبكات العصبية، يكون لهذا التخفيض تأثير مشابه لضبط L1: حيث تنخفض عوامل ترجيح الخلية العصبية المختارة إلى الصفر.11 ويؤدي هذا إلى إزالة العُقد على نحوٍ فعال من الشبكة، مما يقلل من تعقيد الشبكة من خلال التضاؤل.12
قد يبدو تضاؤل الترجيح مشابهًا ظاهريًا للإسقاط في الشبكات العصبية العميقة، لكن الحقيقة أن الأسلوبين مختلفان. أحد الاختلافات الأساسية هو أنه في حالة الإسقاط، تنمو القيمة الجزائية كثيرًا في عمق الشبكة في بعض الحالات، بينما القيمة الجزائية لتضاؤل الترجيح تنمو خطيًا. ويعتقد البعض أن هذا يسمح للإسقاط بتطبيق قيمة جزائية على تعقيد الشبكة على نحوٍ أكثر فعالية من تضاؤل الترجيح.13
وتخلط العديد من المقالات والبرامج التعليمية عبر الإنترنت على نحوٍ غير صحيح بين ضبط L2 وتضاؤل الترجيح. في الواقع، نرى البحوث الأكاديمية هنا غير متناسقة؛ فبعضها يميز بين L2 وتضاؤل الترجيح،14 بينما بعض البحوث يساوي بينهما،15 بينما هناك بحوث تتناقض في وصف العلاقة بينهما.16 يُعَد حل مثل هذه التناقضات في المصطلحات مجالاً مطلوبًا لكن للأسف لم يأخذ هذا الجانب حظه الكافي من البحث والنظر بما يفيد البحوث الأكاديمية المستقبلية.
[1] Deep Learning, Goodfellow et al., The MIT Press, 2016
[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013
[3] Deep Learning, Goodfellow et al.
[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023
[5] An Introduction to Statistical Learning, G. James et al.
[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Also, Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021
[7] “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021
[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012
[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014
[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.
[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, Jan. 2023
[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988
[13] “Surprising properties of dropout in deep networks,” Helmbold, David and Long, Philip, JMLR, 2018
[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018
[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016
[16] Deep Learning, Goodfellow et al.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.