ما المقصود بنقل التعلم؟

12 فبراير 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

يَستخدِم نقل التعلم نماذج مدربة مسبقًا من مهمة تعلم آلي أو مجموعة بيانات واحدة لتحسين الأداء وقابلية التعميم لمهمة أو مجموعة بيانات ذات صلة.

نقل التعلم هو أسلوب للتعلم الآلي يتم فيه استخدام المعرفة المكتسبة من خلال مهمة أو مجموعة بيانات واحدة لتحسين أداء النموذج في مهمة أخرى ذات صلة و / أو مجموعة بيانات مختلفة.1 بمعنى آخر، يستخدم نقل التعلم ما تم تعلمه في منطقة واحدة لتحسين التعميم في منطقة أخرى.2 نقل التعلم له العديد من التطبيقات، من حل مشاكل الانحدار في علوم البيانات إلى تدريب نماذج التعلم العميق. في الواقع، إنه جذاب بشكل خاص للأخير نظرًا للكمية الكبيرة من البيانات اللازمة لإنشاء شبكات عصبية عميقة.

تبني عمليات التعلم التقليدية نموذجًا جديدًا لكل مهمة جديدة، بناءً على البيانات المصنَّفة المتاحة. وهذا لأن خوارزميات التعلم الآلي التقليدية تفترض أن بيانات التدريب والاختبار تأتي من مساحة السمات نفسه، وبالتالي إذا تغير توزيع البيانات، أو تم تطبيق النموذج المدرَّب على مجموعة بيانات جديدة، يجب على المستخدمين إعادة تدريب نموذج جديد من الصفر، حتى عند محاولة تنفيذ مهمة مماثلة للمهمة التي نفذها النموذج الأول (على سبيل المثال، نموذج تصنيف تحليل المشاعر لتقييمات الأفلام وتقييمات الأغاني). ومع ذلك، فإن خوارزميات نقل التعلم تأخذ النماذج أو الشبكات المدرَّبة بالفعل كنقطة انطلاق. ثم تطبِّق معرفة هذا النموذج المكتسبة في مهمة أو بيانات مصدر أولية (على سبيل المثال، تصنيف تقييمات الأفلام) على مهمة أو بيانات مستهدفة جديدة ولكنها ذات صلة (على سبيل المثال، تصنيف تقييمات الأغاني).3

مزايا نقل التعلم وعيوبه

المزايا

- التكاليف الحسابية: يقلِّل نقل التعلم من التكاليف الحسابية المطلوبة لبناء نماذج للمشكلات الجديدة. فمن خلال إعادة استخدام النماذج أو الشبكات المدرَّبة مسبقًا لمعالجة مهمة مختلفة، يمكن للمستخدمين تقليل مقدار وقت تدريب النموذج وبيانات التدريب ووحدات المعالج والموارد الحاسوبية الأخرى. على سبيل المثال، قد يتطلب الوصول إلى معدل تعلم محدد عددًا أقل من العصور، أي التمريرات عبر مجموعة البيانات. وبهذه الطريقة، يستطيع نقل التعلم تسريع عمليات تدريب النماذج وتبسيطها.

- حجم مجموعة البيانات. يساعد نقل التعلم بشكل خاص على تخفيف الصعوبات المرتبطة بالحصول على مجموعات بيانات كبيرة. على سبيل المثال، تتطلب النماذج اللغوية الكبيرة (LLMs) كميات كبيرة من بيانات التدريب للحصول على الأداء الأمثل. يمكن أن تكون مجموعات البيانات العامة ذات الجودة العالية محدودة، كما أنَّ إنتاج كمية كافية من البيانات المصنَّفة يدويًا قد يستغرق وقتًا طويلًا ويكلف الكثير.

- قابلية التعميم. يساعد نقل التعلم على تحسين النموذج، ويمكنه أن يزيد أيضًا من قابلية تعميم النموذج. ولأن نقل التعلم يتضمن إعادة تدريب نموذج موجود بمجموعة بيانات جديدة، فإن النموذج المُعاد تدريبه سيتألف من المعرفة المكتسبة من مجموعات بيانات متعددة. ومن المحتمل أن يُظهر أداءً أفضل على مجموعة أوسع من البيانات مقارنةً بنموذج الأساس الأول الذي تم تدريبه على نوع واحد فقط من مجموعة البيانات. وبالتالي يمكن أن يمنع نقل التعلم الإفراط في التجهيز.4

بطبيعة الحال، لا يمكن لنقل المعرفة من مجال إلى آخر أن يعوض الأثر السلبي للبيانات الرديئة. ولا تزال تقنيات المعالجة المسبقة وهندسة الميزات، مثل زيادة البيانات واستخراج الميزات، ضرورية عند استخدام التعلم التحويلي.

العيوب

المشكلة لا تكمن كثيرًا في وجود عيوب جوهرية في نقل التعلم، بقدر ما تكمن في العواقب السلبية المحتملة الناتجة عن سوء تطبيقه. يعمل نقل التعلم بشكل أفضل عند استيفاء ثلاثة شروط:

  • أن تكون كلتا مهمتَي التعلم متشابهتين
  • ألا تختلف توزيعات البيانات في مجموعتَي البيانات الأصلية والمستهدفة بشكل كبير
  • أن يكون من الممكن تطبيق نموذج مشابه على كلتا المهمتين

عند عدم تحقيق هذه الشروط، يمكن أن يؤثر نقل التعلم سلبًا في أداء النموذج. وفي سياق نقل التعلم، يُستخدَم مصطلح النقل السلبي للإشارة إلى هذه الظاهرة. البحث المستمر يشير إلى مجموعة من الاختبارات لمعرفة ما إذا كانت المجموعات والمهام تتوافق مع الشروط أعلاه، وبالتالي لن تؤدي إلى نقل سلبي.5 ويُعَد النقل البعيد أحد أنواع الحلول المطورة لتصحيح النقل السلبي الناتج عن اختلاف كبير في توزيعات البيانات بين مجموعات بيانات المصدر والمستهدفة.6

لاحظ أنه لا يوجد معيار موحَّد أو شائع لتحديد مدى التشابه بين المهام في نقل التعلم. بعض الدراسات تقترح طرق مختلفة لتقييم التنبؤات حول التشابهات بين مجموعات البيانات ومهام التعلم الآلي لتحديد مدى جدوى نقل التعلم.7

أنواع التعلم الانتقالي

هناك ثلاث ممارسات أو إعدادات فرعية متجاورة في نقل التعلم. واختلافات هذه الممارسات عن بعضها—وكذلك نقل التعلم على نطاق أوسع—ينتج إلى حد كبير عن التغييرات في العلاقة بين النطاق المصدر والنطاق المستهدف والمهام التي يتعين إكمالها.8

- النقل الاستقرائي. يشير هذا إلى الحالة التي تختلف فيها المهمة المصدر عن المهمة المستهدفة، بغض النظر عن أي اختلاف أو تشابه بين النطاقات المصدر والنطاق المستهدف (أي مجموعات البيانات). يمكن أن يظهر هذا في نماذج رؤية الكمبيوتر عندما يتم استخدام هياكل مدرَّبة مسبقًا لاستخراج السمات من مجموعات بيانات كبيرة، ثم تُعتمد هذه الهياكل للتدريب الإضافي على مهمة معينة، مثل اكتشاف الكائنات. التعلم المتعدد المهام، الذي يتكون من تعلم مهمتين مختلفتين في وقت واحد (مثل تصنيف الصور واكتشاف الكائنات) على نفس مجموعة البيانات، يمكن اعتباره شكلاً من أشكال النقل الاستقرائي.9

- التعلم غير الخاضع للإشراف. هذا النوع مشابه للنقل الاستقرائي، إذ تختلف المهمة المصدر عن المهمة المستهدفة. ولكن في النقل الاستقرائي، غالبًا ما يتم تصنيف البيانات المصدر و/أو البيانات المستهدفة. وفقًا لاسمه، فإن التعلم بالنقل غير الخاضع للإشراف هو تعلم بدون إشراف، مما يعني عدم وجود بيانات مصنفة يدويًا.10 وبالمقارنة، يمكن اعتبار النقل الاستقرائي تعلمًا خاضعًا للإشراف. ويُعَد الكشف عن الغش من التطبيقات الشائعة للتعلم غير الخاضع للإشراف. فمن خلال تحديد الأنماط الشائعة عبر مجموعة بيانات غير مصنَّفة للمعاملات، يمكن للنموذج أن يتعلم المزيد لتحديد السلوكيات غير الطبيعية باعتبارها عملية احتيال محتملة.

- النقل الانتقالي. يحدث هذا عندما تتطابق المهمة المصدر والمهمة المستهدفة، ولكن تختلف مجموعات البيانات (أو النطاقات). وبشكل أكثر تحديدًا، عادةً تكون البيانات المصدر مصنَّفة بينما تكون البيانات المستهدفة غير مصنَّفة. التكييف النطاقي هو نوع من أنواع التعلم الانتقالي حيث يتم تطبيق المعرفة المحصلة من أداء مهمة على توزيع بيانات واحد نحو نفس المهمة على توزيع بيانات آخر.11 ومثالاً على نقل التعلم الانتقالي هو تطبيق نموذج تصنيف نصوص تم تدريبه واختباره على تقييمات المطاعم لتصنيف تقييمات الأفلام.

نقل التعلم مقابل الضبط الدقيق

يختلف نقل التعلم عن الضبط الدقيق. كلاهما، بلا جدال، يعيد استخدام نماذج التعلم الآلي الموجودة مسبقًا بدلًا من تدريب نماذج جديدة. لكن أوجه التشابه بينهما تكاد تكون مقتصرة على هذا فقط. يشير الضبط الدقيق إلى عملية التدريب الإضافي لنموذج على مجموعة بيانات خاصة بالمهمة لتحسين الأداء في المهمة الأولية المحددة التي تم إنشاء النموذج من أجلها. على سبيل المثال، يمكن إنشاء نموذج كشف كائنات عام باستخدام مجموعات صور ضخمة مثل COCO أو ImageNet، ثم يتم تدريب النموذج الناتج لاحقًا على مجموعة بيانات أصغر ومصنَّفة مخصصة للكشف عن السيارات. وبهذه الطريقة، يقوم المستخدم بضبط دقيق لنموذج الكشف عن الكائنات للكشف عن السيارات. وفي المقابل، يشير نقل التعلم إلى قيام المستخدمين بتكييف نموذج لمشكلة جديدة ذات صلة بدلًا من المشكلة نفسها.

حالات استخدام نقل التعلم

هناك العديد من تطبيقات نقل التعلم في إعدادات التعلم الآلي والذكاء الاصطناعي في العالم الحقيقي. يمكن للمطورين وعلماء البيانات استخدام نقل التعلم للمساعدة على تنفيذ مجموعة متنوعة من المهام، ودمجه مع أساليب تعلم أخرى، مثل التعلم المعزز.

معالجة اللغة الطبيعية

من أبرز المشكلات التي تؤثِّر في نقل التعلم في معالجة اللغة الطبيعية عدم تطابق السمات. يمكن أن يكون للسمات في النطاقات المختلفة معانٍ مختلفة، وبالتالي دلالات مختلفة (على سبيل المثال، مصطلح الضوء الذي يمكن أن يدل على الوزن أو الضوء). ويؤثر هذا التباين في تمثيلات السمات في مهام تصنيف المشاعر والنماذج اللغوية وغيرها. النماذج القائمة على التعلم العميق، ولا سيما تضمينات الكلمات، تشير إلى أنها تملك إمكانات كبيرة في تصحيح هذه المشكلة من خلال استيعاب العلاقات والمعاني اللغوية الدقيقة لمهام تكييف النطاق.12

رؤية الكمبيوتر

بسبب الصعوبات في الحصول على بيانات كافية مصنَّفة يدويا لمهام رؤية الكمبيوتر المتنوعة، تدرس مجموعة كبيرة من الأبحاث تطبيقات نقل التعلم باستخدام الشبكات العصبية التلافيفية (CNNs). ومن الأمثلة البارزة على ذلك نموذج ResNet، وهو نموذج هيكلي مدرَّب مسبقًا يُظهر أداءً مُحسَّنًا في مهام تصنيف الصور والكشف عن الكائنات.13 وتحقِّق الأبحاث الحديثة في استخدام مجموعة بيانات ImageNet الشهيرة لنقل التعلم، مشيرةً إلى أنه (على عكس الاعتقاد الشائع في مجال رؤية الكمبيوتر) يمكن الاكتفاء بجزء صغير من هذه المجموعة لتدريب نماذج قابلة للتعميم بشكل موثوق به.14 يستخدم العديد من دروس نقل التعلم في رؤية الكمبيوتر نموذج ResNet أو مجموعة ImageNet، أو كليهما، مع مكتبة Keras في TensorFlow.

الحواشي

Emilio Soria Olivas,Jose David Martin Guerrero,Marcelino Martinez Sober,Jose Rafael Magdalena Benedito,Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Information Science Reference, 2009.

2 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

3 Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Elsevier, 2012.

4 Jindong Wang and Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods, Springer, 2023.

5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer," IEEE/CAA Journal of Automatica Sinica, vol. 10, no. 2, 2023, pp. 305-329, https://arxiv.org/abs/2009.00909.

6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning," Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp.1155-1164, https://dl.acm.org/doi/10.1145/2783258.2783295. Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, "Domain Distant Transfer," Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017, pp. 2604-2610, https://dl.acm.org/doi/10.5555/3298483.3298614.

7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning," Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence, 2019, pp.3446-3452, https://www.ijcai.org/proceedings/2019/0478.pdf. Kshitij Dwivedi and Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning," Proceedings of Conference on Computer Vision and Pattern Recognition, 2019, pp.12387-12396, https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf. Javier García, Álvaro Visús, and Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes," Machine Learning, vol. 111, 2022, pp. 4217–4247, https://link.springer.com/article/10.1007/s10994-022-06242-4.

8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung, and Mohammad Abdul Azim, “Transfer learning: a friendly introduction” Journal of Big Data, vol. 9, 2022, https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w. Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

9 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526. Ricardo Vilalta, "Inductive Transfer," Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

10 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.

11 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning," IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, 2010, pp. 1345-1359, https://ieeexplore.ieee.org/document/5288526.
Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

12 Qiang Yang, Transfer Learning, Cambridge University Press, 2020. Eyal Ben-David, Carmel Rabinovitz, and Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models," Transactions of the Association for Computational Linguistics, vol. 8, 2020, pp. 504–521, https://aclanthology.org/2020.tacl-1.33.pdf.

13 Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, "Deep Residual Learning for Image Recognition," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770-778, https://ieeexplore.ieee.org/document/7780459.

14 Minyoung Huh, Pulkit Agrawal, and Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR), 2017, https://people.csail.mit.edu/minhuh/papers/analysis/.