التعلم بعدد محدود من العينات (FSL) هو جزء من فئة أوسع تُعرف أحيانًا باسم "التعلم بعدد N من العينات"، (n-shot learning)، والتي تشمل أيضا التعلم بعينة واحدة (One-shot learning) (حيث يكون هناك مثال واحد فقط مُصنّف لكل فئة يُراد تعلمها) والتعلم بدون عينات (Zero-shot learning) (حيث لا توجد أي أمثلة مُصنَّفة على الإطلاق). بينما يُعتبر التعلم بعينة واحدة إصدارًا أكثر تحديًا من FSL، فإن التعلم بدون عينات يمثل مشكلة تعلم مميزة تتطلب منهجيات فريدة.
من حيث المبدأ، يهدف تعلّم FSL إلى محاكاة القدرة البشرية على التعلم من خلال عدد قليل جدًا من الأمثلة. يختلف هذا النوع من التعلّم عن التعلم الخاضع للإشراف التقليدي، الذي يتطلب عادةً مئات (أو آلاف) نقاط البيانات المصنفة عبر جولات عديدة من التدريب لتعليم نماذج الذكاء الاصطناعي كيفية التعرف على فئات البيانات المختلفة. وعلى الرغم من قوة التعلم الخاضع للإشراف، فإنه قد يكون غير عملي في بعض السياقات الواقعية: حيث يكون الحصول على أمثلة مصنفة أمرًا صعبًا غالبا بسبب التكاليف الباهظة، والحاجة إلى خبرة متخصصة لتصنيف البيانات بدقة أو ندرة العينات الحالية في حالات مثل الكتابة اليدوية الفريدة أو الأمراض النادرة أو الأنواع المهددة بالانقراض والمكتشفة حديثا.
وبينما حققت بعض الخوارزميات المحددة وبنى الشبكات العصبية نجاحًا ملحوظًا في مهام التعلم بعدد محدود من العينات، فإن هذا النوع من التعلم يتحدد بطبيعة مشكلة التعلم وليس باستخدام أي طريقة أو بنية نموذجية محددة. تتنوع أساليب التعلُّم على نطاق واسع، بدءًا من تكييف النماذج المدربة مسبقًا لاستخدامها في مهام مماثلة إلى استخدام النماذج التوليدية لإنشاء عينات جديدة إلى أساليب التعلم الوصفي التي تهدف إلى تدريب النماذج على التعميم بشكل جيد لمشكلات التصنيف الجديدة وفئات مختلفة من البيانات، بدلاً من التركيز على مهمة واحدة محددة.
على الرغم من أن التعلم بعدد محدود من العينات يمكن أن يستفيد من مجموعة واسعة من الخوارزميات أو بنى الشبكات العصبية، فإن معظم الطرق تعتمد على التعلم الانتقالي أو التعلم الوصفي (أو مزيج من الاثنين).
بينما يمكن أيضًا تطبيق التعلم بعدد محدود من العينات أيضًا على مهام الانحدار (أو حتى التعلم المعزز)، فإن معظم أدبيات FSL تركز على حالات استخدام التصنيف. يمكن دمج بعض أساليب التعلم بعدد محدود من العينات (FSL) مع حلول أخرى لمعالجة ندرة البيانات المصنفة: مثل أساليب التعلم شبه الخاضع للإشراف التي تدمج المعلومات من كميات كبيرة من البيانات غير المصنفة مع معلومات من التعلم بعدد محدود من العينات باستخدام العينات المصنفة المحدودة المتاحة.1
تركز أساليب التعلم الانتقالي على تكييف نموذج مدرب مسبقًا لتعلم مهام جديدة أو فئات بيانات لم تُشاهد من قبل.
عندما يتوفر عدد قليل من العينات المصنفة، فإن استخدام التعلم الخاضع للإشراف لتدريب نموذج من البداية - خاصة إذا كان النموذج يحتوي على عدد كبير من المعلمات، مثل الشبكات العصبية الالتفافية (CNNs) المستخدمة عادة في رؤية الكمبيوتر أو الشبكات القائمة على المحولات المستخدمة في معالجة اللغة الطبيعية (NLP) - غالبا ما يؤدي إلى الإفراط في التخصيص: حيث يمكن للنموذج تحقيق أداء جيد على بيانات الاختبار، ولكنه يقدم أداءً سيئًا على البيانات الواقعية. ومع ذلك، فإن جمع كمية كافية من البيانات لتجنب الإفراط في التخصيص يشكل تحديًا غالبًا ما يعيق عملية تدريب النموذج.
يوفر التعلم الانتقالي حلًا عمليًا من خلال استغلال الميزات والتمثيلات التي تعلمها النموذج مسبقًا. يتمثل أحد الأساليب البسيطة في الضبط الدقيق لنموذج تصنيف لأداء نفس المهمة لفئة جديدة باستخدام التعلم الخاضع للإشراف على عدد محدود من الأمثلة المصنفة. تستخدم الأساليب الأكثر تعقيدا لتعليم مهارات جديدة من خلال تصميم مهام ملائمة ذات صلة بمهام لاحقة - غالبا ما تكون مهام التعلم الوصفي - وذلك لتدريب نموذج تم تدريبه مسبقا عبر مهام تمهيدية خاضعة للإشراف الذاتي: وهذا أصبح شائعًا بشكل متزايد في معالجة اللغة الطبيعية (NLP)، خاصة في سياق نماذج الأساس.
تعتمد الأساليب الأكثر تعقيدًا للتعلم الانتقالي على تعديل بنية الشبكة العصبية المدربة، مثل استبدال أو إعادة تدريب الطبقات الخارجية للشبكة العصبية، حيث يحدث التصنيف النهائي، مع الحفاظ على الطبقات الداخلية المسؤولة عن استخراج الميزات. تجميد الأوزان النموذجية (أو تنظيم تغييراتها) لجميع الطبقات باستثناء الخارجية منها يمكن أن يضمن أن التحديثات اللاحقة لا تؤدي إلى "نسيان كارثي" للمعرفة المكتسبة بالفعل، مما يتيح تسريع عملية التعلم في سياق يعتمد على عدد محدود من العينات.
يكون التعلم الانتقالي أكثر نجاحًا عندما يكون التدريب الأولي للنموذج ذا صلة بالمهمة الجديدة. على سبيل المثال، النموذج المدرب على أنواع معينة من الطيور سوف يتعمم بشكل جيد على أنواع غير مرئية من الطيور بعد الضبط الدقيق باستخدام عدد قليل من العينات الموسومة، لأن الأوزان التي تعلمتها المرشحات التي تستخدمها الشبكة العصبية الالتفافية (CNN) للالتفافات مُحسّنة بالفعل لاكتشاف الميزات ذات الصلة بتصنيف الطيور (مثل الريش، والمناقير، وحجم الأجنحة، إلخ.) – لكن استخدام التعلم بعدد محدود من العينات لتعليم النموذج نفسه التعرف على المركبات قد يؤدي إلى أداء أقل إرضاءً.
يتمثل الحل البديل لمشكلة ندرة العينات المصنفة هو توليد عينات تدريب إضافية. هذا النهج مفيد بشكل خاص عندما تكون الأمثلة الواقعية لفئة معينة من البيانات نادرة للغاية، كما هو الحال مع الأمراض النادرة أو الأنواع الغريبة.
يمكن توليد البيانات عبر النماذج التوليدية مثل الشبكات التوليدية التنافسية (GANs) أو أجهزة التشفير الذاتي المتغيرة (VAEs)، وذلك بإنتاج عينات كافية تشبه العينات الأصلية الموسومة لإجراء التعلم الخاضع للإشراف التقليدي، بشرط أن تكون العينات الأصلية منوعة بما يكفي لتجنب الإفراط في التخصيص.
تعتمد عملية تعزيز البيانات على إنشاء عينات جديدة عن طريق تطبيق تحولات مختلفة على العينات الأصلية. يمكن دمج هذه العملية مع طرق أخرى: على سبيل المثال ، يمكن استخدامها لإنشاء عينات مطابقة لاستخدامها في التعلم الوصفي المعتمد على القياس بطريقة مشابهة لطريقة التعلم التبايني الخاضع للإشراف الذاتي.
على عكس التعلّم الخاضع للإشراف أو الضبط الدقيق، حيث يتم تدريب المصنف على المهام المحددة التي سيُستخدم فيها وتحتوي مجموعة التدريب على نفس الفئات التي سيتم اختبار النموذج عليها، فإن التعلّم الوصفي يتخذ نهجًا أوسع نطاقًا وغير مباشر. بينما تعتمد النهج القائمة على التعلم الانتقالي على تكييف النماذج المدربة مسبقًا، فإن طرق التعلم الوصفي تقوم غالبًا بتدريب الأنظمة من بداية العملية إلى نهايتها.
وفقًا لـ Santoro وآخرين، يشير مصطلح "التعلم الوصفي" إلى السيناريوهات التي تُستخدم فيها مهام متعددة لتدريب نموذج على المستويين قصير الأجل وطويل الأجل. في كل مهمة، يتعلم النموذج بسرعة إجراء تنبؤات ذات صلة بالمجال المحدود لتلك المهمة المحددة. وفي المهام المختلفة، يكتسب النموذج المعرفة تدريجيا من خلال اكتشاف الطريقة التي تختلف بها الأنماط وبنية المهام عبر المجالات المستهدفة. وغالبًا ما توصف هذه العملية ذات المستويين بنموذج "التعلم بهدف التعلم". 2
على سبيل المثال، يتمثل الهدف من العديد من طرق التعلم الوصفي البارزة في تدريب دالة نموذجية، عبر حلقات تدريب متعددة، لإخراج تنبؤ حول درجة التشابه بين نقاط البيانات من أي فئات - بما في ذلك الفئات التي لم يرها النموذج بعد - ثم استخدام ما تعلمه النموذج من تلك العملية لحل المهام اللاحقة (مثل مشاكل التصنيف المحددة بدقة).
تعمل بعض مناهج التعلم الوصفي على مستوى أكثر تجريدا، من خلال تدريب النماذج لتكون سهلة التدريب. في التعلم التقليدي الخاضع للإشراف، تكون معلمات النموذج (مثل الأوزان والتحيزات) هي ما يتم "تعلمه"، في حين أن المعلمات الفائقة للنموذج - مثل معدل التعلم، أو كيفية تهيئة المعلمات - يتم تكوينها قبل التدريب وليست جزءًا من عملية التعلم. يمكن أن يحقق التعلم الوصفي فوائد مشابهة للتعلم بالانتقال من خلال تعلم نقاط بداية مثالية: تهيئات المعاملات أو خيارات أخرى للمعاملات الفائقة التي ستتعمم بشكل جيد على مجموعات بيانات مختلفة في عدد قليل من خطوات التدريب.
على الرغم من إمكانية استخدام مجموعة متنوعة من بنى نماذج التعلم الآلي للتعلّم بعدد محدود من العينات (FSL)، فإن هيكل تدريب وتقييم هذا النوع من التعلم يتبع عادةً إطار N-way-K-shot، حيث يمثل N عدد الفئات ويمثل K عدد الأمثلة (أو "العينات") المتاحة لكل فئة.
في تصنيف N-Way-K-Shot ، يخضع النموذج لحلقات متعددة من التدريب. تتكون كل حلقة تدريبية من مهمة تدريبية واحدة أو أكثر. يتم تقييم النماذج باستخدام مهام اختبارية يكون هيكلها مشابه لهيكل المهام التدريبية. تتكون كل مهمة تدريبية (اختبارية) من مجموعتي بيانات:
لأن الهدف من التعلّم الوصفي هو تدريب النماذج على التعميم بشكل جيد للبيانات غير المرئية، بدلاً من التعرف على فئات بيانات محددة، فإن كل مهمة تدريبية تتضمن عادةً فئات بيانات مختلفة عن تلك المستخدمة في أي مهام تدريبية سابقة.
لاختبار قدرة النموذج على إجراء تنبؤات دقيقة للتشابه لفئات غير مرئية سابقًا، يجب أن تحتوي مجموعة الدعم ومجموعة الاستعلام المستخدمة في الاختبار على فئات بيانات جديدة تمامًا لم يتعرض لها النموذج في مهام التدريب.
تعمل خوارزميات التعلم الوصفي المعتمدة على القياس على مبدأ مشابه لمبدأ خوارزمية الجار الأقرب (K-nearest neighbors): بدلاً من التنبؤ بالتصنيف من خلال نمذجة حدود القرار بين الفئات مباشرة، تولد النهج المعتمدة على القياس قيمة مستمرة (مثل تضمين متجهي) لتمثيل عينة بيانات معينة، وتستخلص النتائج من خلال تعلم دالة تقيس بعض المقاييس التي تمثل التشابه بين هذه القيمة وقيمة العينات أو الفئات المختلفة التي تتم مقارنتها بها.
تُعد الشبكات السيامية تطورًا مبكرًا نسبيًا في الخوارزميات المعتمدة على القياس، حيث تحل الشبكات السيامية مشاكل التصنيف الثنائي باستخدام التعلم التبايني: تُعرض عينتان على النموذج، تتنبأ الشبكات السيامية ما إذا كان الزوج إيجابيًا (مطابقًا) أو سلبيًا (غير مطابق). تُستخدم دالة الفقد لتقليل المسافة بين التضمينات المتجهية للأزواج الإيجابية وزيادة المسافة بين التضمينات المتجهية للأزواج السلبية. تشبه نماذج الفقد الثلاثية إلى حد كبير الشبكات السيامية: عند تقديم عينة "مرجعية" وعينتين إضافيتين - إحداهما مطابقة والأخرى غير مطابقة - يتنبأ النموذج بأيهما عينة إيجابية وأيهما سلبية.
في كلا الطريقتين، من المهم أن تكون عينات التدريب صعبة التمييز نسبيًا عن بعضها البعض – وإلا فلن يضطر النموذج إلى تعلم معلمات تنتج تضمينات أكثر فعالية. غالبًا ما يتم استخدام تعزيز البيانات عندما تكون العينات المطابقة نادرة.
بينما يمكن للشبكات السيامية حل مهام التصنيف الثنائي فقط، فإن الشبكات المطابقة يمكنها إجراء تصنيف متعدد الاتجاهات. تُعتبر الشبكات المتطابقة من أول الخوارزميات المخصصة للتعلم بعدد محدود من العينات.
تُنتج الشبكات المتطابقة تمثيلًا مضمّنًا لكل عينة في مجموعتي الدعم والاستعلام باستخدام شبكة عصبية مناسبة (مثل الشبكة العصبية الالتفافية (CNN) لمهام الصور أو النموذج اللغوي الكبير (LLM) لمهام معالجة اللغة الطبيعية). وتتنبأ بالتصنيف عن طريق قياس مسافة جيب التمام بين تمثيل عينة الاستعلام وتمثيلات عينات الدعم المتاحة.
تحسب الشبكات النموذجية متوسط ميزات جميع العينات المتاحة لكل فئة لحساب نموذج أولي لكل فئة. ثم يتم تحديد تصنيف نقطة بيانات معينة بناءً على قربها النسبي من النماذج الأولية لكل فئة. على عكس الشبكات المطابقة، تستخدم الشبكات النموذجية المسافة الإقليدية بدلا من مسافة جيب التمام.
تم اقتراح العديد من التحسينات على هذا النهج: على سبيل المثال ، اقترح Zhu وKoniusz استخدام نشر التسميات لتحسين عملية النماذج الأولية.3
تعمل شبكة العلاقات (RN) على نفس المبدأ العام مثل الشبكات المطابقة والنموذجية. تستخدم RNs أيضًا وحدة تضمين تتعلم حساب تمثيلات مضمنة للإدخال والنماذج الأولية للفئات - ولكنها تختلف عن الخوارزميتين اللتين تحددان مسبقًا وظيفة المسافة المستخدمة لمقارنة عمليات التضمين، تضيف شبكات العلاقات وحدة علاقة تتعلم دالة مسافة غير خطية تناسب مشاكل التصنيف المحددة المطروحة بشكل أفضل.
يتطلب التعلم العميق عادة العديد من التحديثات التكرارية لمعلمات النموذج من خلال الانتشار الخلفي والنزول المتدرج، والذي يعتمد بدوره على كمية كبيرة من الأمثلة المصنفة لتكوين مجموعات التدريب. لكن عند استخدام التعلم بعدد محدود من العينات، يصبح التحدي هو تحسين أوزان النموذج بكفاءة باستخدام عدد قليل من خطوات التحديث.
تُعرف مناهج التعلم الوصفي القائمة على التحسين أيضًا باسم التعلم الوصفي المستند إلى النزول المتدرج (GMBL)، وتهدف إلى تعلم معلمات أولية أو معلمات فائقة لشبكة عصبية، بحيث يمكن ضبطها بدقة لتلائم المهام ذات الصلة. تحقق هذه المناهج ذلك من خلال تحسين عملية النزول المتدرج نفسها - أو بمعنى أدق، التحسين الوصفي لعملية التحسين ذاتها.
يُعد MAML من بين أبرز مناهج التعلّم القائمة على التحسين، ويُعتبر أساسًا لعدد من المنهجيات المشتقة من نهجه الأساسي. كما يوحي اسمه، لا يركز التعلم الوصفي غير الموجه للنموذج على مهمة محددة أو على بنية نموذج ذكاء اصطناعي معينة، بل يمكن تطبيقه على أي نموذج يعتمد على النزول المتدرج في عملية التعلم.
يتضمن MAML مستويين مختلفين من تحديث المعلمات عبر مجموعة متنوعة من مهام التدريب للتعلم بعدد محدود من العينات، والمشار إليها باسم p(T). في كل حلقة تدريبية، يتم اختيار عينة عشوائية من مهمة Ti من p (T). ويتم استخدام النزول المتدرج في K من الخطوات بحجم α لتحسين متجه معلمات النموذج الخاص بالمهمة('i) بعد كل مهمة تدريبية. عبر حلقات تدريب متعددة، يتم تحسين مجموعة المعلمات الوصفية المشار إليها بالرمز (θ) باستخدام النزول المتدرج أيضًا. تُنفذ هذه العملية في خطوات وصفية بحجم خطوة β، استنادًا إلى المعلمات الخاصة بالمهمة θ’ᵢ. بعبارة أخرى، بينما يُستخدم النزول المتدرج التقليدي لحساب المشتقات بهدف تحسين معلمات النموذج لمهمة معينة، تحسب مناهج MAML مشتقات المشتقات (أو "المشتقات من الدرجة الثانية") لتحسين المعلمات الأولية للنموذج بحيث تكون جاهزة لتحسينات إضافية تتعلق بمهام محددة.
وفقًا للدراسة الأصلية، فإن الهدف الوارد فيها هو «العثور على معلمات النموذج التي تكون حساسة للتغييرات في المهمة، بحيث تؤدي التغييرات الصغيرة في المعلمات إلى تحسينات كبيرة في دالة الفقد لأي مهمة مستمدة من المجموعة p(T).» هذا النهج يحقق فوائد مشابهة للتعلم الانتقالي مع تجاوز الحاجة إلى كميات كبيرة من البيانات المصنفة للتدريب المسبق.
فيما يلي التعديلات المقترحة على مناهج التعلم MAML:
نهج MAML من الدرجة الأولى (FOMAML): يعتمد MAML على المشتقات من الدرجة الثانية، مما يجعله مكلفًا من الناحية الحسابية ويتطلب ذاكرة كبيرة. يبسط نهج FOMAML العملية عبر سلسلة من الافتراضات التي تسمح بإجراء التحسين الوصفي باستخدام المشتقات من الدرجة الأولى فقط.
نهج Reptile: يقدم Reptile حلاً وسطًا بين تعقيد MAML وبساطة FOMAML، حيث يعتمد على المشتقات من الدرجة الأولى ولكنه يطبق قواعد فريدة لتحديث المعلمات.4
تحسين حجم الخطوة: تتضمن متغيرات مثل Meta-SGD5 وAlpha MAML6 القدرة على تحسين حجم الخطوة والاتجاه لكل من α وβ. وبالمثل، يقدم MAML + +7 تعديلات عديدة لتعزيز الاستقرار والكفاءة الحسابية.
يمكن لأساليب التعلم الوصفي الاستفادة من الشبكات العصبية المتكررة طويلة وقصيرة المدى (LSTM) لتدريب نموذج متعلم وصفي. يساعد هذا النموذج على اكتساب معرفة قصيرة المدى من كل مهمة تدريب ومعرفة طويلة المدى شائعة بين المهام. يُستخدم هذا المتعلم الوصفي لاحقًا لتدريب مصنف يعتمد على الشبكات العصبية.
بدلاً من إنشاء مجموعة فريدة من المعلمات الوصفية للنموذج وتحديثها بشكل صريح، يتعلم تحسين التضمين الكامن توزيعًا توليديًا لمعلمات النموذج الخاصة بالمهمة بطريقة مشابهة لأجهزة التشفير التلقائي المتغيرة (VAEs)، والتي تخدم نفس الغرض. يمكن بعد ذلك إجراء تحسين التدرج داخل مساحة التضمين المكتسبة منخفضة الأبعاد.
توفر تقنيات التعلم بعدد محدود من العينات (FSL) مجموعة واسعة من التطبيقات، حيث تستفيد العديد من الصناعات ومجالات البحث من القدرة على التعلم بسرعة وفعالية من أمثلة محدودة.
على الرغم من أن العديد من خوارزميات FSL البارزة تم تطويرها في الأصل لمهام تصنيف الصور (أو أثبتت كفاءها في ذلك)، إلا أنها تُستخدم الآن في مشكلات أكثر تعقيدًا تتعلق برؤية الكمبيوتر
يُعتبر كشف الأجسام مشكلة أكثر تعقيدًا من تصنيف الصور، حيث يتطلب التصنيف بالإضافة إلى التحديد الدقيق لمواقع الأجسام. ومع ذلك، يعتمد كشف الأجسام عادةً على تصنيف الصور كأساس، مما يجعل العديد من أفكار التصنيف قابلة للتطبيق في كشف الأجسام باستخدام الكشف عن الأجسام باستخدام عدد محدود من البيانات 8.
وبالمثل، تم اقتراح عدد من بنى النماذج لتطبيق التجزئة الدلالية بعدد محدود من العينات.9
يمكن للتعلم بعدد محدود من العينات (FSL) تمكين الروبوتات من التكيف بسرعة مع البيئات الجديدة والمهام الجديدة من خلال كل من مهام التصنيف محدود البيانات 10 والتعلم المعزز.11
أظهرت تقنيات FSL نتائج واعدة في مجال معالجة اللغة الطبيعية، لا سيما من خلال التعلّم الانتقالي. يُعد FSL وسيلة فعالة لتكييف النماذج اللغوية الكبيرة (LLMs) المُدربة على بيانات غير مُسمّاة، مع مهام محددة مثل تصنيف النصوص وتحليل المشاعر التي قد تتطلب فهمًا سياقيًا محددًا.
يُظهر FSL إمكانات كبيرة في المجالات الطبية، حيث يمكنه التكيف بسرعة مع بيانات نادرة أو غير مسبوقة. يُعتبر ذلك مهمًا بشكل خاص في الحالات النادرة أو عندما تتطلب البيانات الطبية (مثل التصوير بالرنين المغناطيسي أو رسم القلب) خبرة عالية للتفسير، مما يجعل جمع كميات كبيرة من البيانات المُعلمة أمرًا صعبًا.
1 "Realistic Evaluation of Deep Semi-Supervised Learning Algorithms", arXiv, 17 June 2019
2 "A survey on semi-supervised learning", Springer, 15 Nov 2019
3 "Transductive active learning – A new semi-supervised learning approach based on iteratively refined generative models to capture structure in data", Information Sciences (Volume 293), 18 Sep 2014
4 "Semantic Segmentation with Active Semi-Supervised Learning", arXiv, 16 Oct 2022
5 "Semi-supervised learning by Entropy Minimization", Advances in Neural Information Processing Systems 17, 2004
6 "Density-based semi-supervised clustering", Data Mining and Knowledge Discovery, Nov 2010
7 "Semi-Supervised Learning with Ladder Networks", arXiv, 24 Nov 2015
8 "Learning with Pseudo-Ensembles", arXiv, 16 Dec 2014
9 "Temporal Ensembling for Semi-Supervised Learning", arXiv, 15 Mar 2017
10 "Improved Techniques for Training GANs", arXiv, 10 Jun 2016