ما هو التعلم بدون أمثلة مُسبقة؟

24 يناير 2024

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

ما هو التعلم بدون أمثلة مُسبقة؟

التعلم بدون أمثلة مُسبقة (ZSL) هو نموذج للتعلم الآلي يتم فيه تدريب نموذج الذكاء الاصطناعي على التعرف على الأشياء أو المفاهيم وتصنيفها من دون رؤية أي أمثلة لتلك الفئات أو المفاهيم مسبقًا.

يتم تدريب معظم نماذج التعلم العميق الحديثة للتصنيف أو الانحدار من خلال التعلم الخاضع للإشراف، ما يتطلب العديد من الأمثلة المُصنَّفة لفئات البيانات ذات الصلة. "تتعلم" النماذج من خلال إجراء تنبؤات على مجموعة بيانات تدريبية مصنفة؛ حيث توفر تصنيفات البيانات نطاق الإجابات المحتملة والإجابات الصحيحة (أو الحقيقة الأساسية) لكل مثال تدريبي. يعني "التعلّم" هنا تعديل أوزان النموذج لتقليل الفرق بين تنبؤات النموذج والحقيقة الأساسية. وتتطلب هذه العملية عينات مصنفة كافية للعديد من جولات التدريب والتحديثات.

على الرغم من فعالية التعلم الخاضع للإشراف، فإنه غير عملي في بعض سيناريوهات العالم الحقيقي. يُعدّ وضع تعليقات توضيحية لكميات كبيرة من عينات البيانات أمرًا مكلفًا للغاية ويستغرق وقتًا طويلاً، وفي حالات مثل الأمراض النادرة والأنواع المكتشفة حديثًا، قد تكون الأمثلة نادرة أو غير موجودة. ضع في حسبانك مهام التعرف على الصور: وفقًا لإحدى الدراسات، يمكن للبشر التعرف على ما يقرب من 30,000 فئة من فئات الأشياء التي يمكن تمييزها بشكل فردي.1 ليس من الممكن، من حيث الوقت والتكلفة والموارد الحاسوبية، أن تقترب نماذج الذكاء الاصطناعي من القدرات البشرية عن بُعد في حال تدريبها بشكل صريح على بيانات مصنفة لكل فئة.

لقد أدت الحاجة إلى أن تكون نماذج التعلم الآلي قادرة على التعميم بسرعة على عدد كبير من الفئات الدلالية بأقل قدر من التدريب إلى ظهور التعلم بمثال واحد: وهي مجموعة فرعية من التعلم الآلي تشمل أيضًا التعلم بالقليل من الأمثلة والتعلم بمثال واحد. وعادةً ما يستخدم التعلُّم بمثال واحد فقط التعلُّم النقلي والأساليب القائمة على التعلُّم الوصفي لتدريب النماذج على التعرف بسرعة على الفئات الجديدة باستخدام عدد قليل من الأمثلة التدريبية المصنفة - أو مثال واحد مصنّف في التعلُّم بمثال واحد.

لا يشير التعلّم بدون أمثلة مُسبقة، مثله مثل جميع أنواع التعلّم بالقليل من الأمثلة، إلى أي خوارزمية محددة أو بنية شبكة عصبية معينة، بل إلى طبيعة مشكلة التعلّم نفسها: حيث لا يتم تدريب النموذج في التعلّم بدون أمثلة مُسبقة على أي أمثلة مُصنّفة للفئات غير المرئية التي يُطلب منها وضع تنبؤات تتعلق بها بعد التدريب.

لا يأخذ إعداد المشكلة هذا في الحسبان ما إذا كانت هذه الفئة موجودة (وإن كانت غير مُصنَّفة) في بيانات التدريب. على سبيل المثال، بعض نماذج اللغة الكبيرة (LLMs) مناسبة تمامًا لمهام التعلم بدون أمثلة مُسبقة، حيث يتم تدريبها مسبقًا من خلال التعلم الذاتي الخاضع للإشراف على مجموعة ضخمة من النصوص التي قد تحتوي على إشارات عرضية أو معرفة بفئات بيانات غير مرئية. ومن دون وجود أمثلة مصنفة للاستفادة منها، تعتمد جميع طرق التعلم بدون أمثلة مُسبقة على استخدام مثل هذه المعرفة المساعدة لوضع التنبؤات.

نظرًا لتعدد استخداماته ونطاقه الواسع من حالات الاستخدام، فقد أصبح التعلم بدون أمثلة مُسبقة مجالاً ملحوظًا بشكل متزايد للبحث في علوم البيانات، لا سيما في مجالات الرؤية الحاسوبية ومعالجة اللغة الطبيعية (NLP).

التعلم المعمم بدون أمثلة مُسبقة (GSZL)

يتم اختبار النموذج في أثناء إعداد التعلم بدون أمثلة مُسبقة التقليدي على مجموعة بيانات تحتوي على عينات من فئات بيانات غير مرئية. وعلى الرغم من فائدتها في تطوير منهجيات التعلم بدون أمثلة مُسبقة والتحقق من صحتها، فإنها لا تعكس معظم الظروف الشائعة في العالم الحقيقي: يشير التعلم بدون أمثلة مُسبقة المعمم (GSZL) إلى مشكلة التعلم بدون أمثلة مُسبقة المحدد الذي قد تنتمي فيه نقطة (نقاط) البيانات التي يُكلف النموذج بتصنيفها إما إلى فئات غير مرئية أو أو فئات مرئية: وهي الفئات التي "تعلمها" النموذج بالفعل من الأمثلة المصنفة.

يجب أن يتغلب التعلم بدون أمثلة مُسبقة المعمم على تحدٍ إضافي: ميل المصنفات إلى التحيز في التنبؤات نحو الفئات التي شاهدتها في التدريب على حساب الفئات غير المرئية التي لم تتعرض لها بعد. وعلى هذا النحو، غالبًا ما يتطلب التعلم بدون أمثلة مُسبقة المعمم تقنيات إضافية للتخفيف من هذا التحيز.

كيف يعمل التعلم بدون أمثلة مُسبقة؟

في حال عدم وجود أي أمثلة مصنفة للفئات التي يتم تدريب النموذج على تعلمها، فإن مشاكل التعلم بدون أمثلة مُسبقة تستفيد من المعلومات المساعدة: الأوصاف النصية أو السمات أو التمثيلات المضمنة أو غيرها من المعلومات الدلالية ذات الصلة بالمهمة المطروحة.

وبدلاً من نمذجة حدود القرار مباشرةً بين الفئات، عادةً ما تُخرج تقنيات التعلم بدون أمثلة مُسبقة ناقل احتمالية يمثل احتمال انتماء مدخلات معينة إلى فئات بعينها. قد تضيف طرق التعلم بدون أمثلة مُسبقة المعمم مميزًا أوليًا يحدد أولًا ما إذا كانت العينة تنتمي إلى فئة مرئية أو فئة جديدة، ثم تتابع وفقًا لذلك.

فهم التصنيفات

في التعلّم الخاضع للإشراف - وكذلك في التعلّم بالقليل من الأمثلة (FSL) - يتعلّم النموذج التعرّف على الفئات المختلفة من خلال المراقبة المباشرة لواحد أو أكثر من الأمثلة المُصنَّفة لكل فئة. من دون هذه التوضيحات لتوجيههم، يتطلب التعلم بدون أمثلة مسبقة فهمًا أكثر جوهرية لمعنى التصنيف.

ولإجراء تشبيه بسيط، تخيل أن طفلة تريد أن تتعرف على شكل طائر. تتعلم الطفلة، في عملية تشبه التعلم الخاضع للإشراف أو التعلم بالقليل من الأمثلة، من خلال النظر إلى الصور التي تحمل اسم "طائر" في كتاب يحتوي على صور حيوانات. ومن ثم، ستتعرف على الطائر لأنه يشبه صور الطيور التي شاهدتها بالفعل. ولكن في سيناريو التعلم بدون أمثلة مُسبقة، لا تتوفر مثل هذه الأمثلة المصنفة. وبدلاً من ذلك، قد تقرأ الطفلة مدخلاً في الموسوعة عن الطيور وتعرف أنها حيوانات صغيرة أو متوسطة الحجم ذات ريش ومناقير وأجنحة يمكنها الطيران في الهواء. ستتمكن بعد ذلك من التعرف على طائر في العالم الحقيقي، على الرغم من أنها لم ترَ طائرًا من قبل، لأنها تعلمت مفهوم الطائر.

كما ذكرنا سابقًا، أظهرت النماذج اللغوية الكبيرة إمكانات طبيعية للتعلم بدون أمثلة مُسبقة، مستمدة من قدرتها على فهم معنى الكلمات المستخدمة لتسمية فئات البيانات بشكل أساسي.

نقل التعلم

لتقليل الوقت والموارد اللازمة للتدريب، فضلاً عن كمية المعلومات الإضافية اللازمة لتحديد الفئات غير المرئية، غالبًا ما يستفيد التعلم بدون أمثلة مسبقة من التعلم التحوّلي - عن طريق إعادة استخدام نموذج مُدرَّب لمهمة جديدة - بدلاً من تدريب النماذج من الصفر.

يُستخدم التعلم التحولي بشكل بارز في طرق التعلم بدون أمثلة مسبقة التي تمثل الفئات والعينات كتضمينات دلالية. على سبيل المثال، قد يستخدم النموذج الذي يصنّف النصوص من دون أمثلة مُسبقة نموذجًا قائمًا على المحولات مثل BERT، والذي تم تدريبه مسبقًا على مجموعة ضخمة من البيانات اللغوية، لتحويل الكلمات إلى تضمينات متجهة. وبالمثل، يمكن أن يعيد نموذج تصنيف الصور من دون أمثلة مُسبقة توظيف شبكة عصبية تلافيفية (CNN) مُدرّبة مسبقًا مثل شبكة ResNet أو شبكة U-Net، حيث سيكون قد تعلّم بالفعل أوزان عوامل تصفية تساعد على تحديد ميزات الصورة المهمة التي يمكن أن تفيد في التصنيف.

يُعد التعلّم التحوّلي مهمًا بشكل خاص في نظام التعلم بدون أمثلة مسبقة المعمم، حيث يمكن استخدام معرفة النموذج بالفئات المرئية كمعلومات إضافية عن الفئات غير المرئية، على سبيل المثال، تخيل أن نموذج اكتشاف الأجسام قد تعلم بالفعل التعرف على الدببة الرمادية. فبدلاً من تدريبه على التعرف على الدببة القطبية أيضًا من خلال تزويده بأمثلة للدببة القطبية ذات العلامات المميزة، يمكن تدريبه على فهم أن الدببة القطبية تشبه الدببة الرمادية ذات الفراء الأبيض.

يُشار إلى عملية نقل المعرفة المكتسبة هذه إلى مهام جديدة وفئات مختلفة أيضًا باسم تكيف المجال.

الأساليب المستندة إلى السمات

تستخدم أساليب التعلم بدون أمثلة مسبقة المستندة إلى السمات منطقًا مشابهًا لمنطق التعلم التقليدي الخاضع للإشراف. فبدلاً من تدريب المصنف مباشرةً على أمثلة مصنفة لكل فئة من فئات البيانات، يتم تدريب المصنفات على سمات مصنفة لفئات بيانات معينة، مثل اللون أو الشكل أو السمات الرئيسية الأخرى.

على الرغم من عدم رؤية الفئات المستهدفة بشكل مباشر في التدريب، يمكن استنتاج تصنيف فئة غير مرئية إذا كانت سماتها تشبه فئات السمات الموجودة في بيانات التدريب.

وبمجرد أن يتعلم المصنف جميع الميزات ذات الصلة، يمكنه استخدام الأوصاف الدلالية للفئات المختلفة. يُعد هذا النهج مفيدًا بشكل خاص عندما تكون الأمثلة المصنفة للفئة المستهدفة غير متوفرة، ولكن الأمثلة المصنفة لخصائصها المميزة وفيرة نسبيًا. على سبيل المثال، يمكن للنموذج أن يتعلم كلمة "خطوط" من صور النمور والحمير الوحشية ؛ ويمكنه تعلم كلمة "أصفر" من صور جزر الكناري، وكلمة "حشرة طائرة" من صور الذباب. يمكن للنموذج الآن إجراء تصنيف من دون أمثلة مُسبقة للنحل، على الرغم من عدم وجود صور للنحل في مجموعة التدريب، لأنه يمكنه فهمها كمجموعة من السمات المكتسبة: "حشرات طائرة صفراء مخططة."

وعلى الرغم من تعدد الاستخدامات وفائدتها في الظروف المناسبة، فإن طرق التعلم بدون أمثلة مسبقة المستندة إلى السمات لها عيوب معروفة:

  • فهي تعتمد على افتراض رئيسي مفاده أنه يمكن وصف كل فئة بمتجه واحد من السمات، وهذا ليس هو الحال دائمًا. ويستشهد Mall وHariharan وBala بأمثلة طائر الحسون الأمريكي - الذي يختلف لونه وأنماط ريشه باختلاف الجنس والعمر وحالة التكاثر - وملاعب كرة الريشة في الهواء الطلق، والتي تختلف اختلافًا كبيرًا من حيث اللون والسطح ووجود الخطوط الرسمية (أو غيابها).2
  • من المحتمل أن يكون التعليق التوضيحي لأمثلة السمات الفردية مكلفًا ومستهلكًا للوقت مثل التعليق التوضيحي لأمثلة فئة معينة.
  • لا يمكن تعميم الطرق المستندة إلى السمات على الفئات التي تكون سماتها غير معروفة أو غير موجودة في العينات المتاحة.

الأساليب القائمة على التضمين

تمثل العديد من أساليب التعلم بدون أمثلة مسبقة كلاً من الفئات والعينات على أنها تضمينات دلالية: تمثيلات متجهة يمكن استخدامها لتعكس ميزات أو معنى (والعلاقة بين) نقاط البيانات المختلفة. ثم يتم تحديد التصنيف من خلال قياس التشابه بين التضمين الدلالي لعينة معينة والتضمينات الخاصة بالفئات المختلفة التي يمكن تصنيفها إليها.

بمجرد تمثيل نقاط البيانات على شكل تضمينات، يتم تحديد التصنيف باستخدام مبادئ مشابهة لمبادئ خوارزميات الجيران الأقرب K: يتم استخدام بعض مقاييس المسافة، مثل تشابه جيب التمام أو المسافة الإقليدية أو مسافة Wasserstein، لقياس مدى قرب تضمين البيانات المدخلة من التضمينات لكل فئة محتملة. وكلما كان تضمين عينة البيانات هذه أقرب (أو أكثر تشابهًا) إلى تضمين فئة معينة، زادت احتمالية انتمائها إلى تلك الفئة.

يمكن إنشاء هذه التضمينات بعدة طرق. على سبيل المثال:

  • يمكن للنماذج والخوارزميات المدربة مسبقًا مثل BERT أو word2vec أو GloVe (المتجهات العالمية) أن تُخرج بسهولة تضمينات المتجهات للكلمات (مثل أسماء تسميات الفئات).

  • وبالمثل، يمكن لشبكات التشفير الخاصة بالشبكة العصبية الترشيحية المُدربة مسبقًا مثل ResNet (أو مشفرات الصور القائمة على المحولات مثل ViT) أن تفعل الشيء نفسه للصور.

  • يمكن لأجهزة التشفير التلقائي أن تتعلم الترميزات الكامنة - وهي ترميزات مضغوطة منخفضة الأبعاد تعزل المتغيرات الأكثر تميزًا في مدخلات بيانات معينة - من العينات أو الفئات.

  • بدلاً من التعلّم التحوّلي، يمكن تدريب مجموعة متنوعة من بنيات الشبكات العصبية من الصفر على بيانات التدريب ذات الصلة - مثل عينات من فئات البيانات ذات الصلة التي تتوفر لها أمثلة مصنفة - لإخراج تضمينات فعالة.

مساحة التضمين المشتركة

نظرًا لأن الأساليب القائمة على التضمين عادةً ما تعالج المعلومات الإضافية والتضمينات المساحية المتجهة لأشكال (أو طرائق) مختلفة من البيانات - مثل تضمينات الكلمات التي تصف تسمية فئة ما وتضمين صورة فوتوغرافية قد تنتمي إلى تلك الفئة - فإنها تتطلب طريقة لتسهيل المقارنة بين تضمينات أنواع البيانات المختلفة.

للمقارنة، يجب تطبيع التضمينات المتجهة بأنواعها وأحجامها المختلفة وإسقاطها في مساحة دلالية مشتركة عالية الأبعاد، يُشار إليها باسم مساحة التضمين المشتركة، حيث يمكن مقارنتها في بيئة متماثلة. ومن الناحية النظرية، فإن هذا يشبه مفهوم إيجاد المقام المشترك الأصغر لمقارنة الكسور المتباينة. يُعد التعيين القوي المترابط بين مصادر التضمين المختلفة أمرًا ضروريًا لأداء تعميم النموذج.3

تستخدم بعض نماذج التعلم من دون أسئلة مسبقة أيضًا التعلم التبايني لمواءمة التضمينات الدلالية من نماذج أو خوارزميات مختلفة بشكل أفضل: باستخدام أزواج من التضمينات الدلالية، يدرّب التعلم التبايني النماذج على تقليل المسافة بين الأزواج "الإيجابية" (مثل تضمين صورة كلب وصورة كلمة "كلب") وزيادة المسافة بين الأزواج "السلبية" (غير المتطابقة).

التدريب المشترك الشامل

تتمثل إحدى الطرق الفعالة لضمان التوافق بين التضمينات من نماذج مختلفة في تدريب تلك النماذج جنبًا إلى جنب بشكل مشترك. على سبيل المثال، تم تدريب نموذج تدريب صورة اللغة التباينية المسبق (CLIP) من OpenAI على مجموعة بيانات ضخمة غير مصنفة تضم أكثر من 400 مليون زوج من الصور-التعليقات المأخوذة من الإنترنت.4

تم استخدام هذه الأزواج لتدريب أداة تشفير الصور وأداة تشفير النصوص بشكل مشترك من الصفر، باستخدام فقدان التباين لتحقيق أقصى قدر من التشابه في جيب التمام بين تضمينات الصور والتضمينات الخاصة بالتعليقات التوضيحية المقابلة لها. وقد أسفر ذلك عن قدرة طبيعية على التصنيف من دون أمثلة مسبقة: مع عدم وجود ضبط دقيق، أظهر تدريب صورة اللغة التباينية المسبق أداءً قويًا في التصنيف على 27 مجموعة بيانات مختلفة لتصنيفات الصور.

الأساليب القائمة على التوليد

يقدم الذكاء الاصطناعي التوليدي حلاً بديلاً لمشكلة التعلّم من دون أمثلة مسبقة: استخدام المعلومات الإضافية لإنشاء بيانات العينة.

يمكن للأساليب القائمة على التوليد الاستفادة من التمثيلات الدلالية للفئات غير المرئية لإنشاء عينات يمكن استخدامها بمجرد تصنيفها لتحويل مشكلة التعلم إلى تعلم قياسي خاضع للإشراف. وعلى الرغم من أن العينات غير المصنفة (أو تمثيلات الفئات المرئية ذات الصلة الوثيقة) يمكن أن تساعد على تركيب العينات، فإن هذه العملية تعتمد في الغالب في بيئة من دون أمثلة مسبقة على الأوصاف الدلالية في المقام الأول.

يمكن أن تقلل النماذج اللغوية الكبيرة من العمل اللازم لإنتاج أوصاف عالية الجودة: لاحظت OpenAI في ورقة الإصدار لنموذجها DALL-E 3 لتوليد النصوص إلى صور، أن التسميات التوضيحية الاصطناعية حسّنت أداء النموذج مقارنة بالتسميات التوضيحية "الحقيقة الأساسية".5

برنامج التشفير التلقائي المتغير

المُشفرات التلقائية المتغيرة (VAEs) هي نماذج توليدية ذاتية الإشراف تتعلم التمثيلات الكامنة لبيانات التدريب كتوزيع معلمي للمتغيرات الكامنة. بعبارة أخرى، يتعلمون تشفير فئة البيانات وليس كتضمين دلالي ثابت، ولكن كتوزيع احتمالي في الفضاء الكامن. يمكن بعد ذلك استخدام وحدة فك التشفير لتوليد عينة عشوائية من ذلك الفضاء الكامن. يمكن للمُشفرات التلقائية المتغيرة الشرطية (CVAEs) تقييد خصائص العينات المركبة من خلال مضاعفة احتمال المتغيرات المختارة.

الشبكات التنافسية التوليدية (GANs)

تتألف الشبكات التنافسية التوليدية من شبكتين عصبيتين تم تدريبهما معًا في لعبة محصلتها صفر: مولد يستخدم السمات الدلالية والضوضاء الغاوسية لتوليف العينات ومميّز يحدد ما إذا كانت العينات حقيقية أو "مزيفة" (أي التي تم توليفها من خلال المولد). تُستخدم التعليقات الواردة من المُميِّز لتدريب المولد حتى لا يستطيع المُميِّز التمييز بين العينات الحقيقية والمزيفة. ومنذ الورقة البحثية الأصلية للشبكات التنافسية التوليدية في عام 2014، تم تطوير عدد من التعديلات لتحسين هذه العملية وتثبيتها.

وحدات VAEGAN

ثمة عيوب لكل من المُشفرات التلقائية المتغيرة والشبكات التنافسية التوليدية:

  • تُعد المُشفرات التلقائية المتغيرة مستقرة، ولكنها تميل إلى إنشاء صور ضبابية بسبب طبيعة آلية إعادة بناء العينات من الفضاء الكامن.

  • تتعلم الشبكات التنافسية التوليدية إنشاء صور عالية الجودة، ولكنها عرضة لعدم الاستقرار لأنها يجب أن تتقارب بين عمليتي تدريب منفصلتين ومختلفتين.

وعلى الرغم من تطوير عدد من التعديلات لتحسين العمليتين وتثبيتهما، فإن الجمع بين بنيتي النموذجين قد أسفر عن نتائج واعدة في بيئة من دون أمثلة مسبقة.6

النماذج اللغوية الكبيرة (LLMs)

يمكن أيضًا استخدام النماذج اللغوية الكبيرة لتجميع عينات مصنفة: على سبيل المثال، استخدام نموذج ذاتي الانحدار مثل Llama 2 لإنتاج عينات يمكن استخدامها لتدريب نموذج لغوي ثنائي الاتجاه مثل Sentence-BERT من أجل مهام تصنيف النصوص.