ما هو التعلم الخاضع للإشراف الذاتي؟

5 ديسمبر 2023

المؤلفين

Dave Bergmann

Senior Writer, AI Models

IBM

ما هو التعلم الخاضع للإشراف الذاتي؟

التعلم الخاضع للإشراف الذاتي هو تقنية تعلم آلي تستخدم التعلم غير الخاضع للإشراف للمهام التي تتطلب تقليديًا التعلم الخاضع للإشراف. وبدلاً من الاعتماد على مجموعات البيانات المصنفة لإشارات المشرف، تقوم النماذج الخاضعة للإشراف الذاتي بإنشاء تصنيفات ضمنية من البيانات غير المنظمة.

يُعد التعلم الخاضع للإشراف الذاتي (SSL) مفيدًا بشكل خاص في مجالات مثل رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP) التي تتطلب كميات كبيرة من البيانات المصنفة لتدريب نماذج الذكاء الاصطناعي (AI) المتطورة. نظرًا لأن هذه المجموعات البيانات المصنفة تتطلب شرحًا توضيحيًا يستغرق وقتًا طويلاً من قبل خبراء بشريين، فقد يكون جمع البيانات الكافية أمرًا صعبًا للغاية. يمكن أن تكون الأساليب الخاضعة للإشراف الذاتي أكثر فعالية من حيث الوقت والتكلفة، لأنها تحل محل بعض أو بيانات التدريب المصنفة يدويًا.

لتدريب نموذج التعلم العميق للمهام التي تتطلب الدقة، مثل التصنيف أو الانحدار، يجب أن يكون المرء قادرًا على مقارنة تنبؤات مخرجات النموذج لإدخال معين بالتنبؤات الصحيحة لهذا الإدخال—والتي تسمى عادةً الحقيقة الأساسية. عادةً ما تكون بيانات التدريب المصنفة يدويًا بمثابة الحقيقة الأساسية: نظرًا لأن هذه الطريقة تتطلب تدخلًا بشريًا مباشرًا، فإنها تسمى التعلم "الخاضع للإشراف". في التعلم الخاضع للإشراف الذاتي، يتم تصميم المهام بحيث يمكن استنتاج "الحقيقة الأساسية" من البيانات غير المصنفة.

في التعلم الخاضع للإشراف الذاتي (SSL)، تنقسم المهام إلى فئتين: مهام الذريعة ومهام لاحقة. في مهام الذريعة، يتم استخدام SSL لتدريب نظام الذكاء الاصطناعي لتعلم تمثيلات ذات معنى للبيانات غير منظمة. يمكن استخدام هذه التمثيلات المكتسبة لاحقًا كإدخال لمهمة لاحقة، مثل مهمة التعلم الخاضع للإشراف أو مهمة التعلم المعزز. يشار إلى إعادة استخدام نموذج مدرب مسبقًا على مهمة جديدة باسم "نقل التعلم".

يتم استخدام التعلم الذاتي في تدريب مجموعة متنوعة من هياكل التعلم العميق المتطورة لمجموعة متنوعة من المهام، من نماذج اللغة الكبيرة القائمة على المحولات (LLMs) مثل BERT و GPT إلى نماذج توليف الصور مثل برامج التشفير التلقائي المتغيرة (VAEs) والشبكات التنافسية التوليدية (GANs) إلى نماذج الرؤية الحاسوبية مثل SimCLR و Momentum Contrast (MoCo).

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

التعلم الخاضع للإشراف الذاتي مقابل التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف

على الرغم من أن التعلم الخاضع للإشراف الذاتي هو تقنيًا مجموعة فرعية من التعلم غير الخاضع للإشراف (لأنه لا يتطلب مجموعة بيانات مصنفة)، إلا أنه يرتبط ارتباطًا وثيقًا بالتعلم الخاضع للإشراف من حيث أنه يحسن الأداء مقابل حقيقة أساسية.

هذا التفاوت غير المثالي مع نماذج التعلم الآلي التقليدية أدى إلى تصنيف التقنيات المختلفة التي تُعتبر الآن مجتمعةً "التعلم الذاتي المُشرف" في فئةٍ مستقلة.

غالبا ما يعزى صياغة المصطلح إلى Yann LeCun، عالم الكمبيوتر الحائز على جائزة Turing والشخصية الرئيسية في ظهور التعلم العميق، 1 الذي أعلن أنه من الضروري إزالة الغموض عن التعلم الخاضع للإشراف الذاتي (SSL) والتعلم غير الخاضع للإشراف حقًا (والذي أسماه "مصطلح محمّل ومربك").2 قد يكون الاسم (والمفهوم الرسمي) له أصول في ورقة بحثية نشرها Raina وآخرون في عام 2007 بعنوان "التعلم الذاتي: نقل التعلم من البيانات غير المصنفة".3 تسبق بعض إطار العمل التعلم الآلي التي تُعتبر الآن SSL، مثل برامج التشفير التلقائي، وجود المصطلح نفسه بعدد من السنوات.

التعلم الخاضع للإشراف الذاتي مقابل التعلم غير الخاضع للإشراف

التعلم الخاضع للإشراف الذاتي هو مجموعة فرعية من التعلم غير الخاضع للإشراف: جميع تقنيات التعلم ذاتيًا هي تعلم غير خاضع للإشراف، لكن معظم التعلم غير الخاضع للإشراف لا يستلزم الإشراف الذاتي.

لا يستخدم التعلم غير الخاضع للإشراف أو الخاضع للإشراف الذاتي المصنفات في عملية التدريب: تتعلم كلتا الطريقتين الارتباطات والأنماط الجوهرية في البيانات غير المصنفة، بدلًا من الارتباطات المفروضة خارجيًا من مجموعات البيانات المشروحة. وبعيدًا عن هذا التركيز المشترك على البيانات غير المصنفة، فإن الاختلافات بين التعلم الخاضع للإشراف الذاتي وغير الخاضع للإشراف تعكس إلى حد كبير الاختلافات بين التعلم غير الخاضع للإشراف والتعلم الخاضع للإشراف.

لا تقيس المشكلات التي تستخدم التعلم التقليدي غير الخاضع للإشراف النتائج وفقًا لأي حقيقة أساسية معروفة مسبقًا. على سبيل المثال، قد يتمكن نموذج الارتباط غير الخاضع للإشراف من تشغيل محرك توصيات التجارة الإلكترونية من خلال التعرف على المنتجات التي يتم شراؤها معًا بشكل متكرر. لا تستمد فائدة النموذج من تكرار التنبؤات البشرية، ولكن من اكتشاف ارتباطات غير واضحة للمراقبين البشريين.

يقيس التعلُّم الخاضع للإشراف الذاتي النتائج مقابل حقيقة أساسية، وإن كانت مستمدة ضمنيًا من بيانات التدريب غير المصنفة. على غرار النماذج الخاضعة للإشراف، يتم تحسين النماذج الخاضعة للإشراف الذاتي باستخدام دالة خسارة: خوارزمية تقيس التباعد ("الخسارة") بين الحقيقة الأساسية وتوقعات النموذج. أثناء التدريب، تستخدم النماذج ذاتية الإشراف الانحدار التدريجي أثناء الانتشار العكسي لضبط أوزان النموذج بطريقة تقلل من الخسارة (وبالتالي تحسن الدقة).

وانطلاقًا من هذا الاختلاف الرئيسي، تركز الطريقتان على حالات الاستخدام المختلفة: تُستخدم النماذج غير الخاضعة للإشراف في مهام مثل التجميع وكشف الخلل وتقليل الأبعاد التي لا تتطلب دالة خسارة، بينما تُستخدم النماذج الخاضعة للإشراف الذاتي في مهام التصنيف والانحدار المعتادة في التعلم الخاضع للإشراف.

التعلم الخاضع للإشراف الذاتي مقابل التعلم الخاضع للإشراف

في حين أن التعلّم الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي يُستخدمان إلى حد كبير في نفس أنواع المهام وكلاهما يتطلب حقيقة أساسية لتحسين الأداء من خلال دالة الخسارة، يتم تدريب النماذج الخاضعة للإشراف الذاتي على بيانات غير مصنفة بينما يتطلب التعلّم الخاضع للإشراف مجموعات بيانات مصنفة للتدريب.

تُعد مجموعات البيانات المصنفة فعالة للغاية في تدريب النماذج: يسمح التعليق التوضيحي لبيانات التدريب للنموذج بالتعرف مباشرة على الارتباطات والسمة الرئيسية التي تعكسها هذه التعليقات التوضيحية. من خلال تقليل التباعد بين تنبؤات النموذج و"التنبؤات" المشروحة يدويًا للخبراء أثناء التدريب، تتعلم النماذج الخاضعة للإشراف إجراء استنتاجات صحيحة حول بيانات الإدخال الجديدة (غير المصنفة).

على الرغم من أن أحدث الأساليب الخاضعة للإشراف يمكن أن تسفر عن دقة عالية، إلا أن وضع تعليقات توضيحية لكميات كبيرة من التدريب غالبًا ما يكون عنق الزجاجة في عملية البحث. على سبيل المثال، في مهام الرؤية الحاسوبية مثل تقسيم المثيلات التي تتطلب تنبؤات خاصة بالبكسل، يجب إجراء التعليق التوضيحي لبيانات التدريب على مستوى البكسل. وهذا أمر مكلف ويستغرق وقتًا طويلاً، مما يحد من كمية بيانات التدريب المتاحة وقدرة معظم الشركات والباحثين على الحصول عليها.

في المقابل، تستخدم النماذج الخاضعة للإشراف الذاتي تقنيات مختلفة للحصول على إشارات إشرافية من بنية البيانات المدخلة نفسها، متجنبةً التصنيفات تمامًا. على سبيل المثال، عن طريق إخفاء أجزاء من الجملة بشكل عشوائي (أو "إخفاء") وتكليف نموذج خاضع للإشراف الذاتي بالتنبؤ بالكلمات المخفية، باستخدام الجملة الأصلية (غير المصنفة) كحقيقة أساسية.

التعلم الخاضع للإشراف الذاتي مقابل التعلم شبه الخاضع للإشراف

على عكس التعلّم الخاضع للإشراف الذاتي، الذي لا يتضمن بيانات مصنفة من قِبل البشر، يستخدم التعلّم شبه الخاضع للإشراف بيانات مصنفة وغير مصنفة لتدريب النماذج. على سبيل المثال، قد يستخدم النموذج شبه الخاضع للإشراف كمية صغيرة من نقاط البيانات المصنفة لاستنتاج تصنيفات لبقية مجموعة بيانات التدريب غير المصنفة، ثم يشرع في استخدام مجموعة البيانات بأكملها للتعلم الخاضع للإشراف. على الرغم من أن دوافعهما متشابهة، حيث أن كلا النهجين يتحايلان على الحاجة إلى مجموعات بيانات كبيرة مصنفة في التعلم الخاضع للإشراف، إلا أن منهجياتهما مختلفة.

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

كيف يعمل التعلم الخاضع للإشراف الذاتي؟

تم تصميم مهام التعلم ذاتية الإشراف بحيث يمكن لدالة الخسارة استخدام بيانات الإدخال غير المصنفة كحقيقة أساسية. يسمح ذلك للنموذج بتعلم تمثيلات دقيقة وذات مغزى لبيانات الإدخال بدون تصنيفات أو تعليقات توضيحية.

الهدف من التعلم الخاضع للإشراف الذاتي هو تقليل الحاجة إلى البيانات المصنفة أو استبدالها تمامًا. في حين أن البيانات المصنفة نادرة ومكلفة نسبيًا، فإن البيانات غير المصنفة وفيرة ورخيصة نسبيًا. في الأساس، تُنتج مهام الذريعة "تصنيفات زائفة" من البيانات غير المصنفة. يشير مصطلح "الذريعة" إلى أن مهمة التدريب ليست مفيدة (بالضرورة) في حد ذاتها: فهي مفيدة فقط لأنها تعلم نماذج تمثيلات البيانات المفيدة لأغراض المهام اللاحقة. وبالتالي غالبًا ما يشار إلى مهام الذريعة أيضًا باسم التعلم التمثيلي.

غالبًا ما يتم ضبط النماذج التي تم تدريبها مسبقًا باستخدام التعلم الخاضع للإشراف الذاتي بشكل دقيق لمهامها النهائية المحددة: غالبًا ما يتضمن هذا الضبط الدقيق تعلمًا حقيقيًا تحت الإشراف (وإن كان ذلك بجزء بسيط من البيانات المصنفة اللازمة لتدريب نموذج باستخدام التعلم الخاضع للإشراف وحده).

على الرغم من أن تخصص التعلم الخاضع للإشراف الذاتي متنوع في كل من المنهجية وحالات الاستخدام، فإن النماذج المدربة باستخدام التعلم الخاضع للإشراف الذاتي تستخدم واحدة (أو كلتيهما) من تقنيتي التعلم الآلي: التعلم التنبؤي الذاتي والتعلم المتباين.

التعلّم التنبؤي الذاتي

المعروفة أيضًا باسم التعلم الذاتي الترابطي، تقوم أساليب التنبؤ الذاتي بتدريب نموذج للتنبؤ بجزء من عينة البيانات الفردية، بالنظر إلى معلومات حول أجزاءها الأخرى. عادة ما تكون النماذج المدربة على هذه الأساليب نماذج توليدية وليست تمييزية.

وصف Yann LeCun الأساليب الخاضعة للإشراف الذاتي بأنها ممارسة منظمة "لملء الفراغات". بشكل عام، وصف عملية تعلم تمثيلات ذات مغزى من الهيكل الأساسي للبيانات غير المصنفة بعبارات بسيطة: "تظاهر بوجود جزء من الإدخال لا تعرفه وتتنبأ بذلك". 4 على سبيل المثال:

  • التنبؤ بأي جزء من الإدخال من أي جزء آخر
  • التنبؤ بالمستقبل من الماضي
  • التنبؤ بالمقنّع من المرئي
  • التنبؤ بأي جزء مغلق من جميع الأجزاء المتاحة

وغالباً ما تستخدم الأنظمة الخاضعة للإشراف الذاتي المبنية على هذه الفلسفات بنيات نماذج وتقنيات تدريب معينة.

برامج التشفير التلقائي

برنامج التشفير التلقائي هو شبكة عصبية مدربة على ضغط (أو تشفير) بيانات الإدخال، ثم إعادة بناء (أو فك تشفير) الإدخال الأصلي باستخدام هذا التمثيل المضغوط. يتم تدريبها لتقليل خطأ إعادة البناء، باستخدام الإدخالات الأصلية نفسها كحقيقة أساسية.

على الرغم من اختلاف بنى التشفير التلقائي، إلا أنها عادةً ما تقدم شكلًا من أشكال الاختناقات: عندما تجتاز البيانات شبكة التشفير، يتم تقليل سعة بيانات كل طبقة تدريجيًا. يجبر هذا الشبكة على تعلم أهم الأنماط المخفية داخل بيانات الإدخال فقط —تسمى المتغيرات الكامنة، أو المساحة الكامنة —بحيث يمكن لشبكة فك التشفير إعادة بناء الإدخال الأصلي بدقة على الرغم من وجود معلومات أقل الآن.

تمكّن التعديلات التي تم إجراؤها على إطار العمل الأساسي هذا من تعلم الميزات والوظائف المفيدة.

  • يتم تزويد برامج التشفير التلقائي لإزالة الضوضاء ببيانات إدخال تالفة جزئيًا وتدريبها على استعادة الإدخال الأصلي عن طريق إزالة المعلومات غير المفيدة ("الضوضاء"). هذا يقلل من التجهيز الزائد ويجعل هذه النماذج مفيدة لمهام مثل استعادة صور الإدخال والبيانات الصوتية التالفة.
  • في حين أن معظم برامج التشفير التلقائي تقوم بتشفير نماذج منفصلة للمساحة الكامنة، فإن برامج التشفير التلقائي المتغيرة (VAEs) تتعلم نماذج مستمرة للمساحة الكامنة: من خلال تشفير التمثيلات الكامنة لبيانات الإدخال كتوزيع احتمالي، يمكن لوحدة فك التشفير إنشاء بيانات جديدة عن طريق أخذ عينات من متجه عشوائي من هذا التوزيع.

الانحدار التلقائي

تستخدم نماذج الانحدار الذاتي السلوك السابق للتنبؤ بالسلوك المستقبلي. وهي تعمل وفق المنطق القائل بأن أي بيانات ذات ترتيب تسلسلي فطري —مثل اللغة أو الصوت أو الفيديو—يمكن نمذجتها باستخدام الانحدار.

تقوم خوارزميات الانحدار الذاتي بنمذجة بيانات السلاسل الزمنية، باستخدام قيمة (قيم) الخطوة (الخطوات) الزمنية السابقة للتنبؤ بقيمة الخطوة الزمنية التالية. بينما في خوارزميات الانحدار التقليدية، مثل تلك المستخدمة في الانحدار الخطي، يتم استخدام المتغيرات المستقلة للتنبؤ بقيمة  مستهدفة (أو متغير تابع)، في الانحدار الذاتي، يكون المتغير المستقل والتابع في الأساس واحدًا ومتشابه: يطلق عليه الانحدار التلقائي لأن الانحدار يتم إجراؤه على المتغير نفسه.

يُستخدم الانحدار التلقائي بشكل بارز في النماذج اللغوية السببية مثل GPT و LLaMa وعائلات Claude من نماذج LLMs التي تتفوق في مهام مثل توليد النصوص والإجابة على الأسئلة. في التدريب المسبق، يتم تزويد نماذج اللغة ببداية عينة من الجمل المستمدة من بيانات التدريب غير المصنفة وتُكلّف بالتنبؤ بالكلمة التالية، على أن تكون الكلمة التالية "الفعلية" من عينة الجملة بمثابة الحقيقة الأساسية.

الإخفاء

تتضمن طريقة التعلم الأخرى الخاضعة للإشراف الذاتي إخفاء أجزاء معينة من عينة بيانات غير مصنفة ونماذج المهام بالتنبؤ بالمعلومات المفقودة أو إعادة بنائها. تستخدم وظائف الخسارة الإدخال الأصلي (الإخفاء المسبق) كحقيقة أساسية. على سبيل المثال، تُشبه برامج التشفير التلقائي المقنّع انعكاسًا لبرامج التشفير الصوتي التي تعمل على إزالة تشفير الصوت: فهي تتعلم التنبؤ بالمعلومات المفقودة واستعادتها، بدلاً من إزالة المعلومات الدخيلة.

يستخدم الإخفاء أيضًا في تدريب نماذج اللغة المقنّعة: يتم حذف الكلمات العشوائية من عينة الجمل ويتم تدريب النماذج على ملئها. على الرغم من أن النماذج اللغوية المقنّعة مثل BERT (والنماذج العديدة المبنية على بنيتها، مثل BART و RoBERTa) غالبًا ما تكون أقل مهارة في توليد النصوص من النماذج الانحدارية التلقائية، إلا أنها تتميز بكونها ثنائية الاتجاه: فهي لا تستطيع التنبؤ بالكلمة التالية فحسب، بل أيضًا بالكلمات السابقة أو الكلمات التي توجد لاحقًا في تسلسل ما. هذا يجعلها مناسبة تمامًا للمهام التي تتطلب فهمًا سياقيًا قويًا، مثل الترجمة والتلخيص والبحث.

التنبؤ بالعلاقة الفطرية

التنبؤ بالعلاقة الفطرية تُدرب النموذج على الحفاظ على فهمه لعينة البيانات بعد تحويلها بطريقة ما. على سبيل المثال، تدوير صورة إدخال وتكليف نموذج بتوقع درجة التغير واتجاه الدوران بالنسبة للإدخال الأصلي.5

التعلّم المتباين

توفر طرق التعلم المتباينة ذاتية الإشراف للنماذج عينات بيانات متعددة وتكليفهم بالتنبؤ بالعلاقة بينها. عادة ما تكون النماذج المدربة على هذه الأساليب نماذج تمييزية وليست توليدية.

تعمل النماذج المتباينة بشكل عام على أزواج بيانات-بيانات للتدريب، بينما تعمل النماذج الترابطية الذاتية على أزواج البيانات-التصنيفات البيانات (حيث يتم إنشاء التصنيف ذاتيًا من البيانات). باستخدام أزواج البيانات هذه، تقوم الأساليب المتباينة بتدريب النماذج على التمييز بين الأشياء المتشابهة والمختلفة.

غالبًا ما يتم إنشاء هذه الأزواج من خلال زيادة البيانات: تطبيق أنواع مختلفة من التحول أو الاضطرابات على البيانات غير المصنفة لإنشاء مثيلات جديدة أو طرق عرض معززة. على سبيل المثال، تشمل تقنيات الزيادة الشائعة لبيانات الصورة التدوير والاقتصاص العشوائي والتقليب والضوضاء والتصفية والتلوين. تؤدي زيادة البيانات إلى زيادة تنوع البيانات وتعريض النموذج لوجهات نظر مختلفة، مما يساعد على ضمان تعلم النموذج لالتقاط تمثيلات دلالية ديناميكية ذات مغزى.

تمييز المثيل

تضع النماذج القائمة على تمييز المثيلات إطارًا للتدريب كسلسلة من مهام التصنيف الثنائي: باستخدام عينة بيانات واحدة كهدف (أو "مرساة")، يتم تحديد عينات البيانات الأخرى لتكون "إيجابية" (مطابقة) أو "سلبية" (غير مطابقة).

في رؤية الكمبيوتر، تبدأ مثل هذه الأساليب—مثل SimCLR أو MoCo—عادةً بمجموعة من الصور الخام غير المصنفة وتطبق مجموعة عشوائية من التحول لتوليد أزواج (أو مجموعات) من عينات الصور المعززة. يتم بعد ذلك ترميز كل صورة من هذه الصور المعززة في تمثيل متجه، وتُستخدم دالة خسارة متباينة لتقليل الفرق في التمثيلات المتجهة بين الصور المتطابقة الإيجابية—أزواج من الصور المعززة المشتقة من نفس الصورة الأصلية—وتعظيم الفرق بين الصور المتطابقة السلبية.

وبالتالي تقوم أساليب تمييز المثيلات بتدريب النماذج على تعلم تمثيلات الفئات المختلفة التي، بفضل عمليات زيادة البيانات العشوائية، تكون قوية في مواجهة الاختلافات التافهة (مثل اللون أو المنظور أو الأجزاء المرئية في صورة معينة). وبالتالي يمكن تعميم هذه التمثيلات بشكل جيد جدًا على المهام النهائية.

التعلّم غير المتباين

على عكس ما هو متوقع إلى حد ما، يشير "التعلم غير المتباين" إلى طريقة مرتبطة ارتباطًا وثيقا بالتعلم المتباين (بدلاً من أن يكون، كما قد يتبادر إلى الذهن، مصطلحًا عامًا للطرق التي لا تمثل التعلم المتباين). يتم تدريب النماذج باستخدام أزواج إيجابية فقط، وتعلم تقليل الفرق بين تمثيلاتها - وبالتالي، فهي غير–تباينية.

بالمقارنة مع التعلم المتباين، فإن الأساليب غير المتباينة بسيطة نسبيًا: نظرًا لأنها تعمل على عينات إيجابية فقط، فإنها تستخدم أحجام دفعات أصغر لفترات التدريب ولا تحتاج إلى بنك ذاكرة لتخزين العينات السلبية. وهذا يوفر الذاكرة والتكلفة الحسابية في أثناء التدريب المسبق.

نماذج غير تباينية مثل Bootstrap Your Own Latent (BYOL)6 و Barlow Twins7 وقد حققوا نتائج منافسة لنتائج النماذج المتباينة والخاضعة للإشراف البحت.

التعلم متعدد الوسائط

بالنظر إلى نقاط البيانات من أنواع مختلف—الطرائق—يمكن للطرق المتباينة أن تتعلم رسم الخرائط بين تلك الطرائق. على سبيل المثال، يقوم برنامج التدريب المسبق للغة والصورة المتباينة (CLIP) بتدريب مُشفِّر للصور ومُشفِّر للنصوص بشكل مشترك للتنبؤ بالتعليق الذي يتناسب مع أي صورة، باستخدام ملايين من التصنيفات(صور ونصوص) غير المصنفة المتاحة بسهولة والتي تم جمعها من الإنترنت. بعد التدريب المسبق، يتم استخدام معالجة اللغة الطبيعية (NLP) للإشارة إلى المفاهيم البصرية التي تم تعلمها في التدريب (أو حتى لوصف مفاهيم بصرية جديدة)، مما يجعل النماذج المدربة على CLIP مفيدة للغاية لمجموعة واسعة من تطبيقات نقل التعلم.

كما تم استخدام التعلم التبايني لتعلم التوافق بين الفيديو والنص، 8 والفيديو والصوت، 9 والكلام والنص.10

حالات استخدام التعلم الخاضع للإشراف الذاتي:

تم استخدام التعلم الخاضع للإشراف الذاتي للتدريب المسبق لنماذج الذكاء الاصطناعي لمجموعة واسعة من المهام والتخصصات.

التعلم الخاضع للإشراف لمعالجة اللغة الطبيعية

  • في غضون عام من طرحه في عام 2018، نفذت Google نموذج اللغة المقنّع BERT باعتباره محرك معالجة اللغة الطبيعية للمقتطفات المصنفة والمميزة في البحث.11 اعتبارًا من عام 2023، تواصل Google استخدام بنية BERT لتشغيل تطبيقات البحث في العالم الحقيقي.12
  • تعد عائلات LLama و GPT و Claude من النماذج اللغوية الكبيرة ذاتية الانحدار. تم تدريب GPT3 بشكل أساسي على التعلم الخاضع للإشراف الذاتي. قام InstructGPT، ونماذج GPT-3.5 اللاحقة المستخدمة لإطلاق ChatGPT، بضبط النماذج المدربة مسبقًا باستخدام التعلم المعزز مع التعليقات البشرية(RLHF).
  • تستخدم نماذج الانحدار الذاتي أيضًا لمهام مهام معالجة اللغة الطبيعية  القائمة على الصوت مثل تحويل الكلام إلى نص، بالإضافة إلى نماذج تحويل النص إلى كلام مثل WaveNet.13 يستخدم Facebook (Meta) wav2vec للتعرف على الكلام، باستخدام شبكتين عصبيتين تلافيفيين عميقتين مكدسة فوق بعضهما البعض لتعيين إدخال الصوت الخام إلى تمثيل متجه. في التدريب المسبق الخاضع للإشراف الذاتي، تُستخدم هذه المتجهات كإدخال لمهام التنبؤ الذاتي.14

التعلم الخاضع للإشراف لرؤية الكمبيوتر

  • يُعد التعلُّم الخاضع للإشراف الذاتي مجموعة فرعية سريعة النمو من تقنيات التعلُّم العميق المستخدمة في التصوير الطبي، والتي تندر فيها الصور المشروحة من قِبل الخبراء نسبيًا. عبر PubMed و Scopus و ArXiv، تشير المنشورات إلى ارتفاع استخدام SSL لتصنيف الصور الطبية بأكثر من 1000 في المائة من عام 2019 إلى عام 2021.15
  • يمكن أن تتطابق الطرق القائمة على التعلم الخاضع للإشراف الذاتي في كثير من الأحيان أو تتجاوز دقة النماذج المدربة باستخدام طرق خاضعة للإشراف الكامل. على سبيل المثال، تفوق أداء MoCo الأصلي على النماذج الخاضعة للإشراف عبر سبع مهام لكشف الكائنات وتجزئة الصور على مجموعات بيانات PASCAL و VOC و COCO.16 عند إجراء الضبط الدقيق باستخدام البيانات المصنفة لواحد بالمائة فقط من جميع بيانات التدريب ، حققت النماذج المدربة مسبقًا باستخدام التعلم الخاضع للإشراف الذاتي دقة تزيد عن 80 بالمائة على مجموعة بيانات ImageNet. هذا ينافس أداء نماذج التعلم المعيارية الخاضعة للإشراف مثل ResNet50.
  • تعد القدرة على الحفاظ على كشف الكائنات الناجح وتجزئة الصور على الرغم من التغييرات في اتجاه الكائن أمرًا ضروريًا للعديد من مهام التشغيل الآلي. تم اقتراح التعلم تحت الإشراف الذاتي كطريقة فعالة لتدريب نماذج رؤية الكمبيوتر لفهم الدوران دون الحاجة لجمع البيانات المصنفة التي تستغرق وقتًا طويلاً.17 18
  • لقد تم استخدام الإخفاء لتدريب النماذج لفهم مسار الحركة في الفيديو.19

التعلم الخاضع للإشراف الذاتي لمعالجة الصور وتوليف الصور

  • تعد برامج التشفير التلقائي لإزالة الضوضاء عنصرًا أساسيًا في تدريب بعض نماذج تركيب الصور الحديثة، مثل الانتشار المستقر.20
  • تم استخدام نمذجة الانحدار الذاتي لتركيب الصور في نماذج مثل PixelRNN و PixelCNN. وقد أدى نجاح PixelCNN إلى أن يصبح هو الأساس لـ WaveNet.
  • تستخدم برامج التشفير التلقائي التلافيفي مجموعة متنوعة من مهام معالجة الصور، مثل الطلاء وتلوين الصور ذات التدرج الرمادي.
  • تُعد برامج التشفير التلقائي المتغير (VAEs) أداة مهمة في تركيب الصور. استخدم نموذج DALL-E الأصلي من OpenAI نموذج DALL-E الأصلي لتوليد الصور. ويستخدم كل من DALL-E 1 و DALL-E 2 برنامج CLIP في عملية ترجمة موجهات اللغة الطبيعية إلى معلومات مرئية.21
حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 Mar 2019
2 Facebook, Yann LeCun, 30 Apr 2019
3 "Self-taught learning: transfer learning from unlabeled data," Proceedings of the 24th international conference on machine learning, 20 June 2007
4 Lecture: Energy based models and self-supervised learning, YouTube, uploaded 2020
5 "Learning to see by moving," arXiv, 14 Sep 2015
6 "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 Sep 2020
7 "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 June 2021
8 "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1 Oct 2021
9 "Active Contrasting Learning of Audio-Visual Video Representations," Proceedings of the International Conference on Learning Representations, 2021
10 "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 May 2022
11 "Understanding searches better than ever before," Google, 25 Oct 2019
12 "End-to-End Query Term Weighting," Google, 2023
13 "WaveNet: A Generative Model for Raw Audio," arXiv, 19 Sep 2016
14 "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 Sep 2019
15 "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 April 2023
16 "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 Nov 2019 (last revised 23 Mar 2020)
17 "Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 Nov 2022
18 "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 May 2021
19 "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, Oct 2022
20 "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 Dec 2021 (last revised 13 Apr 2022)
21 "DALL-E: Creating images from text," OpenAI, 5 Jan 2021