التعلم شبه الخاضع للإشراف هو فرع من التعلم الآلي يجمع بين التعلم الخاضع للإشراف وغير الخاضع للإشراف باستخدام كل من البيانات المصنفة وغير المصنفة لتدريب نماذج الذكاء الاصطناعي على مهام التصنيف والانحدار.
على الرغم من أن التعلم شبه الخاضع للإشراف يُستخدم عمومًا في نفس حالات الاستخدام التي قد يستخدم فيها المرء أساليب التعلم الخاضع للإشراف، إلا أنه يتميز بتقنيات مختلفة تدمج بيانات غير مصنفة في تدريب النموذج، بالإضافة إلى البيانات المصنفة المطلوبة للتعلم التقليدي الخاضع للإشراف.
تعتبر طرق التعلم شبه الخاضع للإشراف ذات أهمية خاصة في الحالات التي يكون فيها الحصول على كمية كافية من البيانات المصنفة أمرًا صعبًا أو مكلفًا للغاية، ولكن من السهل نسبيًا الحصول على كميات كبيرة من البيانات غير المصنفة. في مثل هذه السيناريوهات، لن توفر طرق التعلم الخاضعة للإشراف الكامل أو غير الخاضعة للإشراف حلولًا مناسبة.
يتطلب تدريب نماذج الذكاء الاصطناعي لمهام التنبؤ مثل التصنيف أو الانحدار عادةً بيانات مصنفة: نقاط البيانات المشروحة التي توفر السياق الضروري وتوضح التنبؤات (المخرجات) الصحيحة لكل عينة إدخال. أثناء التدريب، تقيس دالة الخسارة الفرق (الخسارة) بين تنبؤات النموذج لإدخال معين و"الحقيقة الأساسية" التي يوفرها تصنيف ذلك الإدخال. وتتعلم النماذج من هذه الأمثلة المصنفة باستخدام أساليب مثل الانحدار التدرجي الذي يقوم بتحديث ترجيحات النموذج لتقليل الخسارة. ولأن عملية التعلُّم الآلي هذه تنطوي على إشراك البشر بشكل فعّال، يُطلق عليها اسم التعلُّم "الخاضع للإشراف".
يتزايد احتياج تصنيف البيانات بشكل صحيح إلى عمالة كثيفة بشكل متزايد من أجل مهام الذكاء الاصطناعي المعقدة. على سبيل المثال ، لتدريب نموذج تصنيف الصور للتمييز بين السيارات والدراجات النارية، يجب تصنيف المئات (إن لم يكن الآلاف) من صور التدريب على أنها "سيارة" أو "دراجة نارية". للحصول على مهمة رؤية الكمبيوتر أكثر تفصيلاً، مثل اكتشاف العناصر، يجب على البشر ليس فقط الإشارة إلى العنصر (العناصر) التي تحتوي عليها كل صورة، ولكن مكان وجود كل عنصر. بالنسبة للمهام الأكثر تفصيلاً، مثل تقسيم الصور، يجب أن تتضمن تصنيفات البيانات توضيح حدود وحدات البيكسل على وجه التحديد واحدة تلو الأخرى لمقاطع صور مختلفة لكل صورة.
ومن ثم ، يمكن أن يكون تصنيف البيانات مملاً بشكل خاص في بعض حالات الاستخدام. في حالات استخدام التعلّم الآلي الأكثر تخصصاً، مثل اكتشاف الأدوية أو التسلسل الجيني أو تصنيف البروتين، لا يستغرق توضيح البيانات وقتاً طويلاً فحسب، بل يتطلب أيضاً خبرة محددة للغاية في مجال معين.
يوفر التعلم شبه الخاضع للإشراف طريقة لاستخراج أقصى فائدة من كمية نادرة من البيانات المصنفة مع الاستفادة من البيانات الوفيرة نسبيًا غير المصنفة.
يمكن اعتبار التعلم شبه الخاضع للإشراف بمثابة حل هجين أو وسطي بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف.
يتمثل الفرق الأساسي بين التعلم الآلي شبه الخاضع للإشراف والتعلّم الآلي الخاضع للإشراف الكامل في أن الأخير لا يمكن تدريبه إلا باستخدام مجموعة بيانات مصنفة بالكامل، بينما يستخدم الأول عينات بيانات مصنفة وغير مصنفة في عملية التدريب. تعمل تقنيات التعلّم شبه الخاضع للإشراف على تعديل أو استكمال خوارزمية خاضعة للإشراف - تُسمى "المتعلم الأساسي" في هذا السياق - لدمج المعلومات من الأمثلة غير المصنفة. يتم استخدام نقاط البيانات المصنفة لتأسيس تنبؤات المتعلم الأساسي وإضافة بنية (مثل عدد الفئات الموجودة والخصائص الأساسية لكل منها) إلى مشكلة التعلم.
الهدف من تدريب أي نموذج تصنيف هو أن يتعلم حدود قرار دقيقة: خط-أو، بالنسبة إلى البيانات ذات البعدين، "سطح" أو مستوى فائق - يفصل نقاط البيانات من فئة تصنيف محددة عن نقاط البيانات التي تنتمي إلى فئة تصنيف مختلفة. على الرغم من أن نموذج التصنيف الخاضع للإشراف الكامل يمكنه من الناحية الفنية معرفة حدود القرار باستخدام عدد قليل من نقاط البيانات المصنفة، إلا أنه قد لا يتم تعميمه جيدًا على أمثلة العالم الحقيقي، مما يجعل تنبؤات النموذج غير موثوقة.
تصوّر مجموعة البيانات الكلاسيكية "أنصاف الأقمار" أوجه القصور في النماذج الخاضعة للإشراف التي تعتمد على عدد قليل جدًا من نقاط البيانات المصنفة. على الرغم من أن حدود القرار "الصحيحة" من شأنها أن تفصل كلاً من نصفي القمر، فإن نموذج التعلم الخاضع للإشراف من المرجح أن يتناسب بشكل مفرط مع نقاط البيانات المصنفة القليلة المتاحة. من الواضح أن نقاط البيانات غير المصنفة تنقل سياقًا مفيدًا، ولكن لا يمكن للخوارزمية التقليدية الخاضعة للإشراف معالجة البيانات غير المصنفة.
على عكس التعلم شبه الخاضع للإشراف (والخاضع للإشراف الكامل)، لا تستخدم خوارزميات التعلم غير الخاضع للإشراف البيانات المصنفة ولا دالات الخسارة. ويتجنب التعلم غير الخاضع للإشراف أي سياق "للحقيقة الأساسية" يمكن من خلاله قياس دقة النموذج وتحسينها.
يُعد النهج شبه الخاضع للإشراف الشائع بشكل متزايد، خاصة بالنسبة للنماذج اللغوية الكبيرة، هو "التدريب المسبق" عبر المهام غير الخاضعة للإشراف التي تتطلب من النموذج تعلم تمثيلات مفيدة لمجموعات البيانات غير المصنفة. عندما تتضمن هذه المهام "الحقيقة الأساسية" ودالة خسارة (دون تعليقات توضيحية يدوية للبيانات)، فإنها تسمى التعلم الخاضع للإشراف الذاتي. بعد "الضبط الدقيق الخاضع للإشراف" اللاحق على كمية صغيرة من البيانات المصنفة، يمكن للنماذج المدربة مسبقًا في كثير من الأحيان تحقيق أداء مشابه للنماذج الخاضعة للإشراف الكامل.
في حين أن طرق التعلم غير الخاضعة للإشراف يمكن أن تكون مفيدة في العديد من السيناريوهات، فإن نقص السياق هذا قد يجعلها غير مناسبة للتصنيف بمفردها. خذ على سبيل المثال، كيف ستتعامل خوارزمية التجميع النموذجية - التي تجمع نقاط البيانات في عدد محدد مسبقًا من المجموعات بناءً على قربها من بعضها - مع مجموعة بيانات نصف القمر.
يهدف كل من التعلم شبه الخاضع للإشراف والتعلم الخاضع للإشراف الذاتي إلى التحايل على الحاجة إلى كميات كبيرة من البيانات المصنفة - ولكن في حين أن التعلم شبه الخاضع للإشراف يتضمن بعض البيانات المصنفة، فإن طرق التعلم الخاضع للإشراف الذاتي مثل برامج التشفير الذاتي غير خاضعة للإشراف حقا.
بينما يتطلب التعلم الخاضع للإشراف (وشبه الخاضع للإشراف) "حقيقة أساسية" خارجية، على شكل بيانات مصنفة، تستمد مهام التعلم الخاضعة للإشراف الذاتي الحقيقة الأساسية من البنية الأساسية للعينات غير المصنفة. ولا تُعد العديد من المهام الخاضعة للإشراف الذاتي مفيدة في حد ذاتها: تكمن فائدتها في تدريس النماذج المفيدة لتمثيل البيانات لأغراض "المهام النهائية" اللاحقة. وعلى هذا النحو، غالبًا ما تسمى "مهام الذريعة".
عند دمجها مع المهام النهائية الخاضعة للإشراف، فإن مهام الذرائع الخاضعة للإشراف الذاتي تشكل جزءًا من عملية التعلم شبه الخاضعة للإشراف: طريقة تعلم تستخدم البيانات المصنفة وغير المصنفة للتدريب النموذجي.
يعتمد التعلّم شبه الخاضع للإشراف على افتراضات معينة حول البيانات غير المصنفة المستخدمة لتدريب النموذج والطريقة التي ترتبط بها نقاط البيانات من فئات مختلفة ببعضها البعض.
أحد الشروط الضرورية للتعلم شبه الخاضع للإشراف (SSL) هو أن تكون الأمثلة غير المصنفة المستخدمة في تدريب النموذج ذات صلة بالمهمة التي يتم تدريب النموذج على أدائها. بمصطلحات أكثر رسمية، يتطلب التعلم شبه الخاضع للإشراف أن يحتوي التوزيع p(x) لبيانات الإدخال على معلومات حول التوزيع اللاحق p(y|x)- أي الاحتمالية الشرطية لنقطة بيانات معينة (x) تنتمي إلى نقطة معينة الفئة (y). لذا، على سبيل المثال، إذا كان شخص ما يستخدم بيانات غير مصنفة للمساعدة في تدريب مصنف الصور على التمييز بين صور القطط وصور الكلاب، يجب أن تحتوي مجموعة بيانات التدريب على صور لكل من القطط والكلاب — ولن تكون صور الخيول والدراجات البخارية مفيدة .
وعلى الرغم من أن دراسة أجريت عام 2018 لخوارزميات التعلّم شبه الخاضع للإشراف وجدت أن "زيادة كمية البيانات غير المصنّفة تميل إلى تحسين أداء تقنيات التعلّم شبه الخاضع للإشراف"، إلا أنها وجدت أيضًا أن "إضافة بيانات غير المصنّفة من مجموعة غير متطابقة من الفئات يمكن أن تضر بالأداء مقارنةً بعدم استخدام أي بيانات غير المصنّفة على الإطلاق." 1
يؤدي الشرط الأساسي لـ p (x) الذي له علاقة ذات مغزى بـ p (x | y) إلى افتراضات متعددة حول طبيعة تلك العلاقة. هذه الافتراضات هي القوة الدافعة وراء معظم طرق التعلم شبه الخاضع للإشراف، إن لم يكن كلها: بشكل عام، تعتمد أي خوارزمية تعلم شبه خاضع للإشراف على واحد أو أكثر من الافتراضات التالية التي يتم استيفاؤها بشكل صريح أو ضمني.
ينص افتراض المجموعة على أن نقاط البيانات التي تنتمي إلى نفس المجموعة -مجموعة من نقاط البيانات أكثر تشابهاً مع بعضها البعض مما هي عليه مع نقاط البيانات الأخرى المتاحة - ستنتمي أيضا إلى نفس الفئة.
على الرغم من أنه يُعد في بعض الأحيان الافتراض المستقل الخاص به، فقد تم وصفه بواسطة van Engelen and Hoos أيضًا بأنه "تعميم للافتراضات الأخرى".2 في هذا العرض، يعتمد تحديد مجموعات نقاط البيانات على مفهوم التشابه المستخدم: افتراض السلاسة، وافتراض الكثافة المنخفضة، والافتراضات المتنوعة، يستفيد كل منها ببساطة من تعريف مختلف لما يشتمل على نقطة بيانات "مماثلة".
تنص افتراضات السلاسة على أنه إذا كانت نقطتا البيانات، x و x '، قريبتين من بعضهما البعض في مساحة الإدخال - مجموعة جميع القيم الممكنة لـ x- فيجب أن تكون تصنيفاتها، y و y'، هي نفسها.
هذا الافتراض، المعروف أيضًا باسم افتراض الاستمرارية، شائع في معظم عمليات التعلّم الخاضع للإشراف: على سبيل المثال، تتعلم المصنفات تقريبًا ذا معنى (أو "تمثيل") لكل فئة ذات صلة أثناء التدريب؛ وبمجرد التدريب، تحدد تصنيف نقاط البيانات الجديدة من خلال التمثيل الأكثر قربًا منها.
في سياق التعلم شبه الخاضع للإشراف، يتمتع افتراض السلاسة بميزة إضافية تتمثل في تطبيقه بشكل عابر على البيانات غير المصنفة. فكر في سيناريو يتضمن ثلاث نقاط بيانات:
يخبرنا افتراض السلاسة أن x2 يجب أن يكون له نفس تصنيف x1. يخبرنا أيضا أن x3 يجب أن يكون له نفس تصنيف x2. لذلك، يمكننا أن نفترض أن جميع نقاط البيانات الثلاث لها نفس التصنيف، لأن تصنيف x1ينتشر بشكل انتقالي إلى x3 بسبب قرب x3من x2.
ينص افتراض الكثافة المنخفضة على أن حدود القرار بين الفئات يجب ألا تمر عبر المناطق ذات الكثافة العالية. بعبارة أخرى، يجب أن تكمن حدود القرار في المنطقة التي تحتوي على عدد قليل من نقاط البيانات.
وبالتالي يمكن اعتبار افتراض الكثافة المنخفضة امتدادًا لافتراض الكتلة (من حيث أن مجموعة نقاط البيانات عالية الكثافة تمثل فئة، بدلاً من الحدود بين الفئات) وافتراض السلاسة (في أنه إذا كانت نقاط البيانات المتعددة قريبة من بعضها البعض، فيجب أن تشارك في التصنيف، وبالتالي تقع على نفس الجانب من حدود القرار).
يوضح هذا المخطط كيف يمكن بافتراضات السلاسة والكثافة المنخفضة أن تحدد حدود قرار أكثر سهولة مما يمكن أن يكون ممكنًا باستخدام الطرق الخاضعة للإشراف التي يمكنها فقط مراعاة نقاط البيانات المصنفة (القليلة جدًا).
ينص الافتراض المتشعب على أن مساحة الإدخال تشتمل على مشعبات متعددة الأبعاد أقل والتي تقع عليها جميع نقاط البيانات، وأن نقاط البيانات الموجودة على المتشعب نفسه تشارك في نفس التصنيف.
للحصول على مثال بديهي، فكر في قطعة من الورق مشكّلة على شكل كرة. لا يمكن تعيين موقع أي نقاط على السطح الكروي إلا بإحداثيات ثلاثية الأبعاد x، y، z . ولكن إذا تم الآن تسطيح هذه الكرة المجعدة مرة أخرى إلى فرخ من الورق، يمكن الآن تعيين هذه النقاط نفسها بإحداثيات س، ص ثنائية الأبعاد. وهذا ما يسمى تقليل الأبعاد، ويمكن تحقيقه رياضياً باستخدام طرق مثل التشفير الذاتي أو التلافيف.
في التعلم الآلي، لا تتوافق الأبعاد مع الأبعاد المادية المألوفة، ولكن مع كل سمة أو ميزة من ميزات البيانات. على سبيل المثال، في التعلّم الآلي، تحتوي صورة RGB صغيرة بحجم 32 × 32 بكسل على 3072 بُعدًا: 1024 بكسل، لكل منها ثلاث قيم (للأحمر والأخضر والأزرق). تمثل مقارنة نقاط البيانات ذات الأبعاد الكثيرة تحديًا كبيرًا، وذلك بسبب التعقيد والموارد الحسابية المطلوبة ولأن معظم هذا الفضاء عالي الأبعاد لا يحتوي على معلومات ذات معنى للمهمة المطروحة.
يعتقد الافتراض المتشعب أنه عندما يتعلم النموذج دالة اختزال الأبعاد المناسبة لتجاهل المعلومات غير ذات الصلة، تتلاقى نقاط البيانات المتباينة إلى تمثيل أكثر وضوحًا تكون فيه افتراضات التعلم شبه الخاضع للإشراف الأخرى أكثر موثوقية.
تستخدم طرق التعلُّم الانتقالي التصنيفات المتاحة لتمييز تنبؤات التصنيف لمجموعة معينة من نقاط البيانات غير المصنفة بحيث يمكن استخدامها من قبل متعلم أساسي خاضع للإشراف.
وفي حين تهدف الطرق الاستقرائية إلى التدريب على مصنِّف يمكنه نمذجة مساحة الإدخال بأكملها، تهدف الطرق الانتقالية إلى إنتاج تنبؤات التصنيف للبيانات غير المصنفة فقط. لا ترتبط الخوارزميات المستخدمة في التعلّم الانتقالي إلى حدٍ كبير بالخوارزمية (الخوارزميات) التي سيستخدمها نموذج المصنف الخاضع للإشراف الذي سيتم تدريبه باستخدام هذه البيانات المصنفة حديثًا.
نشر التصنيف هو خوارزمية قائمة على الرسم البياني تحسب تعيينات التصنيف لنقاط البيانات غير المصنفة بناءً على قربها النسبي من نقاط البيانات المصنفة، باستخدام افتراض السلاسة وافتراض المجموعة.
الفكرة وراء هذه الخوارزمية هي أنه يمكن تخطيط رسم بياني متصل بالكامل حيث تكون جميع العقدة عبارة عن نقاط بيانات متاحة، سواء كانت مصنفة أو غير مصنفة. كلما كانت العقدتان أقرب إلى بعض مقاييس المسافة المختارة، مثل المسافة الإقليدية (يوجد الرابط خارج ibm.com)، كلما كانت الحافة بينهما أكثر ثِقلاً في الخوارزمية. بدءًا من نقاط البيانات المصنفة، تنتشر التصنيفات بعد ذلك بشكل تكراري عبر نقاط البيانات غير المصنفة المجاورة، باستخدام افتراضات السلاسة والمجموعة.
لا تعمل خوارزميات التعلم النشط على أتمتة تصنيف نقاط البيانات: بدلاً من ذلك، يتم استخدامها في التعلم شبه الخاضع للإشراف لتحديد العينات غير المصنفة التي ستوفر المعلومات الأكثر فائدة إذا تم تصنيفها يدوياً.3 وقد حقق استخدام التعلّم النشط في الإعدادات شبه الخاضعة للإشراف نتائج واعدة: على سبيل المثال، وجدت دراسة حديثة أنه قلل أكثر من نصف كمية البيانات المصنفة المطلوبة لتدريب نموذج للتجزئة الدلالية بشكل فعال.4
تهدف الأساليب الاستقرائية للتعلّم شبه الخاضع للإشراف إلى تدريب نموذج تصنيف (أو نموذج انحدار) بشكل مباشر، باستخدام بيانات مصنفة وغير مصنفة.
يمكن تمييز طرق التعلم شبه الخاضع للإشراف الاستقرائية عمومًا من خلال الطريقة التي تدمج بها البيانات غير المصنفة: عبر خطوة التصنيف الزائفة، أو خطوة المعالجة المسبقة غير الخاضعة للإشراف، أو عن طريق الدمج المباشر في الدالة الموضوعية للنموذج.
تتمثل إحدى الطرق البسيطة نسبيًا لتوسيع نطاق الخوارزميات الخاضعة للإشراف الحالية إلى إعداد شبه خاضع للإشراف في تدريب النموذج أولاً على البيانات المصنفة المتاحة - أو ببساطة استخدام مصنِّف مناسب موجود مسبقًا - ثم إنشاء تنبؤات بتصنيفات زائفة لنقاط البيانات غير المصنفة. ويمكن بعد ذلك إعادة تدريب النموذج باستخدام البيانات المصنفة في الأصل والبيانات المصنفة الزائفة، وليس التفريق بين الاثنين.
تتمثل الفائدة الأساسية لطرق الالتفاف، بالإضافة إلى بساطتها، في أنها متوافقة مع أي نوع من المتعلمين الأساسيين الخاضعين للإشراف تقريبًا. تقدم معظم طرق الالتفاف بعض تقنيات التنظيم لتقليل مخاطر تعزيز تنبؤات التصنيف الزائفة التي يحتمل أن تكون غير دقيقة.
التدريب الذاتي هو أسلوب التفاف أساسي. يتطلب ذلك تنبؤات احتمالية بدلاً من التنبؤات الحتمية ذات التصنيفات الزائفة: على سبيل المثال، نموذج يُخرج "85% كلب و15% قطة" بدلاً من مجرد إخراج "كلب".
تسمح تنبؤات التصنيف الزائف الاحتمالية لخوارزميات التدريب الذاتي بقبول التنبؤات التي تتجاوز عتبة ثقة معينة فقط، في عملية تشبه عملية تقليل الانتروبيا.5 ويمكن إجراء هذه العملية بشكل متكرر ، إما لتحسين عملية التصنيف الزائف أو الوصول إلى عدد معين من العينات ذات الملصقات الزائفة.
تعمل أساليب التدريب المشترك على توسيع مفهوم التدريب الذاتي من خلال تدريب العديد من المتعلمين الأساسيين الخاضعين للإشراف على تعيين تصنيفات زائفة.
ويهدف التنويع إلى تقليل الاتجاه إلى تعزيز التنبؤات الأولية الضعيفة. لذلك من المهم ألا تكون تنبؤات كل متعلم أساسي مرتبطة ببعضها البعض. يتمثل النهج النموذجي في استخدام خوارزميات مختلفة لكل مصنِّف. وثمة طريقة أخرى وهي أن يركز كل مصنف على مجموعة فرعية مختلفة من البيانات: على سبيل المثال، في بيانات الفيديو، تدريب قاعدة أحد المتعلمين على البيانات المرئية والآخر على البيانات الصوتية.
على عكس طرق الالتفاف (والخوارزميات شبه الخاضعة للإشراف جوهريًا)، والتي تستخدم بيانات مصنفة وغير مصنفة في نفس الوقت، تستخدم بعض طرق التعلم غير الخاضع للإشراف بيانات غير مصنفة ومصنفة في مراحل منفصلة: مرحلة المعالجة المسبقة غير الخاضعة للإشراف، تليها مرحلة خاضعة للإشراف.
وكما هو الحال مع طرق الالتفاف، يمكن استخدام هذه التقنيات بشكل أساسي لأي متعلم أساسي خاضع للإشراف. ولكن على النقيض من طرق الالتفاف، يتم تدريب النموذج "الرئيسي" الخاضع للإشراف في النهاية على نقاط البيانات المصنفة في الأصل (التي يضيف إليها تعليقات بشرية) فقط.
تتراوح تقنيات المعالجة المسبقة هذه بين استخراج الميزات المفيدة من البيانات غير المصنفة والتجميع المسبق لنقاط البيانات غير المصنفة إلى استخدام "التدريب المسبق" لتحديد المعلمات الأولية للنموذج الخاضع للإشراف (في عملية تشبه مهام الذريعة التي يتم إجراؤها في التعلم الخاضع للإشراف الذاتي).
تتضمن إحدى التقنيات المباشرة شبه الخاضعة للإشراف تجميع جميع نقاط البيانات (المصنفة وغير المصنفة) باستخدام خوارزمية غير خاضعة للإشراف. بالاستفادة من افتراض التجميع، يمكن استخدام هذه المجموعات للمساعدة في تدريب نموذج مصنف مستقل — أو إذا كانت نقاط البيانات المصنفة في مجموعة معينة من نفس الفئة، يُمكنك تصنيف نقاط البيانات غير المصنفة بشكل زائف والاستمرار في العمل بطريقة مشابهة لطرق الالتفاف.
كما هو موضح في مثال "أنصاف الأقمار" سابقًا هذه المقالة، فإن الطرق البسيطة (مثل طريقة " أقرب جيران" k- أقرب جيران) قد لا تعطي تنبؤات كافية. حققت خوارزميات التجميع الأكثر دقة، مثل DBSCAN (الذي ينفذ افتراض الكثافة المنخفضة)،6 موثوقية أكبر.
يسمح التدريب المسبق غير الخاضع للإشراف (أو الخاضع للإشراف الذاتي) للنماذج بتعلم تمثيلات مفيدة لمساحة الإدخال، ما يقلل من كمية البيانات المصنفة اللازمة للضبط الدقيق للنموذج باستخدام التعلم الخاضع للإشراف.
يتمثل أحد الأساليب الشائعة في استخدام الشبكة العصبية، غالبًا ما تكون الشبكة العصبية، لتعلم تمثيل ميزة أو تمثيل للمدخلات - ثم استخدام هذه الميزات المكتسبة للتدريب على متعلم أساسي خاضع للإشراف. وغالبًا ما يستلزم ذلك تقليل الأبعاد، مما يساعد على الاستفادة من الافتراضات المتشعبة.
تقوم بعض طرق التعلم شبه الخاضع للإشراف بإدخال البيانات غير المصنفة مباشرةً في دالة الهدف للمتعلم الأساسي، بدلاً من معالجة البيانات غير المصنفة في خطوة تصنيف زائفة منفصلة أو خطوة معالجة مسبقة.
عندما لا تكون نقاط البيانات من فئات مختلفة قابلة للفصل خطيًا — في حالة عدم وجود خط مستقيم يمكنه تحديد الحدود بين الفئات بدقة، —تقوم خوارزميات آلات متجهات الدعم (SVMs) بتعيين البيانات إلى مساحة ميزة ذات أبعاد أعلى يمكن من خلالها فصل الفئات عن طريق المخطط الفائق. عند تحديد حد القرار هذا، تعمل خوارزميات آلات متجهات الدعم (SVMs) على زيادة الهامش بين حد القرار ونقاط البيانات الأقرب إليه. وهذا، في الممارسة العملية، ينطبق على افتراض الكثافة المنخفضة.
في بيئة خاضعة للإشراف، يعاقب مصطلح التنظيم الخوارزمية عندما تقع نقاط البيانات المصنفة في الجانب الخطأ من حدود القرار. في آلات متجهات الدعم شبه الخاضعة للإشراف (S3VMs)، لا يكون ذلك ممكنًا لنقاط البيانات غير المصنفة (التي يكون تصنيفها غير معروف)، وبالتالي فإن آلات متجهات الدعم شبه الخاضعة للإشراف (S3VMs) تعاقب أيضًا نقاط البيانات التي تقع ضمن الهامش المحدد.
تم تكييف مجموعة متنوعة من بنى الشبكات العصبية للتعلم شبه الخاضع للإشراف. يتم تحقيق ذلك من خلال إضافة أو تعديل شروط الخسارة المستخدمة عادةً في هذه البنى، مما يسمح بدمج نقاط البيانات غير المُسمّاة في التدريب.
تتضمن بنيات التعلم العميق شبه الخاضع للإشراف شبكات السلم7 ومجموعات زائفة8 والمجموعات الزمنية9 تعديلات محددة على الشبكات التنافسية التوليدية (GANs).10
1 "تقييم واقعي لخوارزميات التعلم العميق شبه الخاضع للإشراف"(الرابط موجود خارج ®ibm.com)، arXiv، 17 يونيو 2019
2 " استبيان حول التعلم شبه الخاضع للإشراف " (الرابط موجود خارج ®ibm.com)، سبرينغر، 15 نوفمبر 2019
3 "التعلم النشط التحويلي - نهج تعليمي جديد شبه خاضع للإشراف يعتمد على نماذج توليدية منقحة بشكل متكرر لالتقاط البنية في البيانات" (يوجد الرابط خارج ibm.com)، علوم المعلومات (المجلد 293)، 18 سبتمبر 2014
4 " التقسيم الدلالي مع التعلم النشط شبه الخاضع للإشراف " (الرابط موجود خارج ibm.com)، arXiv، 16 أكتوبر 2022
5 " التعلم شبه الخاضع للإشراف عن طريق تقليل الانتروبيا " (الرابط موجود خارج ibm.com)، التقدم في أنظمة معالجة المعلومات العصبية 17، 2004
6 " التجميع شبه الخاضع للإشراف القائم على الكثافة " (الرابط موجود خارج ibm.com)، التنقيب عن البيانات واكتشاف المعرفة، نوفمبر 2010
7 " التعلم شبه الخاضع للإشراف باستخدام شبكات السلم " (الرابط موجود خارج ®ibm.com)، arXiv، 24 نوفمبر 2015
8 " التعلم باستخدام المجموعات الزائفة " (الرابط موجود خارج ®ibm.com)، arXiv، 16 ديسمبر 2014
9 " التجميع الزمني للتعلم شبه الخاضع للإشراف " (الرابط موجود خارج ®ibm، com)، arXiv، 15 مارس 2017
10 " تقنيات محسنة لتدريب شبكات GAN " (الرابط موجود خارج ®ibm.com)، arXiv، 10 يونيو 2016