يستخدم التعلم غير الخاضع للإشراف، والمعروف أيضًا باسم التعلم الآلي غير الخاضع للإشراف، خوارزميات التعلم الآلي (ML) لتحليل وتجميع مجموعات البيانات غير المصنفة. تكتشف هذه الخوارزميات أنماطًا مخفية أو مجموعات بيانات دون الحاجة إلى تدخل بشري.
إن قدرة التعلم غير الخاضع للإشراف على اكتشاف أوجه التشابه والاختلاف في المعلومات تجعله الحل الأمثل لتحليل البيانات الاستكشافية واستراتيجيات البيع المتبادل وتقسيم العملاء والتعرف على الصور.
تُستخدم نماذج التعلم غير الخاضع للإشراف في ثلاث مهام رئيسية—التجميع، والترابط، وتقليل الأبعاد. أدناه سنحدد كل طريقة تعلم ونسلط الضوء على الخوارزميات والأساليب الشائعة لإجرائها بفعالية.
التجميع هو أسلوب للتنقيب عن البيانات يقوم بتجميع البيانات غير المصنفة بناءً على أوجه التشابه أو الاختلافات بينها. تُستخدم خوارزميات التجميع لمعالجة كائنات البيانات الخام غير المصنفة إلى مجموعات ممثلة ببنى أو أنماط في المعلومات. تقسم خوارزميات التجميع إلى عدة أنواع، تحديداً إلى حصرية، ومتداخلة، وهرمية، واحتمالية.
التجميع الحصري هو شكل من أشكال التجميع الذي ينص على أن نقطة البيانات يمكن أن توجد في مجموعة واحدة فقط. ويمكن أيضًا الإشارة إلى ذلك بالتجميع "الثابت". يعد تجميع بالمتوسطات (K-means) مثالًا شائعًا على طريقة التجميع الحصري حيث يتم تعيين نقاط البيانات في مجموعات K، حيث يمثل K عدد المجموعات بناء على المسافة من النقطة الوسطى لكل مجموعة. نقاط البيانات الأقرب إلى نقطة مركزية معينة سيتم تجميعها ضمن نفس الفئة. كِبَر قيمة K يشير إلى مجموعات أصغر ذات تفاصيل أدق، بينما تشير قيمة K الأصغر إلى مجموعات أكبر وذات تفاصيل أقل. تُستخدم تقنية التجميع K-means بشكل شائع في تقسيم السوق، وتجميع المستندات، وتقسيم الصور، وضغط الصور.
تختلف المجموعات المتداخلة عن التجميع الحصري في أنها تسمح لنقاط البيانات بالانتماء إلى مجموعات متعددة بدرجات عضوية منفصلة. يعتبر التجميع بالمتوسطات "الناعم أو الضبابي مثالاً على التجميع المتداخل.
التجميع الهرمي، والمعروف أيضًا بتحليل التجميع الهرمي (HCA)، هو خوارزمية تجميع غير خاضعة للإشراف يمكن تصنيفها بطريقتين: تجميعية أو تقسيمية.
يُعد التجميع التجميعي "نهجًا تصاعديًا". نقاط بياناته معزولة في البداية كمجموعات منفصلة، ثم يتم دمجها تكراريًا على أساس التشابه حتى يتم تحقيق عنقود واحد. تُستخدم أربع طرق مختلفة بشكل شائع لقياس التشابه:
المسافة الإقليدية هي المقياس الأكثر شيوعًا المستخدم لحساب هذه المسافات؛ ومع ذلك، هناك مقاييس أخرى، مثل مسافة مانهاتن، المذكورة أيضًا في أدبيات التجميع.
يمكن تعريف التجميع التقسيمي على أنه عكس التجميع التجميعي؛ وبدلاً من ذلك فإنه يتبع نهجًا "تنازليًا". في هذه الحالة، يتم تقسيم مجموعة بيانات واحدة استنادًا إلى الاختلافات بين نقاط البيانات. لا يُستخدم التجميع التقسيمي بشكل شائع، لكنه لا يزال جديراً بالملاحظة في سياق التجميع الهرمي. وعادةً ما يتم تصوير عمليات التجميع هذه باستخدام مخطط شجري، وهو رسم بياني شبيه بالشجرة يوثق دمج أو تقسيم نقاط البيانات في كل تكرار.
النموذج الاحتمالي هو تقنية غير خاضعة للإشراف تساعدنا في حل مشاكل تقدير الكثافة أو مشاكل التجميع "الناعمة". في التجميع الاحتمالي، يتم تجميع نقاط البيانات بناءً على احتمال انتمائها إلى توزيع معين. نموذج المزيج الغاوسي (GMM) هو أحد طرق التجميع الاحتمالي الأكثر استخدامًا.
قاعدة الارتباط هي طريقة تعتمد على القواعد للعثور على العلاقات بين المتغيرات في مجموعة بيانات معينة. تُستخدم هذه الأساليب بشكل متكرر لتحليل سلة السوق، مما يسمح للشركات بفهم العلاقات بين المنتجات المختلفة بشكل أفضل. إن فهم عادات الاستهلاك لدى العملاء يمكّن الشركات من تطوير استراتيجيات البيع المتبادل ومحركات التوصية بشكل أفضل. أمثلة على ذلك يمكن رؤيتها في "العملاء الذين اشتروا هذا المنتج اشتروا أيضًا" من Amazon أو قائمة تشغيل Spotify "اكتشف هذا الأسبوع". في حين أن هناك بعض الخوارزميات المختلفة المستخدمة لإنشاء قواعد الارتباط، مثل Apriori و Eclat و FP-Growth، فإن خوارزمية Apriori هي الأكثر استخدامًا.
لقد تم تعميم خوارزميات Apriori من خلال تحليلات سلة السوق، مما أدى إلى ظهور محركات توصية مختلفة لمنصات الموسيقى وتجار التجزئة عبر الإنترنت. وتُستخدم ضمن مجموعات بيانات المعاملات لتحديد مجموعات العناصر المتكررة، أو تشكيلات العناصر، لتحديد احتمالية استهلاك منتج ما نظرًا لاستهلاك منتج آخر. على سبيل المثال ، إذا قمت بتشغيل راديو Black Sabbath على Spotify ، بدءًا من أغنيتهم "Orchid"، فمن المحتمل أن تكون إحدى الأغاني الأخرى على هذه القناة أغنية Led Zeppelin ، مثل "Over the Hills and Far Away". هذا يعتمد على عادات الاستماع السابقة لي وللآخرين. تستخدم خوارزميات Apriori شجرة تجزئة لإحصاء مجموعات العناصر، وتتنقل عبر مجموعة البيانات بطريقة البحث العرضي.
بينما تؤدي زيادة البيانات بشكل عام إلى نتائج أكثر دقة، إلا أنها يمكن أن تؤثر أيضًا على أداء خوارزميات التعلم الآلي (على سبيل المثال، التجهيز الزائد) ويمكن أن تجعل تصور مجموعات البيانات صعبًا أيضًا. تقليل الأبعاد هي تقنية تُستخدم عندما يكون عدد السمات أو الأبعاد في مجموعة بيانات معينة مرتفعًا للغاية. يقلل عدد مدخلات البيانات إلى حجم يمكن التحكم فيه مع الحفاظ على سلامة مجموعة البيانات قدر الإمكان. يتم استخدامه بشكل شائع في مرحلة المعالجة المسبقة للبيانات، وهناك بعض طرق تقليل الأبعاد المختلفة التي يمكن استخدامها، مثل:
تحليل المكوّنات الرئيسية (PCA) هو نوع من خوارزمية تقليل الأبعاد التي تُستخدم لتقليل التكرار وضغط مجموعات البيانات من خلال استخراج السمات. تستخدم هذه الطريقة التحول الخطي لإنشاء تمثيل جديد للبيانات، مما ينتج عنه مجموعة من "العناصر الرئيسية." المكون الرئيسي الأول هو الاتجاه الذي يزيد من تباين مجموعة البيانات. بينما يجد المكون الرئيسي الثاني أيضًا أقصى تباين في البيانات، فإنه غير مرتبط تمامًا بالمكون الرئيسي الأول، مما ينتج عنه اتجاه عمودي، أو متعامد، على المكون الأول. تتكرر هذه العملية بناءً على عدد الأبعاد، حيث يكون المكون الرئيسي التالي هو الاتجاه المتعامد مع المكونات السابقة ذات التباين الأكبر.
تحليل القيمة المفردة (SVD) هو أسلوب آخر لتقليل الأبعاد يقوم بتحليل مصفوفة، A، إلى ثلاث مصفوفات منخفضة الرتبة. يُرمز إلى SVD بالصيغة A = USVT، حيث U و V مصفوفتان متعامدتان. S هي مصفوفة قطرية، وتعتبر قيم S قيمًا فردية للمصفوفة A. على غرار تحليل المكونات الرئيسية (PCA)، تُستخدم عادةً لتقليل الضوضاء وضغط البيانات، مثل ملفات الصور.
تستفيد برامج التشفير التلقائي من الشبكات العصبية لضغط البيانات ثم إعادة إنشاء تمثيل جديد لإدخال البيانات الأصلية. بالنظر إلى الصورة أدناه، يمكنك أن ترى أن الطبقة المخفية تعمل بشكل خاص كعنق الزجاجة لضغط طبقة الإدخال قبل إعادة البناء داخل طبقة الإخراج. ويُشار إلى المرحلة من طبقة الإدخال إلى الطبقة المخفية باسم "التشفير" بينما تُعرف المرحلة من الطبقة المخفية إلى طبقة الإخراج باسم "فك التشفير."
أصبحت تقنيات التعلم الآلي طريقة شائعة لتحسين تجربة مستخدم المنتج واختبار أنظمة ضمان الجودة. يوفر التعلم غير الخاضع للإشراف مسارًا استكشافيًا لعرض البيانات، مما يسمح للشركات بتحديد الأنماط في كميات كبيرة من البيانات بسرعة أكبر عند مقارنتها بالملاحظة اليدوية. بعضٌ من أكثر التطبيقات الواقعية شيوعًا للتعلم غير الخاضع للإشراف هي:
غالبًا ما تتم مناقشة التعلم غير الخاضع للإشراف والتعلم الخاضع للإشراف معًا. على عكس خوارزميات التعلم غير الخاضع للإشراف، تستخدم خوارزميات التعلم الخاضع للإشراف بيانات مصنفة. من تلك البيانات، إما أن تتنبأ بالنتائج المستقبلية أو تعيّن البيانات إلى فئات محددة بناءً على مشكلة الانحدار أو التصنيف التي تحاول حلها.
في حين أن خوارزميات التعلم الخاضع للإشراف تميل إلى أن تكون أكثر دقة من نماذج التعلم غير الخاضع للإشراف، إلا أنها تتطلب تدخلًا بشريًا مسبقًا لتصنيف البيانات بشكل مناسب. ومع ذلك، تسمح مجموعات البيانات المصنفة هذه لخوارزميات التعلّم الخاضع للإشراف بتجنب التعقيد الحسابي لأنها لا تحتاج إلى مجموعة تدريب كبيرة لإنتاج النتائج المرجوة. أساليب الانحدار والتصنيف الشائعة هي الانحدار الخطي واللوجستي، وطريقة نايف بايز (naïve bayes)، وخوارزمية KNN، والغابات العشوائية.
يحدث التعلم شبه الخاضع للإشراف عندما يتم تصنيف جزء فقط من بيانات الإدخال المعطاة. يمكن أن يكون التعلم غير الخاضع للإشراف وشبه الخاضع للإشراف بديلين أكثر جاذبية، حيث أن الاعتماد على خبراء المجال لتصنيف البيانات بشكل مناسب للتعلم الخاضع للإشراف يمكن أن يستغرق وقتًا طويلاً ومكلفًا.
للاطلاع على تحليل معمق للفروق بين هذه الأساليب، راجع "التعلم الخاضع للإشراف مقابل التعلم غير الخاضع للإشراف: ما الفرق بينهما؟"
على الرغم من أن التعلّم غير الخاضع للإشراف له العديد من الفوائد، إلا أنه يمكن أن تحدث بعض التحديات عندما يسمح لنماذج التعلم الآلي بالتنفيذ دون أي تدخل بشري. يمكن أن تشمل بعض هذه التحديات ما يلي: