لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكنها التعامل مع مجموعات بيانات أكثر تعقيدًا. يستند التعلم غير الخاضع للإشراف إلى التعلم العميق والشبكات العصبية أو المشفرات الذاتية التي تحاكي طريقة تبادل الإشارات بين الخلايا العصبية البيولوجية. يمكن لهذه الأدوات القوية العثور على أنماط من بيانات الإدخال ووضع افتراضات حول البيانات التي يفترض أنها طبيعية.
يمكن أن تسهم هذه التقنيات بشكل كبير في اكتشاف الحالات الشاذة غير المعروفة وتقليل الحاجة إلى فحص مجموعات البيانات الكبيرة يدويًا. ومع ذلك، يجب على علماء البيانات مراقبة النتائج التي تم جمعها من خلال التعلم غير الخاضع للإشراف. نظرًا لأن هذه التقنيات تضع افتراضات حول البيانات المدخلة، فمن الممكن أن تصنف الحالات الشاذة بشكل غير دقيق.
تتضمن خوارزميات التعلم الآلي للبيانات غير المنظمة ما يلي:
K-means: هذه الخوارزمية هي تقنية لعرض مصور للبيانات تعالج نقاط البيانات من خلال معادلة رياضية بهدف تجميع نقاط البيانات المتشابهة. تشير "Means" أو متوسط البيانات إلى النقاط الموجودة في وسط العنقود التي ترتبط بها جميع البيانات الأخرى. من خلال تحليل البيانات، يمكن استخدام هذه المجموعات العنقودية للعثور على الأنماط وإجراء استنتاجات حول البيانات التي يتبين أنها خارجة عن المألوف.
غابة العزل: يستخدم هذا النوع من خوارزمية اكتشاف الحالات الشاذة بيانات غير خاضعة للإشراف. على عكس تقنيات الكشف عن الحالات الشاذة الخاضعة للإشراف، التي تعتمد على نقاط بيانات طبيعية معنونة، تحاول هذه التقنية عزل الحالات الشاذة كخطوة أولى. على غرار "الغابة العشوائية "، فإنه يُنشئ "مخططات صنع القرار"، والتي ترسم نقاط البيانات وتختار منطقة عشوائية لتحليلها. تُكرر هذه العملية، وتُمنح كل نقطة درجة عن الحالة تتراوح بين 0 و1، بناءً على موقعها مقارنة بالنقاط الأخرى. تُعَد القيم التي تقل عن 0.5 طبيعية بشكل عام، بينما القيم التي تتجاوز هذا الحد يُحتمل أن تكون حالة شاذة. يمكن العثور على نماذج غابة العزلة في مكتبة التعلم الآلي المجانية لـ Python، scikit-learn.
آلة المتجهات الداعمة من فئة واحدة (SVM): تستخدم هذه التقنية للكشف عن الحالات الشاذة بيانات التدريب لوضع حدود حول ما يعتبر طبيعيًا. تُعد النقاط المجمعة داخل الحدود المحددة طبيعية وتُصنّف تلك الموجودة في الخارج على أنها حالات شاذة.