اكتشاف الحالات الشاذة في التعلم الآلي: العثور على القيم المتطرفة لتحسين وظائف الأعمال

19 ديسمبر 2023

قراءة لمدة 5 دقائق

نظرًا لأن المؤسسات تجمع مجموعات بيانات أكبر مع معارف محتملة حول نشاط الأعمال، فإن اكتشاف البيانات الشاذة، أو القيم المتطرفة في مجموعات البيانات هذه، أمر ضروري في اكتشاف أوجه القصور أو الأحداث النادرة أو السبب الجذري للمشكلات أو فرص التحسينات التشغيلية. لكن ما المقصود بالحالات الشاذة ولماذا اكتشافها أمر مهم؟

تختلف أنواع حالات الشاذة حسب المؤسسة ووظيفة الأعمال. يعني اكتشاف الحالة الشاذة ببساطة تحديد الأنماط والمقاييس "العادية" - استنادًا إلى وظائف العمل والأهداف - وتحديد نقاط البيانات التي تقع خارج السلوك الطبيعي للعملية. على سبيل المثال، قد يشير ارتفاع زيارات الموقع الإلكتروني أو تطبيق عن المتوسط لفترة معينة إلى وجود تهديد للأمن الإلكتروني، وفي هذه الحالة قد ترغب في الحصول على نظام يمكنه تشغيل تنبيهات اكتشاف الاحتيال تلقائيًا. يمكن أن يكون أيضًا مجرد علامة على نجاح مبادرة تسويقية معينة. ليس بالضرورة أن تكون الحالات الشاذة شيئًا سيئًا، لكن الوعي بها وتوفر البيانات لوضعها جزء لا يتجزأ من فهم عملك وحمايته حماية..

يتمثل التحدي الذي يواجه أقسام تقنية المعلومات العاملة في علوم البيانات في فهم نقاط البيانات الآخذة في التوسع والتغيير باستمرار. في هذه المدونة، سنستعرض كيفية الاستفادة من تقنيات التعلم الآلي، المدعومة بالذكاء الاصطناعي، للكشف عن السلوك الشاذ من خلال ثلاث طرق مختلفة للكشف عن الحالات الشاذة: اكتشاف الحالات الشاذة الخاضع للإشراف، واكتشاف الحالات الشاذة غير الخاضع للإشراف، واكتشاف الحالات الشاذة شبه الخاضع للإشراف.

التعلم تحت الإشراف

تستخدم تقنيات التعلم الخاضعة للإشراف بيانات الإدخال والإخراج في العالم الحقيقي للكشف عن الحالات الشاذة. تتطلب هذه الأنواع من أنظمة الكشف عن الحالات الشاذة من محلل البيانات تسمية نقاط البيانات على أنها طبيعية أو غير طبيعية لاستخدامها كبيانات تدريب. سيتمكن نموذج التعلم الآلي المُدرّب على البيانات المصنفة من اكتشاف القيم المتطرفة بناءً على الأمثلة المقدمة. يُعد هذا النوع من التعلم الآلي مفيد في الكشف عن القيم المتطرفة المعروفة ولكنه غير قادر على اكتشاف الحالات الشاذة غير المعروفة أو التنبؤ بالمشكلات المستقبلية.

تتضمن خوارزميات التعلم الآلي الشائعة للتعلم الخاضع للإشراف ما يلي:

  • خوارزميّة الجوار الأقرب (KNN) : هذه الخوارزمية عبارة عن مصنف قائم على الكثافة أو أداة نمذجة الانحدار تستخدم للكشف عن الحالات الشاذة. تُعد نمذجة الانحدار أداة إحصائية تستخدم لإيجاد العلاقة بين البيانات المصنفة والبيانات المتغيرة. فهي تعمل بناءً على الافتراض أن نقاط البيانات المشابهة ستتواجد بالقرب من بعضها. إذا ظهرت نقطة بيانات بعيدة عن قسم كثيف من النقاط، فإنها تعتبر حالة شاذة.
  • العامل المحلي للقيمة الخارجية (LOF): يشبه العامل المحلي للقيمة الخارجية خوارزمية KNN من حيث خوارزمية تعتمد على الكثافة. الفرق الرئيسي هو أنه تضع KNN افتراضات تستند إلى نقاط البيانات الأقرب إلى بعضها، بينما يستخدم العامل المحلي للقيمة الخارجية النقاط الأبعد عن بعضها لاستخلاص استنتاجاتها.

تعليم دون إشراف

لا تتطلب تقنيات التعلم غير الخاضعة للإشراف بيانات مصنفة ويمكنها التعامل مع مجموعات بيانات أكثر تعقيدًا. يستند التعلم غير الخاضع للإشراف إلى التعلم العميق والشبكات العصبية أو المشفرات الذاتية التي تحاكي طريقة تبادل الإشارات بين الخلايا العصبية البيولوجية. يمكن لهذه الأدوات القوية العثور على أنماط من بيانات الإدخال ووضع افتراضات حول البيانات التي يفترض أنها طبيعية.

يمكن أن تسهم هذه التقنيات بشكل كبير في اكتشاف الحالات الشاذة غير المعروفة وتقليل الحاجة إلى فحص مجموعات البيانات الكبيرة يدويًا. ومع ذلك، يجب على علماء البيانات مراقبة النتائج التي تم جمعها من خلال التعلم غير الخاضع للإشراف. نظرًا لأن هذه التقنيات تضع افتراضات حول البيانات المدخلة، فمن الممكن أن تصنف الحالات الشاذة بشكل غير دقيق.

تتضمن خوارزميات التعلم الآلي للبيانات غير المنظمة ما يلي:

K-means: هذه الخوارزمية هي تقنية لعرض مصور للبيانات تعالج نقاط البيانات من خلال معادلة رياضية بهدف تجميع نقاط البيانات المتشابهة. تشير "Means" أو متوسط البيانات إلى النقاط الموجودة في وسط العنقود التي ترتبط بها جميع البيانات الأخرى. من خلال تحليل البيانات، يمكن استخدام هذه المجموعات العنقودية للعثور على الأنماط وإجراء استنتاجات حول البيانات التي يتبين أنها خارجة عن المألوف. 

غابة العزل: يستخدم هذا النوع من خوارزمية اكتشاف الحالات الشاذة بيانات غير خاضعة للإشراف. على عكس تقنيات الكشف عن الحالات الشاذة الخاضعة للإشراف، التي تعتمد على نقاط بيانات طبيعية معنونة، تحاول هذه التقنية عزل الحالات الشاذة كخطوة أولى. على غرار "الغابة العشوائية "، فإنه ينشئ "مخططات تسلل القرار"، والتي ترسم نقاط البيانات وتختار منطقة عشوائية لتحليلها. تُكرر هذه العملية، وتُمنح كل نقطة درجة عن الحالة تتراوح بين 0 و1، بناءً على موقعها مقارنة بالنقاط الأخرى. تُعد القيم التي تقل عن 0.5 طبيعية بشكل عام، بينما القيم التي تتجاوز هذا الحد يُحتمل أن تكون حالة شاذة. يمكن العثور على نماذج غابة العزل في مكتبة التعلم الآلي المجانية للغة Python، scikit-learn (محتوى الرابط موجود خارج موقع ibm.com).

آلة المتجهات الداعمة من فئة واحدة (SVM): تستخدم هذه التقنية للكشف عن الحالات الشاذة بيانات التدريب لوضع حدود حول ما يعتبر طبيعيًا. تُعد النقاط المجمعة داخل الحدود المحددة طبيعية وتُصنّف تلك الموجودة في الخارج على أنها حالات شاذة.

التعلم شبه الخاضع للإشراف

تجمع طرق الكشف عن الحالات الشاذة شبه الخاضعة للإشراف بين مزايا الطريقتين السابقتين. يمكن للمهندسين تطبيق أساليب التعلم غير الخاضعة للإشراف لأتمتة تعلم الميزات والعمل مع البيانات غير المنظمة. ومع ذلك، من خلال دمجه مع الإشراف البشري، يمكنهم مراقبة الأنماط التي يتعلمها النموذج والتحكم في نوعها. عادة ما يساعد ذلك في تحسين دقة تنبؤات النموذج.

الانحدار الخطي: أداة التعلم الآلي التنبؤية هذه تستخدم كلًا من المتغيرات التابعة والمتغيرات المستقلة. حيث يُستخدم المتغير المستقل كقاعدة لتحديد قيمة المتغير التابع من خلال سلسلة من المعادلات الإحصائية. وهذه المعادلات تستخدم بيانات مصنفة وغير مصنفة للتنبؤ بالنتائج المستقبلية عندما لا تُتاح معرفة بعض المعلومات فقط وليس كل المعلومات.

حالات استخدام الكشف عن الحالات الشاذة

يعد اكتشاف الحالات الشاذة أداة مهمة للحفاظ على وظائف الأعمال عبر مختلف الصناعات. سيعتمد استخدام خوارزميات التعلم الخاضعة للإشراف وغير الخاضعة للإشراف وشبه الخاضعة للإشراف على نوع البيانات التي يتم جمعها والتحدي التشغيلي المراد حله. تتضمن أمثلة حالات استخدام اكتشاف الحالات الشاذة ما يلي:

حالات استخدام التعلم الخاضعة للإشراف:

التجزئة

 

يمكن أن يساعد استخدام البيانات المصنفة من إجمالي مبيعات العام السابق في التنبؤ بأهداف المبيعات المستقبلية. يمكن أن يساعد أيضًا في وضع معايير لموظفي مبيعات محددين بناءً على أدائهم السابق واحتياجات الشركة الإجمالية. نظرًا لأن جميع بيانات المبيعات معروفة، يمكن تحليل الأنماط للحصول على معارف حول المنتجات والتسويق والموسمية.

التنبؤ بالطقس

 

باستخدام البيانات التاريخية، يمكن أن تساعد خوارزميات التعلم الخاضعة للإشراف في التنبؤ بأنماط الطقس. يمكّن تحليل البيانات الحديثة المتعلقة بالضغط الجوي ودرجة الحرارة وسرعات الرياح علماء الأرصاد الجوية من تقديم توقعات أكثر دقة تأخذ في عين الاعتبار التغيرات المستمرة في الظروف.

حالات استخدام التعلم غير الخاضع للإشراف:

نظام كشف التسلل

 

تأتي هذه الأنواع من الأنظمة في شكل برامج أو أجهزة تراقب حركة مرور الشبكة بحثًا عن علامات انتهاكات أمنية أو الأنشطة الضارة. يمكن تدريب خوارزميات التعلم الآلي على اكتشاف الهجمات المحتملة على الشبكة في الوقت الفعلي، مما يحمي معلومات المستخدم ووظائف النظام.

يمكن لهذه الخوارزميات إنشاء تصور للأداء العادي استنادًا إلى بيانات السلاسل الزمنية، والتي تحلل نقاط البيانات على فترات زمنية محددة لفترة طويلة من الوقت. يمكن الإشارة إلى الارتفاعات في حركة الشبكة أو الأنماط غير المعتادة وفحصها كاختراقات أمنية محتملة.

التصنيع

 

يعد التأكد من أن الآلات تعمل بشكل صحيح أمرًا مهمًا لتصنيع المنتجات وتحسين ضمان الجودة والحفاظ على سلاسل التوريد. يمكن استخدام خوارزميات التعلم غير الخاضعة للإشراف للصيانة التنبؤية من خلال أخذ بيانات غير مصنفة من أجهزة الاستشعار المتصلة بالمعدات وإجراء تنبؤات حول الأعطال أو المشكلات المحتملة. يتيح ذلك للشركات إجراء الإصلاحات قبل حدوث الأعطال الكبيرة، مما يقلل من فترة تعطل الآلات.

حالات استخدام التعلم شبه الخاضع للإشراف:

المجال الطبي

 

باستخدام خوارزميات التعلم الآلي، يمكن للمهنيين الطبيين تسمية الصور التي تحتوي على أمراض أو اضطرابات معروفة. ومع ذلك، نظرًا لأن الصور ستختلف من شخص لآخر، فمن المستحيل تسمية جميع الأسباب المحتملة التي تستدعي القلق. بمجرد تدريبها، يمكن لهذه الخوارزميات معالجة معلومات المرضى وإجراء استدلالات على الصور غير المصنفة، وتحديد الأسباب المحتملة التي تستدعي القلق.

الكشف عن الغش

 

يمكن للخوارزميات التنبؤية استخدام التعلم شبه الخاضع للإشراف الذي يتطلب بيانات مصنفة وغير مصنفة لاكتشاف الاحتيال. نظرا لأنه يتم تصنيف نشاط بطاقة ائتمان المستخدم، يمكن استخدامه لاكتشاف أنماط الإنفاق غير العادية.

ومع ذلك، لا تعتمد حلول اكتشاف الاحتيال فقط على المعاملات التي تم تصنيفها سابقًا على أنها احتيال. يمكنهم أيضًا وضع افتراضات بناءً على سلوك المستخدم، بما في ذلك الموقع الحالي وجهاز تسجيل الدخول والعوامل الأخرى التي تتطلب بيانات غير مصنفة.

قابلية الملاحظة في اكتشاف حالات الخلل

يتم دعم الكشف عن الحالات الشاذة بواسطة حلول وأدوات توفر رؤية متعمقة في بيانات الأداء. تُمكن هذه الأدوات من التعرف على الحالات الشاذة بسرعة، مما يساعد في منع وقوع المشكلات ومعالجتها. تستفيد IBM® Instana™ Observability من الذكاء الاصطناعي والتعلم الآلي لمنح جميع أعضاء الفريق صورة مفصلة وسياقية لبيانات الأداء، مما يساعد على التنبؤ بدقة واستكشاف الأخطاء وإصلاحها بشكل استباقي.

™IBM watsonx.ai يقدم أداة قوية للذكاء الاصطناعي التوليدي يمكنها تحليل مجموعات بيانات كبيرة لاستخلاص معارف ذات مغزى. من خلال التحليل السريع والشامل، يمكن لـ IBM watson.ai تحديد الأنماط والاتجاهات التي يمكن استخدامها للكشف عن الحالات الشاذة الحالية وإجراء تنبؤات حول القيم المتطرفة المستقبلية. يمكن استخدام Watson.ai عبر الصناعات لتلبية احتياجات الأعمال المتنوعة.

 

مؤلف

Camilo Quiroz-Vázquez

IBM Staff Writer