ما هو كشف الشذوذ؟

سيدة أعمال تعمل على جهاز لوحي في المكتب

ما هو كشف الشذوذ؟

كشف الشذوذ، أو كشف القيمة الخارجية، هو تحديد الملاحظات أو الأحداث أو نقاط البيانات التي تختلف عما هو معتاد أو قياسي أو متوقع، مما يجعلها غير متسقة مع بقية مجموعة البيانات.

لكشف الشذوذ تاريخ طويل في مجال الإحصاء، حيث كان المحللون والعلماء يدرسون الرسوم البيانية بحثًا عن أي عناصر تبدو غير طبيعية. اليوم، يستفيد كشف الشذوذ من الذكاء الاصطناعي (AI) وتعلم الآلة (ML) لتحديد التغيرات غير المتوقعة في السلوك الطبيعي لمجموعة البيانات تلقائياً.

يمكن أن تشير البيانات الشاذة إلى وقوع حوادث حساسة في الداخل، مثل فشل في البنية التحتية، أو تغيير مفاجئ من مصدر في مرحلة الإنتاج أو تهديدات أمنية. يمكن أن تسلط الحالات الشاذة الضوء أيضًا على فرص التحسين المعماري أو تحسين استراتيجيات التسويق.

يحتوي كشف الشذوذ على مجموعة من حالات الاستخدام عبر مختلف الصناعات. على سبيل المثال، يستخدم في الشؤون المالية للكشف عن الغش، وفي التصنيع لتحديد العيوب أو أعطال المعدات، وفي الأمن السيبراني لكشف النشاط غير العادي في الشبكة، وفي الرعاية الصحية لتحديد الحالات الصحية غير الطبيعية للمرضى.

يمكن أن يكون كشف القيمة الخارجية أمرًا صعبًا لأن القيمة الخارجية غالبًا ما تكون نادرة، ويمكن أن تكون خصائص السلوك الطبيعي معقدة وديناميكية. من منظور الأعمال، يُعد تحديد الحالات الشاذة الفعلية بدلاً من الإيجابيات الزائفة أو تشويش البيانات أمرًا ضروريًا.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

لماذا يعتبر كشف الشذوذ مهما؟

يمكن أن يكون للشذوذ في البيانات تأثير كبير في مجال علم البيانات، مما يؤدي إلى استنتاجات غير صحيحة أو مضللة. على سبيل المثال، يمكن أن يؤدي وجود قيمة خارجية واحدة إلى تحريف متوسط مجموعة البيانات بشكل كبير، مما يجعلها تمثيلاً غير دقيق للبيانات. بالإضافة إلى ذلك، يمكن أن تؤثر الحالات الشاذة للبيانات على أداء خوارزميات التعلم الآلي، لأنها قد تجعل النموذج يتناسب مع الضوضاء بدلاً من النمط الأساسي في البيانات.

يعد تحديد الحالات الشاذة في البيانات والتعامل معها أمرًا بالغ الأهمية لعدة أسباب:

تحسين جودة البيانات: يمكن أن يحسن تحديد ومعالجة الحالات الشاذة في البيانات جودة البيانات بشكل كبير، وهو أمر ضروري لتحليل البيانات بدقة وموثوقية. من خلال معالجة شذوذ البيانات، يمكن للمحللين تقليل الضوضاء والأخطاء في مجموعة البيانات، مما يضمن أن تكون البيانات أكثر تمثيلاً للأنماط الحقيقية الأساسية.

صناعة القرار المُحسّنة: تعتمد صناعة القرار القائمة على البيانات على تحليل البيانات الدقيق والموثوق لتوجيه القرارات. من خلال تحديد حالات شذوذ البيانات والتعامل معها، يمكن للمحللين ضمان أن تكون نتائجهم أكثر موثوقية، مما يؤدي إلى قرارات أكثر وعياً ونتائج أفضل.

تحسين أداء التعلم الآلي: يمكن أن يؤثر شذوذ البيانات بشكل كبير على أداء خوارزميات التعلم الآلي، حيث يمكن أن يجعل النموذج يتناسب مع الضوضاء بدلاً من النمط الأساسي في البيانات. من خلال تحديد حالات شذوذ البيانات والتعامل معها، يمكن للمحللين تحسين أداء نماذج التعلم الآلي الخاصة بهم، لضمان توفير توقعات دقيقة وموثوقة.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع الحالات الشاذة

يمكن لنظام كشف الشذوذ الكشف عن نوعين عامين من الحالات الشاذة: غير المقصودة والمقصودة.

الحالات الشاذة غير المقصودة هي نقاط البيانات التي تنحرف عن القاعدة بسبب أخطاء أو ضوضاء في عملية جمع البيانات. يمكن أن تكون هذه الأخطاء إما منهجية أو عشوائية، ناشئة عن مشاكل مثل أجهزة الاستشعار المعيبة أو الخطأ البشري أثناء إدخال البيانات. يمكن أن تؤدي الحالات الشاذة غير المقصودة إلى تشويه مجموعة البيانات، مما يجعل من الصعب استخلاص رؤى دقيقة.

الحالات الشاذة المقصودة هي نقاط البيانات التي تنحرف عن القاعدة بسبب إجراءات أو أحداث معينة. يمكن أن توفر هذه الحالات الشاذة رؤى قيمة بشأن مجموعة البيانات، لأنها قد تسلط الضوء على أحداث أو اتجاهات فريدة من نوعها. على سبيل المثال، يمكن اعتبار الارتفاع المفاجئ في المبيعات خلال موسم العطلات حدثًا شاذًا مقصودًا، لأنه ينحرف عن نمط المبيعات المعتاد ولكنه متوقع بسبب حدث واقعي.

شذوذ بيانات السلاسل الزمنية

في بيانات الأعمال، توجد ثلاث حالات شاذة رئيسية في بيانات السلاسل الزمنية: الحالات الشاذة النقطية، والحالات الشاذة السياقية والحالات الشاذة الجماعية.

أما الحالات الشاذة النقطية، والمعروفة أيضًا باسم القيم الخارجية العامة، فهي نقاط بيانات فردية موجودة بعيدًا عن بقية مجموعة البيانات. يمكن أن تكون إما مقصودة أو غير مقصودة وقد تنتج عن أخطاء أو ضوضاء أو حوادث فريدة من نوعها. مثال على وجود الحالات الشاذة النقطية هو السحب من الحساب المصرفي الذي يكون أكبر بكثير من أي عملية سحب سابقة للمستخدم.

الحالات الشاذة السياقية هي نقاط بيانات تنحرف عن القاعدة ضمن سياق محدد. هذه الحالات الشاذة ليست بالضرورة قيم خارجية عند النظر إليها بمعزل عن غيرها، ولكنها تصبح شاذة عند النظر إليها في سياقها المحدد.

على سبيل المثال، خذ بعين الاعتبار استهلاك الطاقة في المنزل. إذا كانت هناك زيادة مفاجئة في استهلاك الطاقة في منتصف النهار عندما لا يكون هناك عادةً أي فرد من أفراد الأسرة في المنزل، فإن الشذوذ سيكون سياقيًا. قد لا تكون هذه النقطة من البيانات شاذة عند مقارنتها باستخدام الطاقة في الصباح أو المساء (عندما يكون الناس عادةً في المنزل)، ولكنها شاذة في سياق الوقت الذي تحدث فيه.

تتضمن الحالات الشاذة الجماعية مجموعة من مثيلات البيانات التي تحيد معًا عن القاعدة، على الرغم من أن المثيلات الفردية قد تبدو طبيعية. ومن الأمثلة على هذا النوع من الحالات الشاذة مجموعة بيانات حركة مرور الشبكة التي تُظهر زيادة مفاجئة في حركة المرور من عناوين IP متعددة في نفس الوقت.

طرق كشف الشذوذ

يعد استخدام نظام كشف الشذوذ لاكتشاف حالات الشذوذ في البيانات جانبًا حساسًا في تحليل البيانات، مما يضمن أن تكون النتائج دقيقة وموثوقة. يمكن استخدام طرق مختلفة لكشف الشذوذ في بناء نظام كشف الشذوذ.

وضع تصور

العرض المصور للبيانات هو أداة قوية لاكتشاف شذوذ البيانات، حيث يسمح لعلماء البيانات بتحديد القيم الخارجية والأنماط الشاذة المحتملة في البيانات بسرعة. من خلال رسم البيانات باستخدام المخططات والرسوم البيانية، يمكن للمحللين فحص مجموعة البيانات بصريًا بحثًا عن أي نقاط أو اتجاهات غير عادية للبيانات.

الاختبارات الإحصائية

يمكن لعلماء البيانات استخدام الاختبارات الإحصائية لكشف الشذوذ في البيانات من خلال مقارنة البيانات المرصودة مع التوزيع أو النمط المتوقع.

على سبيل المثال، يمكن استخدام اختبار Grubbs لتحديد القيمة الخارجية في مجموعة البيانات من خلال مقارنة كل نقطة بيانات بالمتوسط والانحراف المعياري للبيانات. وبالمثل، يمكن استخدام اختبار Kolmogorov-Smirnov لتحديد ما إذا كانت مجموعة البيانات تتبع توزيعاً معيناً، مثل التوزيع الطبيعي.

خوارزميات التعلم الآلي

يمكن استخدام خوارزميات التعلم الآلي لكشف الحالات الشاذة في البيانات من خلال تعلم النمط الأساسي في البيانات ثم تحديد أي انحرافات عن ذلك النمط. تتضمن بعض خوارزميات كشف الشذوذ الأكثر شيوعًا في التعلم الآلي (ML) ما يلي:

  • شجرة القرار: أحد أنواع شجرة القرار، وهي غابة العزل، هو طريقة تعلم جماعي تعزل الحالات الشاذة عن طريق اختيار ميزة عشوائياً ثم اختيار قيمة تقسيم عشوائية بين القيم القصوى والدنيا للميزة المختارة.

  • آلة ناقل الدعم من فئة واحدة (SVM): SVM من فئة واحدة هي طريقة خوارزمية للتصنيف تم تدريبها فقط على "الحالات العادية"، بهدف إنشاء حد يشمل البيانات العادية. الحالات التي تقع خارج هذا الحد تعتبر حالات شاذة.

  • k-أقرب الجيران (k-NN): k-NN هي خوارزمية بسيطة تصنف نقطة بيانات بناءً على فئة الأغلبية لأقرب جيرانها k. يمكن اعتبار المثيلات التي تحتوي على عدد أقل بكثير من الجيران من نفس الفئة حالات شاذة.

  • البايزي الساذج: تعمل هذه الطرق من خلال تحديد احتمال وقوع حدث بناء على وجود عوامل مساهمة واكتشاف العلاقات ذات نفس السبب الأساسي.

  • أجهزة التشفير التلقائي: نوع من الشبكات العصبية التي تستخدم البيانات ذات الطابع الزمني للتنبؤ بأنماط البيانات وتحديد الحالات الشاذة التي لا تتماشى مع البيانات التاريخية. 

  • عامل القيمة الخارجية المحلية (LOF): LOF عبارة عن خوارزمية قائمة على الكثافة تقيس انحراف الكثافة المحلية لنقطة بيانات بالنسبة إلى جيرانها. تعتبر النقاط ذات الكثافة المنخفضة بكثير مقارنة بجيرانها كالقيمة الخارجية.

  • تجميع k-means: تُعد k-means تقنية تجميع وتصنيف تقوم بتحليل متوسط المسافة بين نقاط البيانات غير المصنفة ثم تساعد على تجميعها وتصنيفها في مجموعات محددة.

أساليب كشف الشذوذ

يمكن لخوارزمية كشف الشذوذ تعلم كيفية تحديد الأنماط وكشف البيانات الشاذة باستخدام أساليب تدريب مختلفة على التعلم الآلي. تحدد كمية البيانات المصنّفة، إن وجدت، في مجموعة بيانات التدريب الخاصة بفريق البيانات أي من أساليب الكشف عن الحالات الشاذة الرئيسية التي سيستخدمونها - غير خاضعة للإشراف أو خاضعة للإشراف أو شبه خاضعة للإشراف.

كشف الشذوذ غير الخاضع للإشراف

باستخدام أساليب كشف الشذوذ غير الخاضع للإشراف، يقوم مهندسو البيانات بتدريب نموذج من خلال تزويده بمجموعات بيانات غير مصنّفة يستخدمها لاكتشاف الأنماط أو الحالات الشاذة بنفسه. على الرغم من أن هذه الأساليب هي الأكثر استخداماً بسبب التطبيق الأوسع والأكثر ملاءمة، إلا أنها تتطلب مجموعات بيانات ضخمة وقوة حوسبة ضخمة. غالبا ما يوجد التعلم الآلي في سيناريوهات التعلم العميق ، التي تعتمد على الشبكات العصبية الاصطناعية.

الكشف عن الشذوذ الخاضع للإشراف

تستخدم أساليب الكشف عن الشذوذ الخاضع للإشراف خوارزمية يتم تدريبها على مجموعة بيانات مصنفة تتضمن كلاً من الحالات العادية والشاذة. نظرًا لعدم توفر بيانات التدريب المصنفة بشكل عام والطبيعة غير المتوازنة المتأصلة للفئات، نادرًا ما يتم استخدام أساليب كشف الشذوذ هذه. 

كشف الشذوذ شبه الخاضع للإشراف

تعمل الأساليب شبه الخاضعة للإشراف على تعظيم السمات الإيجابية لكل من كشف الشذوذ غير الخاضع للإشراف وكشف الشذوذ الخاضع للإشراف. من خلال توفير خوارزمية مع بعض أجزاء البيانات المصنفة، يمكن تدريبها جزئيًا. ثم يستخدم مهندسو البيانات بعد ذلك الخوارزمية المدرّبة جزئيًا لتصنيف مجموعة بيانات أكبر بشكل مستقل، ويُشار إلى ذلك باسم "التصنيف الزائف". بافتراض أنها موثوقة، يتم دمج هذه النقاط الجديدة مع مجموعة البيانات الأصلية للضبط الدقيق للخوارزمية.

يعد العثور على المزيج الصحيح من التعلم الآلي الخاضع للإشراف وغير الخاضع للإشراف أمرًا حيويًا لأتمتة التعلم الآلي. من الناحية المثالية، ستتم الغالبية العظمى من تصنيفات البيانات دون تدخل بشري بطريقة غير خاضعة للإشراف. ومع ذلك، يجب أن يظل مهندسو البيانات قادرين على تغذية الخوارزميات ببيانات التدريب التي ستساعد في إنشاء خطوط أساس للعمل كالمعتاد. يسمح النهج شبه الخاضع للإشراف بتوسيع نطاق كشف الشذوذ مع المرونة في وضع قواعد يدوية تتعلق بحالات شاذة محددة.

حالات استخدام الكشف عن الحالات الشاذة

الكشف عن الغش

تستخدم نماذج كشف الشذوذ على نطاق واسع في قطاعات البنوك والتأمين وتداول الأسهم لتحديد الأنشطة الاحتيالية في الوقت الفعلي، مثل المعاملات غير المصرح بها، وغسيل الأموال، والاحتيال على بطاقات الائتمان، ومطالبات الإقرارات الضريبية المزيفة، وأنماط التداول غير الطبيعية.

الأمن الإلكتروني

تستخدم أنظمة كشف التسلل (IDSs) وغيرها من تقنيات الأمن السيبراني كشف الشذوذ للمساعدة في تحديد أنشطة المستخدمين غير العادية أو المشبوهة أو أنماط حركة مرور الشبكة، مما يشير إلى وجود تهديدات أمنية محتملة أو هجمات مثل العدوى ببرنامج ضار أو الوصول غير المصرح به.

التصنيع ومراقبة الجودة

غالبًا ما يتم استخدام خوارزميات كشف الشذوذ مع رؤية الكمبيوتر لتحديد العيوب في المنتجات أو التغليف من خلال تحليل لقطات الكاميرا عالية الدقة وبيانات المستشعر والمقاييس.

إدارة أنظمة تكنولوجيا المعلومات

يمكن استخدام كشف الشذوذ لمراقبة أداء أنظمة تكنولوجيا المعلومات، والحفاظ على سير العمليات بسلاسة من خلال تحديد الأنماط غير المعتادة في سجلات الخوادم وإعادة بناء الأعطال من الأنماط والتجارب السابقة للتنبؤ بالمشاكل أو الأعطال المحتملة.

الطاقة والنقل والبنية التحتية الحساسة

من خلال تحديد الحالات الشاذة في البيانات من أجهزة استشعار إنترنت الأشياء (IOT) وأجهزة تقنية التشغيل (OT)، يمكن لكشف الشذوذ أن يساعد في التنبؤ بأعطال المعدات أو احتياجات الصيانة في مجالات مثل الطيران والطاقة والنقل. عند استخدامه لرصد أنماط استهلاك الطاقة وتحديد الشذوذ في الاستخدام، يمكن أن يؤدي كشف الشذوذ إلى إدارة أكثر كفاءة للطاقة والكشف المبكر عن أعطال المعدات.

البيع بالتجزئة والتجارة الإلكترونية

يستخدم التجار نماذج كشف الشذوذ لتحديد الأنماط غير المعتادة في سلوك العملاء، مما يمكن أن يساعد في اكتشاف الاحتيال، والتنبؤ بفقد العملاء، وتحسين استراتيجيات التسويق. في التجارة الإلكترونية، يتم تطبيق كشف الشذوذ لتحديد التقييمات المزيفة، والاستحواذ على الحسابات، والسلوك المالي غير الطبيعي، وغيرها من مؤشرات الاحتيال أو الجرائم الإلكترونية.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا