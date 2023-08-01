إدارة الحوادث مقابل إدارة المشكلات: ما الفرق؟

يستخدم يوميًا مليارات الأشخاص حول العالم أجهزة الكمبيوتر أو الأجهزة المحمولة للوصول إلى الإنترنت. ودائمًا ما يحاول بعض هؤلاء المستخدمين الوصول إلى موقع إلكتروني إما بطيء التحميل أو عرضة للتعطل.

ويكمن أحد أسباب ضعف أداء الموقع الإلكترونيّ وراء محاولة كثير من الأشخاص في الوصول إلى الموقع في آنٍ واحد، ما يؤدي إلى إرباك الخوادم. ومع ذلك، قد يكون ذلك أيضًا مؤشرًا على وجود مشكلة أكبر، بما في ذلك سوء تكوين إعدادات نظام أسماء النطاقات (DNS) أو فشل دائم في الخادم أو هجوم ضار من جهة سيئة النية.

ليست الحوادث إلا أخطاء أو تعقيدات في خدمة تكنولوجيا المعلومات تحتاج إلى علاج. العديد من هذه الحوادث هي تحديات مؤقتة تتطلب علاجًا محددًا، ولكن تلك التي تشير إلى مشكلات أساسية أو أكثر تعقيدًا تتطلب معالجة أكثر شمولاً تسمى مشكلات.

وهذا ما يفسر وجود كل من إدارة الحوادث والمشكلات، وهما عمليتان مهمتان للتحكم في المشكلات والأخطاء، والحفاظ على استمرار مدة التشغيل، وفي نهاية المطاف، تقديم خدمة رائعة للعملاء ولغيرهم من الأطراف المعنية الأخرى.

تعتمد المؤسسات بشكل متزايد على التقنية الرقمية لخدمة عملائها والتعاون مع الشركاء. وتستطيع مجموعة التقنيات التي تدير المؤسسة أن توفر فرصًا جديدة ومثيرة لتنمية أعمالها. لكن الخطأ في الخدمة يمكن أن يتسبب أيضًا في حدوث اضطرابات وأضرار جسيمة لسمعتها وسلامتها المالية.

ما المقصود بإدارة الحوادث؟

إدارة الحوادث هي كيفية قيام المجموعات بتحديد الحوادث التي قد تعطل عمليات الأعمال العادية وتتبعها وحلها. وغالبًا ما تكون هذه الإدارة عملية رد فعل حيث يقع حادث ما وتقوم المجموعة بالاستجابة للحادث في أسرع وقت ممكن.

تزداد أهمية إدارة الحوادث في ظل ارتفاع عدد المؤسسات التي تسعى إلى تحقيق التحول الرقمي وغيرها من العمليات المعتمدة على التقنية بعدما صار الاعتماد على التقنية هو الحل الأول في تقديم الحلول للعملاء.

تتألف خدمات تقنية المعلومات في المؤسسات بشكل متزايد من نظام معقد من التطبيقات والبرامج والأجهزة وغيرها من التقنيات الأخرى، والتي يمكن أن تكون جميعها مترابطة ويعتمد بعضها على بعض. ويمكن أن تتعطل العمليات الفردية، ما يعطل الخدمة التي تقدمها الشركة للعملاء، ويتسبب في خسائر مالية ويضر بسمعة الشركة. لقد اعتمدت المؤسسات إجراءات عمليات التطوير(DevOps) المتقدمة لتقليل الحوادث، لكنها تحتاج إلى إيجاد الحل عند وقوعها.

تواجه المؤسسات يوميًا حوادث صغيرة وكبيرة تحتاج إلى إدارتها، وكلها لها القدرة على تعطيل سير العمل العادي. وينبغي على المؤسسات الانتباه إلى عدة أنواع من الحوادث، منها حالات التعطل غير المخطط لها مثل مرات توقف النظام، ومشكلات تكوين الشبكة، والأخطاء، والحوادث الأمنية، وفقدان البيانات وغير ذلك الكثير.

ومع ازدياد تعقيد المجموعات التقنية التي تعتمد عليها المؤسسات لتسيير أعمالها، أصبح من المهم للغاية إدارة عملية إدارة الحوادث بشكل استراتيجي، ولضمان معرفة جميع العاملين في المؤسسة بما ينبغي فعله إذا واجهوا حادثًا.

لقد تطورت أنظمة إدارة الحوادث من أدوات بسيطة يقوم فيها الموظفون بتسجيل الحوادث التي يلاحظونها (والتي ربما تُسجل بعد مرور ساعات من وقوع الحوادث). إلى ممارسة قوية ودائمة التشغيل بفضل تقنيات الأتمتة وبرامج إدارة الحوادث ذات الخدمة الذاتية، وهو ما يمكّن أي موظف في المؤسسة من إبلاغ مكتب الخدمات عن أي حادث.

من المهم معالجة الحوادث بشكل فوري والعمل على منع تكرارها مستقبلاً. حيث يتيح ذلك للمؤسسة الالتزام باتفاقية مستوى الخدمة (SLA)، والتي قد تضمن قدرًا معينًا من مدة التشغيل لا بد من تحقيقه وكذلك مستوًى معينًا من الوصول إلى الخدمات. وقد يؤدي عدم الالتزام باتفاقية مستوى الخدمة (SLA) إلى تعريض المؤسسة لمخاطر قانونية أو الإضرار بالسمعة.

يعتبر مدير الحوادث الطرف المعني الرئيسي في عملية إدارة الحوادث. حيث يتحمل مدير الحوادث مسؤولية إدارة الاستجابة للحادث وإبلاغ الأطراف المعنية الرئيسية بالتقدم المحرز. علمًا بأن هذا يعد دورًا معقدًا في خدمات تقنية المعلومات ويتطلب من الموظف العمل تحت ضغط أثناء التواصل مع الأطراف المعنية ذوي الأدوار والأولويات المختلفة في المؤسسة.

ما المقصود بإدارة المشكلات؟

تهدف إدارة المشكلات إلى منع تكرار الحادث من خلال معالجة السبب الأساسي. ومن المنطقي أنها تتبع إدارة الحوادث، خاصة إذا تكرر وقوع هذا الحادث عدة مرات ولا بد من تشخيصه كمشكلة أو خطأ معروف.

يؤدي اتباع إدارة الحوادث دون إدارة المشكلات إلى معالجة الأعراض فحسب دون معالجة السبب الجذري (أي السبب الأساسي)، ما يؤدي إلى احتمال تكرار وقوع حوادث مماثلة في المستقبل. وتعمل الإدارة المشكلات الفعالة على تحديد حل دائم للمشكلات، ما يقلل من عدد الحوادث التي سيتعين على المؤسسة إدارتها في المستقبل.

يستطيع فريق إدارة المشكلات المشاركة في إدارة المشكلات إما بشكلٍ تفاعلي بعد وقوع المشكلة أو بشكل استباقي قبل وقوعها، اعتمادًا على الحوادث التي لاحظوها والبيانات المتوفرة لديهم حول سوابق وتاريخ المشكلة.

الاختلافات بين إدارة الحوادث وإدارة المشكلات

يوجد اختلاف رئيسي واحد تجب مراعاته عند ملاحظة الحوادث مقابل المشكلات: الأهداف قصيرة الأجل مقابل الأهداف طويلة الأجل.

ينصب اهتمام إدارة الحوادث بشكل أكبر على التدخل في حالة المشكلة مع الهدف المعلن لإعادة هذه الخدمة لوضعها الطبيعي كما كانت دون تسبب في أي مشكلات إضافية. لذلك، فهي أداة قصيرة الأجل للحفاظ على تشغيل الخدمة في تلك اللحظة بالذات.

أما إدارة المشكلات بشكل أكبر فتركز على الاستجابة طويلة الأجل، ومعالجة أي سبب محتمل كجزء من مشكلة أكبر محتملة (أي: صارت معضلة).

كيف تتعاون إدارة الحوادث وإدارة المشكلات مع بعضهما؟

تحاول المجموعات الحفاظ على بنيتها التحتية لتكنولوجيا المعلومات في وضع جيد من خلال استخدام إدارة خدمات تكنولوجيا المعلومات (ITSM) للتحكم في تنفيذ الخدمات التي تلبي احتياجات المستخدمين النهائيين وتقديمها وإدارتها. وتهدف ITSM إلى تقليل فترة التعطل غير المجدولة وضمان أن تعمل كل موارد تكنولوجيا المعلومات على النحو المنشود لكل مستخدم نهائي.

تنشأ المشكلات بغض النظر عن مقدار الجهد الذي تبذله المؤسسات في إدارة خدمات تقنية المعلومات. لكن قدرة المؤسسة على معالجة المشكلات غير المتوقعة قبل أن تتحول إلى مشكلات أكبر تعتبر ميزة تنافسية كبيرة. ويكون تعطل خدمة تقنية المعلومات مرة واحدة حادثًا.

على سبيل المثال، قد تتسبب محاولة الكثير من الأشخاص الوصول إلى الخادم في تعطله، ما يؤدي إلى حدوث مشكلة تحتاج المؤسسة إلى حلها. تتعلق إدارة الحوادث بإصلاح تلك المشكلة المعينة التي تؤثر في المستخدمين بأسرع ما يمكن وبعناية. وفي هذه الحالة، يستطيع مدير الحوادث الاتصال بموظفي المؤسسة ومطالبتهم بالخروج من البرامج ريثما تقوم المؤسسة بحل المشكلة.

وتخضع كل من إدارة الحوادث وإدارة المشكلات إلى مكتبة البنية التحتية لتكنولوجيا المعلومات (ITIL)، وهي عبارة عن إطار توجيهي معتمد على نطاق واسع لتنفيذ كلا النهجين الإداريين وتوثيقهما. وتشكّل ITIL  هيكلاً للاستجابة بشكل تفاعلي للحوادث عند وقوعها. وأحدث إصدار متوفر حتى وقت كتابة هذا المستند هو ITIL 4.

حيث يوفر مكتبة من أفضل الممارسات لإدارة أصول تقنية المعلومات وتحسين دعم تقنية المعلومات ومستويات الخدمة. وتعمل عمليات ITIL على ربط خدمات تقنية المعلومات بعمليات الأعمال بحيث يمكن تغييرها عند تغير أهداف الأعمال. 

تعد قاعدة بيانات إدارة التكوين (CMDB) عنصرًا رئيسيًا لمكتبة ITIL، تعمل على تتبع وإدارة الترابط بين جميع البرامج وعناصر تقنية المعلومات والمستندات والمستخدمين والأجهزة المطلوبة لتقديم خدمة تقنية المعلومات. كما تُميز ITIL بين إدارة الحوادث وإدارة المشكلات.

يمكن أن يشير خادم يتعطل باستمرار إلى وجود مشكلة أكبر وأكثر منهجية، مثل عطل في الأجهزة أو خطأ في التكوين. وقد تستمر الأعطال إذا فشل فريق خدمة تقنية المعلومات في الكشف عن السبب الأساسي وتعيين حل للمشكلة الأساسية. وفي هذه الحالة، قد تتطلب الاستجابة تصعيد الأمر إلى إدارة المشكلات، والتي تهتم بإصلاح الحوادث متكررة الحدوث.

تُقدم إدارة المشكلات تحليلاً للسبب الأساسي للمشكلة والحل الموصى به، والذي يحدد الموارد المطلوبة لمنع تكرارها مستقبلاً.

العناصر الرئيسية لإدارة الحوادث والمشكلات

تشتمل الإدارة الفعالة للحوادث وللمشكلات على سير عمل مرتب ومنظم يتطلب المراقبة في الوقت الحقيقي والأتمتة وتنسيق العاملين المخصصين لحل المشكلات بأسرع وقت ممكن لتجنب فترات التعطل أو حالات توقف سير العمل غير الضرورية. ويتضمن كلا الشكلين من الإدارة عدة عناصر متكررة يجب أن تعرفها المؤسسات.

إدارة الحوادث

  • تحديد الحادث: تعتبر الملاحظة الدقيقة للحادث هي الخطوة الأولى والأكثر أهمية في عملية الحل. وتعمل المؤسسات على أتمتة الأنظمة بشكل متزايد بهدف أتمتة الأنظمة وإرسال الإشعارات عند وقوع الحوادث. ومع ذلك، يتطلب العديد منها أيضًا وجود إنسان للتأكد من وقوع الحادث، وتحديد ما إذا كان الأمر يتطلب التدخل أم لا، وتأكيد أسلوب التعامل الصحيح. على سبيل المثال، يعد تعطل الخادم حادثًا شائعًا مع المؤسسات التي تعتمد بشكل أساسي على التقنية الرقمية. وعندما يصبح الخادم غير متصل بالإنترنت، قد تقوم أداة آلية أو موظف بتحديد الحادث، والبدء في عملية إدارة الحوادث.
  • الإبلاغ عن الحوادث: هذه هي العملية الرسمية لتوثيق سجل الحوادث التي رصدها جهاز أو لاحظها إنسان. وتشمل تسجيل الحادث، وهي العملية التي يقوم من خلالها الفرد أو النظام بتعيين من الذي ينبغي له تولي الاستجابة للمشكلة، وتصنيف الحادث وتحديد الجهات المتأثرة وتاريخ الحل.
  • تحديد أولويات حل الحوادث: نظرًا للترابط الوثيق بين البرامج وخدمات تكنولوجيا المعلومات في المجموعات المعاصرة، فإن أي حادث في إحدى هذه الخدمات سيؤدي إلى آثار جانبية في الخدمات الأخرى. في بعض الأحيان يقع الحادث كجزء من فشل منهجي أكبر، والذي يمكن أن يؤدي إلى سلسلة كارثية من الأحداث. على سبيل المثال، إذا تعطلت خوادم متعددة، فقد لا يتمكن فريق تحليل الأعمال من الوصول إلى البيانات التي يحتاجون إليها، أو قد لا يتمكن العاملون في مجال المعرفة في الشركة من تسجيل الدخول والوصول إلى البرنامج الخاص بوظائفهم. أو إذا تعطلت واجهة API الخاصة بالشركة، فقد يتعذر على عملاء المجموعة الوصول إلى المعلومات التي يحتاجون إليها لخدمة المستخدمين النهائيين. وفي كلتا الحالتين، على فريق الاستجابة تقييم النطاق الكامل للمشكلة وتحديد أولويات الحوادث التي يجب حلها لتقليل الآثار قصيرة الأجل وطويلة الأجل في الأعمال. ويمكنهم تحديد الأولويات بناءً على الحادث الذي له التأثير الأكبر في المجموعة.
  • الاستجابة للحادث واحتواؤه: بعد ذلك، يتولى فريق الاستجابة، بدعم من برامج أو أنظمة مؤتمتة غالبًا، مهمة استكشاف الحادث وحله بهدف تقليل فترات تعطل الأعمال. ويتألف فريق الاستجابة عادةً من أعضاء فريق تكنولوجيا المعلومات الداخليين ومقدمي الخدمات الخارجيين وموظفي العمليات، حسب الحاجة.
  • حل الحوادث: يُعدّ هذا أمرًا بالغ الأهمية لعودة عمليات تقنية المعلومات إلى وضعها الطبيعي والخدمات العادية. وتتضمن الحلول المحتملة لحادث تقنية المعلومات إيقاف تشغيل الخادم الذي يعمل بشكل غير صحيح، أو إجراء تصحيح برمجي، أو إنشاء حل بديل، أو تغيير الأجهزة.
  • توثيق الحوادث والإبلاغ عنها: هذه خطوة مهمة للغاية في دورة حياة الحوادث للمساعدة في تجنب الحوادث المستقبلية. حيث تقوم العديد من الشركات بإنشاء قواعد معارف لتقارير الحوادث لديها حيث يمكن للموظفين البحث فيها لمساعدتهم في حل حادث سبق وقوعه في الماضي. بالإضافة إلى ذلك، يمكن للموظفين الجدد التعرف على الحوادث التي واجهتها الشركة مؤخرًا والحلول التي تم تطبيقها، حتى يتمكنوا من المساعدة بسهولة أكبر في حل الحادث المقبل. يعد التوثيق أمرًا حساسًا أيضًا لتحديد ما إذا كانت المشكلة تتكرر وتتحول إلى مشكلة، ما يزيد من الحاجة إلى إدارة المشكلة.

إدارة المشكلات

  • تقييم المشكلة: يجب على المؤسسة الآن تحديد ما إذا كان يجب تصنيف الحادث على أنه يمثل مشكلة مستمرة تستدعي إنشاء سجل للمشكلة أم أنه مجرد حادث عابر لا علاقة له بالمشكلة. وإذا كان يمثل مشكلة مستمرة تستدعي إنشاء سجل للمشكلة، فإنه يصبح جزءًا من إدارة المشكلة.
  • تسجيل المشكلة وتصنيفها: يجب على فريق تقنية المعلومات في هذه المرحلة تسجيل المشكلة التي تم تحديدها وتتبع تكرارها.
  • تحليل السبب الأساسي: يجب على المؤسسة أن تدرس الأمور الكامنة وراء هذه المشكلات وتضع خارطة طريق لإيجاد حل طويل الأجل. وتتمثل إحدى الطرق المتبعة لتحقيق ذلك في طرح أسئلة تبدأ بكلمة "كيف" بشكل متكرر في كل خطوة من خطوات التحليل حتى يمكن تحديد المشكلة الأصلية.
  • حل المشكلات يستطيع فريق تقنية المعلومات الذي يفهم المشكلة وسببها الأساسي أن يحل المشكلة الآن. وقد تنطوي على استجابة سريعة أو مطولة حسب درجة شدة المشكلة أو تعقيدها.
  • التحليل اللاحق: حيث يناقش الموظفون المعنيون الحادث (الحوادث) والأسباب الأساسية والاستجابة للمشكلة، ولذا يعد التحليل اللاحق عنصرًا أساسيًا في أي مؤسسة شفافة مهتمة بالحفاظ على مدة التشغيل وتقديم خدمة ممتازة للعملاء. وتوفر التحليلات اللاحقة فرصة للجميع لمناقشة كيفية التحسين دون الحكم على أي موظف أو إلقاء اللوم على أي مشكلة. والغرض من التحليل اللاحق هو معرفة ما حدث وتحديد الإجراءات اللازمة لتحسين المؤسسة. كما أنه يوفر أيضًا رؤى مستنيرة حول كيفية استجابة الفريق بشكل أفضل للحوادث المستقبلية. ويمكن أن يحدد ما إذا كانت المؤسسة تتطلب عملية إدارة تغيير لتنشيط وتفعيل إدارة الحوادث والمشكلات وتبسيطها. ومن خلال اجتماعات التحليل اللاحق التي تتسم بالانفتاح والصدق يمكن الحصول على أفضل الأفكار والتوصل لأفضل النتائج. ويجب أن تؤكد ثقافة الفريق لجميع الأعضاء أن هذه طريقة لاكتشاف كيف يمكن للفريق تحسين خدمات تقنية المعلومات وليس وسيلة للعثور على شخص لإلقاء اللوم عليه. وسرعان ما ستفهم فرق العمل ما إذا كانت هذه ممارسة صادقة وداعمة بالفعل أم لا.

مؤشرات الأداء الرئيسية لإدارة الحوادث والمشكلات

تُجري المؤسسات عادةً تقييمًا لمديري الحوادث وعملية إدارة الحوادث بناءً على عدة مؤشرات أداء رئيسية:

  • متوسط الوقت اللازم لاتخاذ الإجراء: يتطلب الحادثُ الكشف عن الحادث والاستجابة له وحله. وتقيِّم المؤسسات سلامة خدمة إدارة الحوادث لديها عن طريق متوسط الوقت اللازم للتنبيه أو الإقرار ومتوسط الوقت اللازم للاستجابة و متوسط الوقت اللازم للإصلاح)، وكلها توفر صورة واضحة لكيفية استجابة المؤسسة للحوادث.
  • متوسط الوقت بين الأعطال: هو الوقت الفاصل بين الأعطال لأي خدمة من خدمات تقنية المعلومات. وقد يشير متوسط الوقت بين الأعطال، الذي يحدث بشكل متكرر أكثر من المتوقع، إلى وجود مشكلات أكبر تتطلب موقفًا أكثر استباقية.
  • مدة التشغيل: الوقت الذي تتوفر فيه خدماتك وتعمل على النحو المنشود. يمكن أن يؤدي انخفاض مدة التشغيل الشديد إلى تعريض المؤسسة لخطر انتهاك اتفاقية مستوى الخدمة (SLA) مع المستخدمين النهائيين وخسارة أعمال لصالح المنافسين.
  • الحوادث والمشكلات التي تم الإبلاغ عنها: عدد الحوادث التي أبلغ عنها مدير الحوادث في إطار زمني معين. قد تكون زيادة الحوادث المبلغ عنها علامة على وجود مشكلة أكبر.

مزايا إدارة الحوادث وإدارة المشكلات

الشركات التي لديها خطط شاملة لإدارة الحوادث والمشكلات هي الأقدر على الاستجابة السريعة للحوادث، ما يمنحها ميزة تنافسية كبيرة. فيما يلي بعض الفوائد:

  • زيادة رضا العملاء وولائهم: يتوقع العملاء أن تكون الخدمات والمنتجات التي اشتروا حقوق استخدامها متاحة وجاهزة للاستخدام عند الحاجة إليها. ويتزايد عدد المنتجات التي تأتي في صورة برامج (أو المرتبطة ببرامج، مثل الأجهزة الذكية). فمثلا، تعطل الخادم في إحدى الشركات التي تصنع أجراس الأبواب الذكية يعني عدم قدرة الأشخاص على دخول منازلهم أو شققهم. وتعطل الموقع الإلكتروني الخاص بحجز الفنادق بسبب مشكلة في نظام أسماء النطاقات (DNS) سيتكبد خسائر كبيرة في إيراداته اليومية ومن المحتمل أن يخسر عميلاً مدى الحياة لصالح منافس. وهكذا يمكن أن تؤثر الحوادث والمشكلات سلبًا في المؤسسة بدرجة كبيرة. فالشركات التي تستجيب للحوادث بشكل أسرع وتقلل من فترات التعطل ستكسب ولاء العملاء، وإلا قد يفكر العميل في تغيير مزود الخدمات إذا لم يشعر بالرضا. توفر استراتيجية إدارة الحوادث القوية الأموال للشركات من خلال تقليل فترات التعطل والحد من احتمالية مغادرة العميل أو ترك الموظف شركته، وكلاهما مرتبطان بالتكاليف المباشرة.
  • زيادة رضا الموظفين: لا يقتصر تأثير حوادث تقنية المعلومات الخطيرة على العملاء فحسب، بل يشمل أيضًا الموظفين الذين يعانون من تبعات هذه الحوادث. لا يمكن للموظفين الذين لا يستطيعون الوصول إلى برنامج ما حساس ومهم جدًا للأعمال القيام بوظائفهم. فيتراكم عملهم في الوقت الذي تحاول فيه الشركة إعادة الأمور إلى طبيعتها. وقد يضطرون إلى العمل لساعات إضافية أو خلال عطلة نهاية الأسبوع للحاق بالركب ما يسبب لهم التوتر ويهدد معنوياتهم.
  • تلبية متطلبات اتفاقية مستوى الخدمة (SLA): تحدد المؤسسات توقعات العملاء فيما يتعلق بمنتجاتها وخدماتها في اتفاقية مستوى الخدمة (SLA). قد تتعرض المؤسسة لخطر اتخاذ إجراءات قانونية إذا فشلت في الالتزام بشروط الخدمة في اتفاقيات مستوى الخدمة الخاصة بها ومن المحتمل أن تخسر العملاء لصالح منافسيها.

اكتشف كيف يمكن تحقيق عمليات استباقية في تقنية المعلومات

تتكامل IBM® Turbonomic مع حلول عمليات ITOp لديك، وتربط بين الفِرق والبيانات المنعزلة، وتحول عمليات رد الفعل اليدوية إلى تحسين مستمر في التطبيق العملي مع تقليل استهلاك التقنيات السحابية بطريقة آمنة بنسبة 33%.

IBM® Cloud Pak for AIOps، وهو الخيار المستضاف ذاتيًا لإدارة الحوادث، ويحقق الإدارة الاستباقية للحوادث والمعالجة الآلية للحوادث لتقليل حالات التعطل التي تواجه العملاء بنسبة تصل إلى 50% ومتوسط الوقت اللازم للاسترداد بنسبة تصل إلى 50%.

