العمليات الفعَّالة

إطار عمل IBM Well-Architected Framework

مستطيل أزرق ثلاثي الأبعاد يحتوي على رمز التشغيل باللون الأبيض، موضوع على خلفية بيضاء.
لمحة عامة

تركِّز ركيزة العمليات الفعَّالة على الحلول التي تلبي متطلبات الحصول على رؤى حول أعباء العمل السحابية، وأتمتة العمليات، والحفاظ على موقف تشغيلي استباقي. يتم تمكين ذلك من خلال الممارسات والإرشادات حول نشر الفِرق، والأتمتة، وأدوات الذكاء الاصطناعي لمراقبة وإدارة وصيانة الحلول بطريقة آمنة وموثوق بها وعالية الأداء.

المبادئ

تشمل أمثلة النماذج التشغيلية "من يبني النظام هو المسؤول عن تشغيله" أو إنشاء ممارسة هندسة موثوقية المواقع. تعتمد هذه النماذج التشغيلية وغيرها على فهم احتياجات وسياق الأعمال والعملاء والمديرين وفِرق التطوير.

من المهم فهم أن النماذج التشغيلية يجب تقييمها باستمرار، وتعديلها، وتخصيصها لتلبية احتياجات المؤسسة مع مراعاة عوامل مثل الصناعة، والمتطلبات التنظيمية، والحلول القائمة، وأهداف المستخدمين.

تساعد أتمتة المهام التشغيلية الروتينية والشائعة باستخدام البرامج النصية والوكلاء الأذكياء وأدوات أخرى على الحفاظ على مستويات خدمة عالية.

يجب أن يمتد هذا المبدأ عبر الفِرق والاعتماديات لتحقيق كفاءة شاملة وسرعة ودقة وتقليل الأخطاء، بالإضافة إلى المرونة وضمان الاتساق داخل بيئة التشغيل.

اليوم، تمتلك فِرق العمليات خيارات واسعة من الأدوات التشغيلية، وقد تختار العديد من أفضل الأدوات المتخصصة لكل جانب من جوانب العمليات، ما قد يؤدي إلى فوضى إذا لم تتم إدارتها بشكل صحيح.

يمكن أن تؤدي الاختلافات والتكامل بين الأدوات إلى تحديات في تدريب أعضاء الفريق الجُدُد، وإدارة التراخيص والتكاليف، والمرونة، وزيادة الثغرات الأمنية. يجب على فِرق العمليات السعي باستمرار إلى تقليل ودمج الأدوات ووحدات التحكم التشغيلية المستخدمة.

ليست كل الحلول بحاجة إلى توافر مستمر على مدار الساعة أو استجابة فورية. يجب أن تدعم الحلول الفعَّالة مستويات خدمة متعددة ضمن حل واحد وتمكِّن من وضع أعباء العمل على البنية التحتية التي تلبي متطلبات التشغيل الخاصة بها بأفضل شكل.

ستساعد مستويات الخدمة فِرق التطوير أيضًا على أخذ تكوينات التطبيقات وأدوات القياس في الاعتبار لدعم أهداف الأعمال وتحقيق تجربة مستخدم إيجابية.

فِرق العمليات الفعَّالة متعددة التخصصات، أي أنها تحتوي على جميع المهارات اللازمة لدعم مجموعة من التطبيقات. ولتحقيق هذه القدرة، يجب أخذ جميع مستويات أعباء العمل في الاعتبار، بما يشمل خدمات التطبيقات والبنية التحتية.

يجب أن تدعم الحلول وأدوات العمليات هذا النموذج من خلال تمكين التكامل بين عناصر الحل، وفصل أدوات ومعلومات التشغيل عن الحلول الأخرى.

ما المقصود بهندسة موثوقية الموقع (SRE)؟

العديد من الممارسات التشغيلية شائعة ويمكن أتمتتها والوصول إليها عبر واجهة برمجة التطبيقات لتوفير وصول أفضل، على سبيل المثال، ليس فقط إنشاء أتمتة لإدارة الأسرار، بل أيضًا إنشاء واجهة برمجة التطبيقات طويل الأمد لتنفيذ عمليات إدارة الأسرار.

يمكن توسيع هذا النهج ليشمل إدخال قدرات جديدة ودمجها في مهام سير العمل الديناميكية. يمكن أن يؤدي هذا النهج إلى توحيد الإجراءات وتقليل وقت الانتظار بين الفِرق.

 

الممارسات

الممارسات والإرشادات لإنشاء حلول تشغيلية فعَّالة. تهدف هذه الإرشادات إلى توجيه الفِرق لتطبيق مبادئ العمليات الفعَّالة وضمان موثوقية الأنظمة المعقدة وتوافرها وأدائها. تساعد هذه الممارسات المؤسسات على تحقيق أهداف الموثوقية المرتكزة على المستخدم والحفاظ على صحة خدماتها.

يمكن تعديل ممارسات العمليات الفعَّالة لتتناسب مع احتياجات وسياق المستهلكين والأنظمة والخدمات في المؤسسة.

ستحدِّد متطلبات المؤسسة الخاصة، وأعباء العمل، والبنى أفضل الممارسات التي يجب اعتمادها. يُعَد التحسين المستمر من خلال التعليقات، والتقييم، والتوافق مع استراتيجية السحابة للمؤسسة أمرًا ضروريًا للحفاظ على الكفاءة والفاعلية.

النتيجة المرجوة هي إنشاء ثقافة قائمة على الموثوقية والتعاون تعزز تجربة المستخدم، وتحقق قيمة للأعمال، وتقلل من الانقطاعات.

كل تطبيق سحابي يمتلك الفريق الإداري أو فريق هندسة موثوقية المواقع الخاص به يميل إلى اعتماد أو بناء حل مراقبة. لتقليل مستويات التحكم، يجب على فِرق العمليات العمل مع فريق أدوات مركزي للانضمام إلى حل مراقبة مركزي.

يعمل تجميع سجلات النظام والأحداث والتطبيقات في موقع مركزي على تبسيط مراقبة العمليات وتشخيص المشكلات بشكل كبير عن طريق تقليل عدد مصادر ومواقع السجلات التي يجب على فِرق العمليات مراقبتها وإدارتها. ويُتيح هذا للفِرق إنشاء أنظمة مراقبة شاملة لجمع وتحليل المقاييس والسجلات باستمرار من عناصر النظام المختلفة. تعمل هذه الأنظمة إلى إطلاق تنبيهات عند خروج مؤشرات مستوى الخدمة (SLIs) عن النطاقات المقبولة، ما يسمح للمهندسين أو العمليات المؤتمتة بالاستجابة بسرعة للتعامل مع الإشارات الدالة.

IBM Observability with Instana IBM Cloud Pak for AIOps

لم يَعُد نموذج "الكسر-الإصلاح" القديم مناسبًا في بيئات تكنولوجيا المعلومات الحديثة التي تشهد طلبات متزايدة من العملاء، وحلولًا متعددة السحابات واسعة النطاق، وعددًا أقل من الموظفين المهرة لإدارتها. تساعد أدوات AIOps فِرق العمليات في الحفاظ على توافر وأداء وأمن بيئاتها، وكذلك في التعرُّف بسرعة على المشكلات المحتملة والحالية وحلها داخل البيئة.

يتم اعتماد AIOps من خلال مجموعة من الأنشطة الرئيسية، بما في ذلك:

  • جمع البيانات عبر العمليات التشغيلية مثل الحوادث والمشكلات والتغييرات.
  • تدريب النماذج بما يتوافق مع أهداف مستوى الخدمة (SLOs) ومؤشرات مستوى الخدمة (SLIs).
  • الكشف المؤتمت وتصنيف المشكلات عبر الخدمات الفردية والمتكاملة.
  • الاستجابة والمعالجة المؤتمتة لتمكين أنظمة الشفاء الذاتي.
  • التعليقات والتعلم المستمران.
IBM Cloud Pak for AIOps

تتم إدارة مواصفات البنية التحتية والتكوين كما لو كانت كودًا، أي باستخدام أدوات التهيئة المؤتمتة لتمكين إدارة التكوين وضمان اتساق البنية التحتية عبر جميع عمليات النشر.

يضمن التكوين المتسق للبنية التحتية في الكود إمكانية إعادة إنتاج البيئات عبر دورات حياة تطوير البرمجيات وعمليات النشر المختلفة.

يمكِّن هذا النهج من تحقيق فوائد رئيسية تشمل ما يلي:

  • الحوكمة، وإمكانية التدقيق، والتحكم في النسخ باستخدام أنظمة مثل Git.
  • تمكين التعاون وإمكانية التراجع عن التغييرات عند الحاجة.
  • أتمتة وسرعة تهيئة الموارد وإدارتها.
  • القابلية للتوسع وفقًا للحدود والمحركات المحددة.
  • قابلية إعادة الاستخدام عبر الفِرق والمشروعات.

 

Ansible

تعمل فِرق المنتجات مع الأطراف المعنية لتحديد أهداف مستوى الخدمة (SLOs) وإنشاء مؤشرات مستوى الخدمة (SLIs) التي تقيس مرونة الخدمة وجودة تقديمها. قد ترتبط مؤشرات مستوى الخدمة (SLIs) بأكثر من مؤشر SLO واحد، مستندة إلى مقاييس قابلة للقياس مثل زمن الانتقال، ومعدلات الخطأ، والتوافر، والتي تسهم في تحقيق الأهداف المحددة.

يُتيح تحديد أهداف مستوى الخدمة (SLOs) ومؤشرات مستوى الخدمة (SLIs) تحقيق فوائد رئيسية تشمل ما يلي:

  • أهدافًا قابلة للقياس لضمان أن الفِرق تمتلك أهدافًا واضحة ومحددة.
  • التركيز على المستخدم اعتمادًا على توقعات الأعمال وتجربة المستخدم.
  • القياس الكمّي الذي يسمح بالتقييم والقياس الموضوعي.
  • إرشادات لضمان توافق جودة الخدمات عند التعامل مع المورِّدين الخارجيين.
  • قياسات موحَّدة عبر الفِرق المختلفة (التطوير والتشغيل والأعمال).

تطوير إجراءات بشكل مستمر تحدِّد الأدوار والمسؤوليات وقنوات التواصل ومسارات التصعيد خلال العمليات الرئيسية مثل إدارة الحوادث والتغييرات والمشكلات. تضمن هذه الإجراءات الاستخدام الوظيفي والآمن والقابل للتوسع والفعَّال من حيث التكلفة لموارد السحابة.

الإجراءات الشائعة للعمليات السحابية تشمل ما يلي:

  • التهيئة والنشر استنادًا إلى قوالب محددة مسبقًا للبنية التحتية ككود.
  • المراقبة والتنبيهات لإشعار الفِرق عند تجاوز الحدود أو معايير الصحة.
  • النسخ الاحتياطي المنتظم للبيانات والتكوينات لتمكين خطط استرداد قوية وفي الوقت المناسب.
  • مراقبة استخدام الموارد وتحديد فرص تحسين التكاليف.
  • إجراء اختبارات منتظمة للتعافي من الكوارث للتحقق من فاعلية خطط الاسترداد.
  • تحليل توجُّهات الاستخدام والنمو للتنبؤ باحتياجات الموارد.
  • تطوير خطط الاستجابة للحوادث للتعامل مع الأحداث الحرجة مثل الانقطاعات أو الاختراقات.

تطبيق وإدارة إجراءات محددة وواضحة تشمل عملية التنفيذ والمحاكاة العملية للسيناريوهات لضمان استعداد الفِرق لتنفيذ الإجراءات عبر الفِرق المختلفة بجودة وكفاءة.

بعد وقوع حادث غير متوقع، تعمل الفِرق على إجراء تقييم شامل وما يُعرف بالتحقيق دون لوم لتحديد العوامل المساهمة والأسباب الأساسية وكفاءة الاستجابة. يتَّبع ذلك تطبيق حلول رقمية و/أو آلية مؤتمتة لمنع تكرار الحوادث المماثلة في المستقبل.

تشمل هذه الممارسة التقييمات المنتظمة وتحسين الإجراءات بناءً على رؤى مستندة إلى البيانات، وتحليل ما بعد الحوادث، وردود الفعل من الأطراف المعنية. بالإضافة إلى ذلك، عند إدراج الخدمات ودمجها في البيئات، يكون التكامل مع الحلول المؤتمتة الحالية أمرًا أساسيًا للحفاظ على موقف استباقي.

يضمن ذلك ألّا تظل العمليات ثابتة، بل تتطور باستمرار لتلبية الأهداف والمتطلبات والتحديات الديناميكية للأعمال.

التعاون مع فِرق الأمن لضمان دمج الإجراءات الأمنية في عمليات التطوير والنشر والصيانة.

يشمل ذلك تطبيق مفهوم الاختبار المبكر في الأمن ودورات حياة تطوير البرمجيات (SDLC)، مع التركيز على تنفيذ السياسات عبر حلول مؤتمتة ومبرمجة بالكود.

يضمن التعاون المستمر مع فِرق الأمن استمرار توافق أعباء العمل المنشورة مع سياسات المؤسسة الديناميكية وأهداف الأعمال. تشمل العمليات الأخرى إجراء تقييمات أمنية منتظمة، ودمج إدارة الثغرات الأمنية، وتنفيذ فحوصات امتثال دورية.

 

الموارد IBM Cloud Pak for AIOps
منصة إدارة عمليات شاملة مدعومة بالذكاء الاصطناعي تساعد فِرق العمليات على فهم بيانات العمليات في سياقها وحل المشكلات بشكل تعاوني، وتوفِّر توصيات استباقية لمساعدة الفِرق على تجنُّب المشكلات قبل حدوثها.
IBM Instana Observability
منصة قابلية ملاحظة متكاملة للعمليات تربط فِرق العمليات من خلال منصة مشتركة وواجهات سياقية تدعم جميع فِرق التسليم بما في ذلك عمليات التطوير، وهندسة موثوقية المواقع، وهندسة المنصات، وعمليات تكنولوجيا المعلومات (ITOps).
IBM Turbonomic
منصة شاملة متكاملة لأتمتة العمليات والعروض المصورة تساعد فِرق العمليات على تحسين موارد البنية التحتية من حيث التكلفة والأداء.
IBM DevOps Automation
أداة برمجية ذكية تساعد الفِرق على تسليم البرمجيات بكفاءة أعلى.
Red Hat Ansible
منصة أتمتة سحابة هجينة تعمل على أتمتة المهام المتكررة لتوفير الوقت وزيادة الإنتاجية.
OpenShift Pipelines
حل مستمر للتكامل والتسليم المستمرين (CI/CD) مخصص للسحابة الأصلية، يعتمد على موارد Kubernetes ويعمل داخل Red Hat OpenShift، ما يُتيح نشره واستخدامه في أي مكان في السحابة الهجينة.
OpenShift GitOps
يُعَد OpenShift GitOps أسلوبًا إعلانيًا لتطبيق النشر المستمر للتطبيقات السحابية الأصلية.
فِرق متعددة التخصصات ومتوافقة مع التطبيقات
ما المقصود بهندسة موثوقية المواقع (SRE)؟ يقدِّم هذا المقال لمحة عامة عن هندسة موثوقية المواقع (SRE) ودورها في حل السحابة الهجينة.
ركائز إطار Well-Architected Framework سحابة هجينة وقابلة للنقل المرونة الأمن والامتثال الأداء العمليات المالية والاستدامة
الخطوات التالية