ما المقصود بهندسة موثوقية الموقع (SRE)؟

منظر جوي لرجل يعمل على جهاز كمبيوتر

المؤلفون

Camilo Quiroz-Vázquez

IBM Staff Writer

Michael Goodwin

Staff Editor, Automation & ITOps

IBM Think

ما المقصود بهندسة موثوقية الموقع (SRE)؟

هندسة موثوقية الموقع (SRE) هي ممارسة في هندسة البرمجيات تجمع بين عمليات التطوير وعمليات تكنولوجيا المعلومات التقليدية لحل مشاكل العملاء، وأتمتة مهام عمليات تكنولوجيا المعلومات، وتسريع تسليم البرمجيات، وتقليل مخاطر تكنولوجيا المعلومات.

تدعم هندسة موثوقية الموقع (SRE) المرونة والتكرار والموثوقية في عمليات التطوير وتتعامل مع التنفيذ اليومي للبرامج. عادةً ما يتبع مهندسو موثوقية الموقع قاعدة الخمسين والخمسين: يخصصون نصف وقتهم لحل مشاكل العملاء مثل إدارة التصعيدات والاستجابة للحوادث والنصف الآخر لأتمتة عمليات تكنولوجيا المعلومات. وتشمل هذه العمليات إدارة نظام الإنتاج وإدارة التغيير والاستجابة للحوادث والاستجابة للطوارئ.

تعد فرق هندسة موثوقية الموقع (SRE) جسرًا يربط بين الطريقة التي يرغب مطوّرو البرامج أن تعمل بها هذه البرامج والطريقة التي تعمل بها في مواقف العالم الحقيقي. يعمل مهندسو موثوقية الموقع مباشرة مع العملاء لاستكشاف مشكلاتهم وإصلاحها وجمع البيانات حول تجربة المستخدم. تقوم فرق هندسة موثوقية الموقع (SRE) بتزويد فرق التطوير بهذه البيانات مرة أخرى، مما يمنحهم رؤى أعمق حول كيفية أداء البرنامج والتحديثات التي يجب إجراؤها.

تدرك فرق هندسة موثوقية الموقع أن الإخفاقات أمر لا مفر منه. تتمثل وظيفتهم في كل من تحديد (من خلال عمليات مثل تحليل السبب الأساسي) سبب المشكلات المباشرة واستخدام بيانات المراقبة والتسجيل للتنبؤ بالإخفاقات المحتملة في المستقبل. ثم، يقومون بإعداد الأتمتة لحل هذه المشكلات، وبناء المرونة والتكرار في النظام.

تقلل هذه الرقابة الآلية على أنظمة البرمجيات واسعة النطاق من حاجة مسؤولي النظام إلى إكمال مهام عمليات تكنولوجيا المعلومات يدويًا. يساعد التخلص من الوظائف اليدوية فرق تكنولوجيا المعلومات على توفير الوقت وتنفيذ مهام العمليات بشكل أكثر دقة والتركيز على الحفاظ على أداء التطبيقات.

كيف تعمل هندسة موثوقية الموقع؟

مهندس موثوقية الموقع هو منصب فني يتطلب خبرة في كل من تطوير البرمجيات وعمليات تكنولوجيا المعلومات. إن فهم هذه المناصب يمكن فرق هندسة موثوقية الموقع (SRE) من أداء دورها في دعم دورة حياة تطوير البرمجيات. تعتمد هندسة موثوقية الموقع (SRE) على استراتيجية المرونة من خلال الأتمتة المتسقة للعمليات.

تقليديًا، ركزت ممارسات هندسة موثوقية الموقع على أداء عمليات تكنولوجيا المعلومات ومهام إدارة الأنظمة. تتضمن هذه المهام تحليل السجلات، وضبط الأداء، وتطبيق التصحيحات، واختبار بيئات الإنتاج، وإدارة الحوادث، وإجراء تحليلات ما بعد الوفاة. هذه المهام كانت تُنجز في البداية يدويًا، الأمر الذي كان يستغرق وقتًا طويلاً وعرضة للخطأ البشري. يتضمن تحديث هندسة موثوقية الموقع أتمتة هذه المهام اليدوية.

تلعب المراقبة والتسجيل دورًا رئيسيًا في هندسة موثوقية الموقع (SRE). تستخدم فرق هندسة موثوقية الموقع (SRE) أدوات المراقبة لتتبع ما يحدث في أنظمة البرامج في الوقت الفعلي. المراقبة تجعل من الممكن إصلاح المشكلات التقنية الفورية وتساعد الفرق على توقع المشكلات المستقبلية وإيجاد حلول لها قبل وقوعها.

تُستخدم السجلات كأرشيفات يمكن تحليلها للحصول على رؤى حول كيفية عمل الأنظمة وتحسين قابلية مراقبة النظام. يُنشئ التسجيل خريطة طريق تساعد فرق هندسة موثوقية الموقع (SRE) على فهم سلسلة الأحداث التي أدت إلى خطأ غير متوقع. يمكن للمهندسين أتمتة معالجة الخطأ ومنع تكراره. تساعد كل من المراقبة والتسجيل المهندسين على تحديد نقاط الفشل وحل المشكلات برمجيًا من خلال الأتمتة بحيث لا يحتاجون إلى إصلاحها يدويًا.

فرق هندسة موثوقية الموقع (SRE) تبحث أيضًا عن أوجه القصور في الأنظمة من خلال عملية تسمى هندسة الفوضى. هندسة الفوضى هي استراتيجية ينفذها مهندسو موثوقية الموقع لإحداث أعطال متعمدة في بيئات الإنتاج وما قبل الإنتاج. الغرض من هندسة الفوضى هو فهم تأثير حالات فشل الإنتاج على أنظمة البرمجيات وتطوير خطط أقوى للتخفيف من حالات الفشل في المستقبل.

تركز هندسة موثوقية الموقع (SRE) أيضًا على تخطيط القدرات، وهي عملية تحدد الموارد اللازمة لتشغيل وظائف الأعمال الأساسية، وتوسيع نطاق وظائف الأعمال هذه، وتطوير تطبيقات وميزات جديدة. بالإضافة إلى ذلك، تضع فرق هندسة موثوقية الموقع (SRE) مقاييس تُستخدم لتقييم تسليم التحديثات وتنفيذ الميزات الجديدة.

منظر جوي للطرق السريعة

كن مطلعًا على آخر أخبار السحابة


احصل على نشرة Think الإخبارية الأسبوعية للحصول على إرشادات الخبراء حول تحسين الإعدادات متعددة السحابة في عصر الذكاء الاصطناعي.

مقاييس هندسة موثوقية الموقع

يستخدم مهندسو موثوقية الموقع مقاييس مختلفة للمساعدة في تتبع اتساق تقديم الخدمة وموثوقية أنظمة البرمجيات، بما في ذلك:

اتفاقيات مستوى الخدمة (SLA)

تحدد اتفاقيات مستوى الخدمة الشروط والأحكام بين مزود الخدمة والعميل. تحدد هذه الاتفاقيات مستوى الأداء والمؤشرات المتفق عليها لقياس الأداء وتداعيات الفشل في تقديم الخدمات. الخدمة الشائعة الموضحة في اتفاقية مستوى الخدمة هي مدة التشغيل، أو مقدار الوقت الذي تتوفر فيه الخدمة.

ميزانيات الخطأ

ميزانية الخطأ هي أداة تستخدمها فرق هندسة موثوقية الموقع (SRE) للمواءمة التلقائية بين موثوقية خدمة الشركة وسرعة تطوير البرمجيات والابتكار لديها. تحدد ميزانيات الخطأ مستوى لمخاطر الأخطاء يتماشى مع اتفاقيات مستوى الخدمة.

هدف وقت التشغيل بنسبة 99.999%، والمعروف باسم "توفر الخمس تسعات"، هو حد شائع لاتفاقية مستوى الخدمة. وهذا يعني أن ميزانية الخطأ الشهرية—أي إجمالي فترة التعطل المسموح به دون عواقب تعاقدية لشهر محدد—تبلغ حوالي 4 دقائق و23 ثانية. إذا أراد فريق التطوير تنفيذ ميزات أو تحسينات جديدة على النظام، فيجب ألا يتجاوز النظام ميزانية الخطأ.

ميزانيات الخطأ تساعد فرق التطوير وفرق العمليات على تحسين استقرار وأداء الخدمات. كما أنهم يساعدون في اتخاذ قرارات مستندة إلى البيانات بشأن نشر ميزات أو تطبيقات جديدة وتعظيم الابتكار من خلال تحمل المخاطر ضمن الحدود المقبولة.

أهداف مستوى الخدمة (SLO)

تساعد فرق هندسة موثوقية الموقع (SRE) أيضًا في تحديد أهداف مستوى الخدمة (SLOs)، وهي هدف أداء متفق عليه لخدمة معينة خلال فترة محددة. تحدد أهداف مستوى الخدمة (SLOs) الحالة المتوقعة للخدمات وتساعد أصحاب المصلحة على إدارة سلامة خدمات محددة والوفاء باتفاقيات مستوى الخدمة (SLAs).

مؤشرات مستوى الخدمة (SLIs)

يتم قياس أهداف مستوى الخدمة (SLOs) بواسطة مؤشرات مستوى الخدمة (SLIs). مؤشرات مستوى الخدمة هي قياسات كمية يتم تقديمها كنسب مئوية أو متوسطات أو معدلات. تتضمن القياس الفعلي للخدمات مثل مدة التشغيل، وزمن الانتقال، والإنتاجية، ومعدلات الخطأ.

IBM DevOps

ما المقصود بعمليات التطوير؟

تشرح Andrea Crawford مفهوم عمليات التطوير، وقيمتها، وكيفية مساهمة الممارسات والأدوات الخاصة بها في المساعدة على نقل التطبيقات عبر مسار تسليم البرمجيات بأكمله؛ بدءًا من الفكرة ووصولًا إلى الإنتاج. يتولى أبرز قادة الفكر في IBM هذا المنهج، ويهدف إلى مساعدة قادة الأعمال على اكتساب المعرفة اللازمة لتحديد أولويات الاستثمارات في الذكاء الاصطناعي التي يمكنها تعزيز النمو.

SRE و DevOps

عمليات التطوير (DevOps) هي منهجية تطوير برمجيات تسرّع تقديم التطبيقات والخدمات الأعلى جودة من خلال الجمع بين عمل فرق تطوير البرمجيات وعمليات تقنية المعلومات وأتمتتها. تساعد عمليات التطوير في أتمتة دورة حياة تطوير البرمجيات (SDLC)، وتمنح فرق التطوير والعمليات مسؤولية مشتركة أكبر، وتمنح جميع أصحاب المصلحة المعنيين مدخلات في دورة حياة تطوير البرمجيات.

تعتبر هندسة موثوقية الموقع (SRE) وعمليات التطوير (DevOps) استراتيجيتين متكاملتين في هندسة البرمجيات تعملان على تكسير الصوامع وتؤديان إلى تسليم برمجيات أكثر كفاءة وموثوقية.

بينما تركز فرق عمليات التطوير على حل السؤال: "ماذا يجب أن يفعل هذا البرنامج؟"، تعمل فرق هندسة موثوقية الموقع (SRE) على الإجابة عن: "كيف يمكن نشر هذا البرنامج وصيانته بحيث يعمل كما هو مطلوب؟" توفر فرق هندسة موثوقية الموقع (SRE) لفرق عمليات التطوير بيانات واقعية حول الأداء، مما يحقق التوازن بين البيانات العملية والعالم النظري لتطوير البرمجيات.

مثل هندسة موثوقية الموقع (SRE)، تجعل عمليات التطوير المؤسسات أكثر مرونة من خلال تحقيق التوازن بين الحاجة إلى تقديم التطبيقات والتغييرات بشكل أسرع والحاجة إلى تجنب "كسر" بيئة الإنتاج. يهدف كل من هندسة موثوقية الموقع (SRE) و عمليات التطوير إلى تحقيق هذا التوازن من خلال تحديد مخاطر الأخطاء المقبولة. تركّز فرق عمليات التطوير على إجراء التحديثات ونشر الميزات الجديدة بينما تعمل ممارسات هندسة موثوقية الموقع (SRE) على حماية موثوقية الأنظمة أثناء توسعها.

تعمل فرق عمليات التطوير وهندسة موثوقية الموقع على تبسيط طرق الاتصال وإنشاء حلقة تعليقات مستمرة. قد تعمل هذه الحلقة على هذا النحو: عندما يكشف فريق مهندسي موثوقية الموقع (SRE) السبب الأساسي لخطأ ما، فإنه يرسل النتائج التي توصل إليها إلى فريق تطوير العمليات (DevOps) الذي يمكنه تطوير تحديث للإصدار التالي من البرنامج. في هذه الأثناء، يقوم مختصو هندسة موثوقية الموقع ببناء عمليات الأتمتة لحل المشكلة وتتبع بيانات المراقبة والتسجيل للتأكد من حل المشكلة.

فوائد هندسة موثوقية الموقع (SRE)

بالإضافة إلى دعم نجاح عمليات التطوير، يمكن أن تساعد هندسة موثوقية الموقع المؤسسات على:

  • اكتساب رؤية أفضل لسلامة الخدمة من خلال تتبع المقاييس والسجلات والتتبعات عبر جميع الخدمات التنظيمية وتعزيز قدرات تحليل الأسباب الأساسية.

  • تحسين موثوقية أنظمة البرمجيات من خلال التفاعلات اليومية مع العملاء والمشاركة التعاونية لبيانات المستخدم مع فرق عمليات التطوير.

  • توسيع نطاق أنظمة البرمجيات من خلال أتمتة العمليات اليدوية التي تزيل الكدح وتقلل من الأخطاء وتحل المشاكل بدقة أكبر.

  • تحديد تكلفة فترة التعطل والانقطاعات من خلال مساعدة فرق التطوير والعمليات على فهم تكلفة انتهاكات اتفاقيات مستوى الخدمة (SLA)، ومساعدة الإدارة على تحديد تأثير موثوقية النظام على الإنتاج والمبيعات والتسويق وخدمة العملاء ووظائف الأعمال الأخرى.

  • تحسين الاستجابة للحوادث من خلال إنشاء عمليات فعالة عند الطلب وتبسيط سير عمل التنبيه.

  • بناء مركز عمليات شبكة حديث من خلال الجمع بين الفهم المتعمق لعمليات تكنولوجيا المعلومات والتعلم الآلي والأتمتة لإرسال التنبيهات مباشرة إلى الشخص المسؤول عن معالجة المشكلة.

تطوير هندسة موثوقية الموقع والسحابة والسحابة الأصلية

عندما تهاجر المؤسسات من تقنية المعلومات التقليدية ومراكز البيانات المحلية إلى السحابة الهجينة، فإنها غالبًا ما تولد كميات أكبر من البيانات التشغيلية. تلعب هندسة موثوقية الموقع (SRE) دورًا حساسًا في استخدام هذه البيانات لأتمتة إدارة الأنظمة والعمليات والاستجابة للحوادث وتحسين موثوقية المؤسسة مع ازدياد تعقيد بيئة تكنولوجيا المعلومات.

إن نهج تطوير السحابة الأصلية — على وجه التحديد، بناء التطبيقات كخدمات مصغرة ونشرها في حاويات—يمكن أن يبسط تطوير التطبيقات ونشرها وقابليتها للتوسع. ولكن تطوير السحابة الأصلية يخلق أيضًا بيئة موزعة بشكل متزايد مما يعقد الإشراف وعمليات تكنولوجيا المعلومات والإدارة.

يمكن لفريق هندسة موثوقية الموقع (SRE) دعم الوتيرة السريعة للابتكار التي يتيحها نهج السحابة الأصلية وتحسين موثوقية النظام، دون زيادة الضغط التشغيلي على فرق عمليات التطوير.

حلول ذات صلة
IBM Instana Observability

استفِد من إمكانات الذكاء الاصطناعي والأتمتة لحل المشكلات بشكل استباقي عبر مجموعة التطبيقات.

استكشف IBM Instana Observability
الخدمات الاستشارية في مجال الأتمتة

الارتقاء إلى ما هو أبعد من الأتمتة البسيطة للمهام للتعامل مع العمليات البارزة مع العملاء والمدرة للدخل من خلال التبني وتوسيع النطاق.

استكشف خدمات الاستشارات في مجال الأتمتة
حلول الذكاء الاصطناعي لعمليات تقنية المعلومات

اكتشِف كيف يمكن لاستخدام الذكاء الاصطناعي في عمليات تقنية المعلومات منحك ما تحتاج إليه من معارف لدفع عجلة أداء أعمالك لمستويات استثنائية من التميز.

استكشف حلول الذكاء الاصطناعي لعمليات تقنية المعلومات
اتخِذ الخطوة التالية

اكتشِف كيف يمكن لاستخدام الذكاء الاصطناعي في عمليات تقنية المعلومات منحك ما تحتاج إليه من معارف لدفع عجلة أداء أعمالك لمستويات استثنائية من التميز.

استكشف Instana Observability استمتع بتجربة Instana