متوسط الوقت حتى الفشل (MTTF) هو متوسط الفترة التي يعمل فيها نظام أو أصل غير قابل للإصلاح (مثل المصباح الكهربائي) قبل أن يتعرض لفشل يجعله غير متاح أو خارج المواصفات.
تستخدم الشركات مؤشر الأداء الرئيسي (KPI) الخاص بالموثوقية هذا لتقدير العمر المتوقع لمكوِّن تقني أو ميكانيكي.
في عمليات التطوير، غالبًا ما يتم استخدام MTTF كمقياس لمدة بقاء الخدمة متاحة للمستخدمين قبل حدوث أعطال مؤثِّرة وفترات تعطُّل.
يشير انخفاض أو تراجع MTTF إلى أن المطورين ومهندسي موثوقية الموقع يجب أن ينتبهوا إلى أن البنية التحتية أو الكود أو الاعتماديات ضعيفة وتحتاج إلى تحسينات لزيادة موثوقيتها. يشير ارتفاع MTTF إلى أن بيئة الإنتاج تظل مستقرة لفترات أطول بين الحوادث الكبرى والانهيارات، وبالتالي فإن فريق تكنولوجيا المعلومات يدير بنية تحتية قوية ويقدِّم التطبيقات البرمجية بأمان.
تساعد مقاييس MTTF -إلى جانب مقاييس الصيانة الأخرى، مثل متوسط الوقت بين الأعطال (MTBF)- فِرق عمليات التطوير على تحسين التخطيط للقدرة ودورة الحياة لمجموعة من عناصر تكنولوجيا المعلومات (بما في ذلك عُقد الشبكة والحاويات والخدمات المُدارة)، ما يقلل من احتمالية حدوث انقطاعات مفاجئة.
تمكِّن هذه المقاييس المؤسسات أيضًا من تتبُّع موثوقية المعدات عبر الإصدارات، بحيث يمكنها تحديد إذا ما كان الكود والبنية التحتية ككود (IaC) وتغييرات التهيئة تجعل الأنظمة أكثر مرونة، بدلًا من مجرد تسريع عملية الإطلاق.
يمثِّل MTTF متوسط مدة التشغيل قبل التعطل لمجموعة من العناصر المتطابقة. في أبسط صوره، يقسم MTTF إجمالي وقت التشغيل لجميع الأصول على إجمالي عدد حالات فشل الأصول.
حيث يشير مصطلح "إجمالي ساعات التشغيل" إلى مجموع عمر كل عنصر حتى الفشل (أو حتى انتهاء فترة المراقبة)، و"عدد حالات الفشل" هو عدد العناصر التي تعرضت للفشل فعليًا.
MTTF = إجمالي ساعات التشغيل لجميع العناصر ÷ إجمالي عدد حالات الفشل
لنأخذ على سبيل المثال مجموعة حاويات.
الحاويات هي نسخ مؤقتة لا يتم عادةً إصلاحها. عندما تتوقف الحاوية عن العمل أو تصبح غير صحية، تعمل أدوات تنسيق الحاويات (مثل Kubernetes) ببساطة على تدمير الحاوية وتشغيل واحدة جديدة.
يمكن لفريق تكنولوجيا المعلومات الذي يشغِّل خدمة ويب دون حالة على 50 حاوية تطبيق متطابقة حساب MTTF عن طريق قياس مدة تشغيل كل حاوية (من إنشائها حتى فشلها) وقسمتها على عدد الحاويات التي فشلت. في تقييمهم، وجد الفريق أن مجموعة مكوَّنة من 50 حاوية عملت لمدة إجمالية قدرها 200 ساعة، مع فشل خمس حاويات أثناء العملية.
MTTF = 200 ساعة تشغيل ÷ 5 حالات فشل = 40 ساعة
قيمة MTTF للحاويات في هذه المجموعة هي 40 ساعة.
لا يُعَد MTTF صيغة مثالية أو دقيقة للاستخدام العملي؛ لذا غالبًا ما تستخدمه فِرق عمليات التطوير كمؤشر تقريبي على متانة المكونات وفي سياق مؤشرات أداء إدارة الحوادث الأخرى، مثل متوسط وقت الإصلاح (MTTR) وMTBF. يمكن أن يساعد MTTF -في هذه الحالة- الفِرق على تقدير عدد مرات إعادة تشغيل مجموعة الحاويات يوميًا، ما يُتيح لهم تخصيص حجم المجموعة وموارد التوسيع التلقائي بشكل مناسب.
ومع ذلك، كلما كانت بيانات الفشل والتشغيل أكثر دقة، وزاد حجم البيانات التي تضمَّنها الفريق، زادت دقة حسابات MTTF.
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
يُتيح تتبُّع MTTF للفِرق قياس موثوقية النظام واتخاذ قرارات مستنيرة بشأن إدارة الأصول، ما يعزز التخطيط الأفضل ويدعم تصميمات وعمليات أكثر مرونة. ويساعد المؤسسات على تحديد أولويات:
يوفر MTTF رؤية رقمية واضحة لعمر الأصول قبل الفشل، ما يمكِّن الفِرق من تقييم الموثوقية بشكل موضوعي بدلًا من الاعتماد على قصص وتجارب فردية.
كما يميّز MTTF الموثوقية الجوهرية للعناصر أو الخدمات عن MTTR، الذي يقيس مدى سرعة الفِرق في إصلاح مشكلات النظام عند حدوثها. عندما ينخفض MTTF لخدمة ما، غالبًا ما يشير ذلك إلى مشاكل أعمق في التصميم أو الاعتماديات (مثل مكتبة غير موثوق بها). يمكن للفِرق استخدام هذه الإشارات لبدء عمليات استكشاف الأخطاء وتحديد السبب الأساسي لفشل النظام.
من خلال تتبُّع مقاييس الفشل على مدى الزمن، يمكن للفِرق تحديد الخدمات الهشة وإعطاء الأولوية للتحسينات لتقليل تكرار الحوادث مستقبلًا.
يمكن لمراقبة MTTF أن تساعد المؤسسات على تحسين ممارسات إدارة الصيانة واعتماد نهج أكثر استباقية في حل المشكلات.
بدلًا من مهام الصيانة الزمنية أو العشوائية (مثل "إعادة تشغيل الخدمة س كل يوم أحد")، يمكن للفِرق استخدام MTTF الذي تمت ملاحظته لجدولة الصيانة قبل فترة الفشل المعتادة ("إعادة تدوير الحجيرات عند 80% من عمرها المتوقع قبل الفشل").
في الواقع، يمكن لمديري تكنولوجيا المعلومات وفِرق الصيانة تضمين دفاتر التشغيل -وهي مجموعات التعليمات التفصيلية لإكمال المهام التقنية- مع إرشادات محددة تعتمد على MTTF. على سبيل المثال، قد تتضمن دفاتر التشغيل مهمة مثل: "إذا استمرت الخدمة س في العمل لفترة أطول من MTTF المعتاد وظهرت إشارات تحذيرية مبكرة (أخطاء، تأخير)، فأوقفها وأعِد تشغيلها بشكل استباقي بدلًا من الانتظار حتى حدوث فشل كامل".
في سياق إدارة الحوادث، يمكن أن يمثِّل MTTF متوسط الوقت بين اكتشاف العطل وحدوث الفشل الكامل للنظام، موضِّحًا المدة التي من المرجح أن يستمر فيها النظام في العمل بحالة متدهورة أو غير آمنة. ومعرفة فترة التدهور هذه تساعد الفِرق على تحديد إذا ما كانت لديهم دقائق أو ساعات أو أيام لتنفيذ الإصلاح قبل توقف العنصر عن العمل.
كما يساعد ذلك على تقليل شدة الحوادث. فبدلًا من الارتباك عند حدوث فشل غير متوقع، يمكن لموظفي تكنولوجيا المعلومات تنفيذ عمليات التبديل أو تجاوز الفشل التي خططوا لها واختبروها ووفَّروا لها الموارد مسبقًا.
إدراج MTTF ضمن مؤشرات الأداء الرئيسية لعمليات التطوير يحفز فِرق تكنولوجيا المعلومات على تصميم الأنظمة للموثوقية والتدهور المدروس، بدلاً من التركيز فقط على سرعة التسليم. يمكن للفِرق مقارنة MTTF بين العناصر لتوجيه قرارات تصميم البنية، مثل استبدال العناصر منخفضة الأداء وإعادة تصميم الخدمات.
تساعد مراقبة MTTF مهندسي تكنولوجيا على تحديد أماكن الحاجة إلى التكرار؛ لضمان الاستمرارية. على سبيل المثال، ستحتاج خدمة حيوية ذات MTTF منخفض على الأرجح إلى نسخ احتياطية، أو مجموعات تجاوز الفشل، أو قواطع الدائرة -التي تمنع الخدمات من إعادة العمليات الفاشلة- لتعمل بشكل ناجح.
كما يوفر MTTF للمهندسين معيارًا إرشاديًا عند دمج الخدمات. إذا كان تطبيق يعتمد على سلسلة من الاعتماديات ذات MTTF منخفض (والتي ستتعطل بشكل متكرر)، يمكن لفِرق عمليات التطوير اختيار فصله أو إضافة مسارات بديلة لتجنُّب حدوث أعطال متتالية عبر الخدمات.
يساعد MTTF فِرق عمليات التطوير على إعطاء الأولوية للدين التقني من خلال تحويل الشكاوى الغامضة مثل "هذا يبدو هشًا" إلى مخاطر موثوقية قابلة للقياس يمكن ترتيبها واتخاذ إجراءات بشأنها. يمكنهم استخدام بيانات MTTF لإنشاء قائمة تراكمية للأولوية المتعلقة بالموثوقية، مرتَّبة حسب MTTF وتأثير الحوادث، بحيث تركِّز عمليات إعادة التصميم، وإعادة الهيكلة، وترقيات الاعتماديات على المجالات التي تؤثِّر سلبًا في استقرار النظام بشكل واضح.
بالإضافة إلى ذلك، تمكِّن بيانات MTTF المؤسسات من ربط الدين التقني بنتائج الأعمال من خلال توضيح عدد مرات تعطُّل الخدمة ومدى تأثير ذلك في توقف النظام أو انقطاع المستخدمين مع مرور الوقت. يساعد ذلك المهندسين على تقديم حجج مستندة إلى الأدلة لتقليل الدين التقني. بدلًا من الاعتماد على الحدس، يمكنهم القول: "هذا العنصر يتعطل كل س من الأيام ويسبب ص% من حوادثنا"، وهو ما يكون أكثر وضوحًا وتأثيرًا لدى فِرق القيادة والمنتج.
أهداف مستوى الخدمة (SLOs) هي مؤشرات أداء متفق عليها لخدمة معينة خلال فترة زمنية محددة. تساعد هذه الأهداف على تحديد الوضع المتوقع للخدمات وتسهِّل عملية اتخاذ القرارات المتعلقة بتعديلات النظام.
تحدِّد SLOs المتعلقة بالتوافر فترة التعطل المسموح بها للخدمة، والتي تُعرَف باسم ميزانية الأخطاء. تم تصميم ميزانيات الأخطاء لمساعدة المؤسسات على تحقيق توازن بين الابتكار والاستقرار. إذا كانت ميزانية الأخطاء في وضع صحي، يمكن للفِرق إعطاء الأولوية لتسليم الميزات الجديدة بأمان. إذا كانت الميزانية على وشك النفاد، يجب على الفِرق تحويل التركيز نحو موثوقية النظام.
يمكن لخدمة ذات MTTF منخفض أن تستنزف ميزانية الأخطاء بسرعة، ما يشير إلى أن SLO إما غير واقعي بالنسبة للتصميم الحالي وإما أن فِرق تكنولوجيا المعلومات بحاجة إلى زيادة موثوقية الخدمة لرفع MTTF.
يُعَد كلٌّ من MTTF وMTBF مقاييس للموثوقية تصف مدة تشغيل المعدات عادةً، إلا إنهما يُطبَّقان على أنواع مختلفة من الأصول ودورات حياتها. في حين يمثِّل MTTF متوسط الوقت حتى الفشل الأول للعنصر، فإن MTBF يمثِّل متوسط الوقت بين دورات الفشل.
يعمل MTTF على تقدير متوسط وقت تشغيل الأصول غير القابلة للصيانة حتى حدوث فشل دائم، بعده يجب استبدالها. يفترض هذا أن أي حدث فشل واحد سيُنهي العمر الافتراضي للعنصر.
ينطبق MTTF على العناصر المادية التي يتم استبدالها بالكامل، مثل الأقراص التخزينية، ووحدات المعالجة المركزية (CPUs) والكابلات. كما ينطبق على عناصر البرمجيات مثل الحاويات والخدمات المصغرة، التي يتم استبدالها في النهاية بإصدار جديد أو خدمة مختلفة بدلًا من إصلاحها في مكانها.
يقيس MTBF متوسط الوقت بين حالات الفشل المتتالية للأصول القابلة للإصلاح -بما في ذلك الخوادم، وعناصر الشبكة، وكود البرمجيات- التي يتم إصلاحها وإعادتها إلى الخدمة بعد التعطل. يفترض MTBF أن المعدات ستتعطل، ثم تُصلح، ثم تفشل مرة أخرى، بحيث يتكوَّن العمر الافتراضي للنظام من عدة دورات "فشل ← إصلاح".
معًا، توفِّر مقاييس MTTF وMTBF توجيهًا لكيفية تعامل فِرق تكنولوجيا المعلومات مع الحوادث وإدارة خدمات تكنولوجيا المعلومات.
في العديد من البنى، يتم تضمين العناصر غير القابلة للإصلاح (التي يتم تتبُّعها باستخدام MTTF) داخل أنظمة كبيرة ومعقدة قابلة للإصلاح (التي يتم تتبُّعها باستخدام MTBF)؛ لذا يمكن لـ MTTF مساعدة الفِرق على التنبؤ بالوقت الذي ستؤدي فيه الآليات الداخلية إلى فشل يساهم في MTBF للنظام الأكبر.
لنفترض أن بيانات قابلية الملاحظة تكشف أن خدمة معالجة الخدمات المصغرة داخل تطبيق تجزئة تمتلك MTTF يبلغ 1,000 ساعة قبل أن يؤدي تسرُّب ذاكرة حرج إلى تعطلها بشكل لا يمكن استعادته. يمكن لفِرق عمليات التطوير جدولة وإتمام إعادة تشغيل الخدمة المصغرة بشكل آلي عند 800 ساعة لمنع سلسلة من الأعطال التي قد تؤدي إلى انخفاض MTBF للتطبيق بشكل كبير.
بهذا الشكل، يؤدي الاستبدال الاستباقي للخدمة المصغرة غير القابلة للإصلاح إلى زيادة موثوقية التطبيق بأكمله مباشرةً.
كلا المقياسين يشكِّلان أيضًا أساسًا لتخطيط التوافر والصيانة. يدعم MTTF القرارات المتعلقة بإدارة المخزون وتخزين قطع الغيار، بينما يدعم MTBF القرارات الخاصة بجداول الصيانة الوقائية وتقدير تكرار الانقطاعات المتوقعة.
عند استخدامها جنبًا إلى جنب مع مقاييس وقت الإصلاح مثل MTTR، يمكِّن كلٌّ من MTTF وMTBF المخطِّطين من تقدير مدة تشغيل النظام، وتخصيص ميزانية لقطع الغيار، وضبط أنظمة تكنولوجيا المعلومات لتحقيق أعلى مستوى من الموثوقية.
يختلف الأسلوب المتَّبع لزيادة MTTF للأصل بشكل كبير اعتمادًا على النظام المعني، واعتماديته، ونظام عمليات التطوير الأكبر الذي يعمل ضمنه، وأهداف الأعمال العامة. ومع ذلك، غالبًا ما تتضمن بعض الممارسات الأساسية، ومنها:
استفِد من إمكانات الذكاء الاصطناعي والأتمتة لحل المشكلات بشكل استباقي عبر مجموعة التطبيقات.
استخدم أدوات وبرمجيات عمليات التطوير لإنشاء تطبيقات السحابة الأصلية ونشرها وإدارتها عبر أجهزة وبيئات متعددة.
عزّز مرونة أعمالك ونموها من خلال التحديث المستمر لتطبيقاتك على أي منصة، وذلك باستخدام خدمات الاستشارات السحابية التي نقدمها.