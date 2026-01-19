MTTF 用于表示一批相同组件在发生故障前的平均运行时长。最基础的计算方式为：MTTF = 所有资产的总运行时长 ÷ 资产故障总次数。

其中，“总运行时长”是每个组件发生故障前（或观察结束前）的运行时间总和，“故障次数”为实际发生故障的组件数量：

MTTF = 所有组件总运行时长 ÷ 故障总次数

我们以容器集群为例。

容器属于临时实例，一般不会进行修复操作。当容器崩溃或状态异常时，容器编排工具（如 Kubernetes）会直接销毁该容器，并创建新的容器。

若 IT 团队在 50 个相同的应用程序容器上运行无状态 Web 服务，可统计每个容器从创建到故障的运行时长，再除以故障容器数量，即可算出 MTTF。经评估，该团队发现这 50 个容器总运行时长为 200 小时，期间共有 5 个容器发生故障。

MTTF = 200 小时运行时长 ÷ 5 次故障 = 40 小时

该集群内容器的 MTTF 为 40 小时。

MTTF 并非适用于实际用例的完美或精准公式，因此 DevOps 开发运维团队通常将其作为组件耐用性的参考值，结合平均修复时间 (MTTR)、MTBF 等事件管理 KPI 综合使用。在这种场景下，MTTF 可以帮助团队估算容器集群每日的重启次数，从而合理配置集群规模与自动扩展资源。

故障与运行数据越精准、样本量越大，MTTF 的计算结果就越准确。