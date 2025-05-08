虽然 SRE 高度关注管理和限制停机时间，但这种趋势并不意味着目标是让服务保持完美、100% 可用的服务可靠性。事实上，SRE 的关键支柱之一是，100% 的可靠性不仅不现实，甚至不一定是首选结果。

在 SRE 中，风险被视为一个连续体，当可靠性接近 100% 时，降低风险的难度和成本会呈指数级增长。尝试将可靠性从 99.99% 提升至 99.999% 比从将其从 80% 提升至 99% 要困难得多。接近 100% 所需的资源会降低开发团队执行其他任务的能力，例如创新新功能和更新。相反，团队会设置误差量来表示相应的失败次数。

另一个反对追求绝对可靠性的理由是：超过特定阈值后，用户通常无法感知可靠性的提升——尽管这一结论看似违背常理。它不仅成本高昂，而且收效甚少。理想的情况是，制定并实现目标，但不要过分超标。

相反，SRE 利用可用性指标来衡量停机风险的可接受度。根据一项指标，99.99% 的可靠性意味着仅允许全年累计 52.6 分钟的停机时间。更复杂的指标则会考虑某个位置或某个服务的元素发生停机但其他元素仍正常运行的可能性。

SRE 团队必须评估每项服务并确定可接受的不可靠程度。允许的停机时间有多长？由多种根本原因引发的各类故障是否会对用户体验产生不同的影响？超过这一限值，需要投入多少成本（包括人力和资金）？平衡点在哪里？