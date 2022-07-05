“弹性”正是这类关键的工程实践之一，其优劣直接关系到任何数字化转型举措的成败。如您所知，弹性通过平均恢复时间 (MTTR) 与平均故障间隔时间 (MTBF) 等指标，直接影响解决方案的整体可用性，同时也决定着变革性用户体验的成败。

弹性本质上是系统在故障面前持续运行的能力。虽然系统故障最终可能表现为错误或组件/系统的不可用，但在分布式云原生系统中，可能导致故障的因素清单十分冗长。

目前已有大量资料专注于如何在云原生应用中“实现”弹性。IBM 的 构建可靠性工场 实践为弹性实施提供了出色的入门指导与框架。此外，也存在诸如 混沌猴 等框架或 Gremlin 等工具，可帮助“测试”应用的弹性。

然而挑战依然存在——我们如何验证某个解决方案是否“具备足够弹性”？具体而言，如何确认我们的测试已覆盖必要且充分的场景？如何确定应诱发哪些故障？

针对上述挑战，我们建议采用以下四步法。