云原生架构范式已存在相当长一段时间。云原生架构的核心在于其内聚且独立的功能组件，这些组件带来了业务敏捷性、可扩展性与弹性——从而助力缩短产品上市时间、形成竞争优势并优化成本。这一范式在多语言技术生态中得到了积极支持。
通过上述架构与技术生态结合实现的解决方案，可能会变得相当复杂且难以维护管理，这主要源于实现所需的大量组件与多重技术框架。若设计与工程实践的实施未达最优标准，此类解决方案的复杂性与维护风险将呈指数级增长。
“弹性”正是这类关键的工程实践之一，其优劣直接关系到任何数字化转型举措的成败。如您所知，弹性通过平均恢复时间 (MTTR) 与平均故障间隔时间 (MTBF) 等指标，直接影响解决方案的整体可用性，同时也决定着变革性用户体验的成败。
弹性本质上是系统在故障面前持续运行的能力。虽然系统故障最终可能表现为错误或组件/系统的不可用，但在分布式云原生系统中，可能导致故障的因素清单十分冗长。
目前已有大量资料专注于如何在云原生应用中“实现”弹性。IBM 的 构建可靠性工场 实践为弹性实施提供了出色的入门指导与框架。此外，也存在诸如 混沌猴 等框架或 Gremlin 等工具，可帮助“测试”应用的弹性。
然而挑战依然存在——我们如何验证某个解决方案是否“具备足够弹性”？具体而言，如何确认我们的测试已覆盖必要且充分的场景？如何确定应诱发哪些故障？
针对上述挑战，我们建议采用以下四步法。
可通过识别“独特遍历路径”来实现——本质上是解决方案中各组件为支持功能场景可能被调用的顺序/组合。这些场景及其支撑组件构成了待测试的基础范围。
例如，您的应用程序可能支持以下一种或多种场景：
在确定场景与组件后，下一步是分析这些组件可能出现哪些“故障”。以下述特征的单一微服务为例：
通过识别“故障表面”，可整合出如下视图：
上一步确定的每个故障表面可能因多种原因失效——这正是我们需要接着识别的。延续前述示例，将故障表面映射至可能原因可得出以下清单：
成因与故障表面可整合为如下矩阵。借此我们能理解并规划对解决方案实施“攻击”测试的组合策略。正如前文所述，这些策略现在可通过混沌测试框架来实现：
最后但同样重要的是，仅进行故障测试并不足够。请考虑以下场景：
这需要额外能力来补充混沌测试框架，例如 基础设施即代码 (IaC) 或云资源的动态重配置能力。
此外，由于实际组件测试成本较高，也可考虑采用“静态”验证能力，例如：
总体而言，我们认为弹性建设不仅需要关注开发后阶段，更应贯穿全流程——从早期场景识别，依据业务影响确定优先级，再到结合静态与动态“攻击”测试来验证组件级弹性。本文阐述的方法论将有助于应对此过程中提出的关键挑战。
