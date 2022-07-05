标签

验证云原生应用弹性的四步法

采用蓝色与紫色色调的数字生成多立方体抽象图像

如何判断某个解决方案是否“具备足够弹性”？如何确认测试已覆盖必要场景？

云原生架构范式已存在相当长一段时间。云原生架构的核心在于其内聚且独立的功能组件，这些组件带来了业务敏捷性、可扩展性与弹性——从而助力缩短产品上市时间、形成竞争优势并优化成本。这一范式在多语言技术生态中得到了积极支持。

通过上述架构与技术生态结合实现的解决方案，可能会变得相当复杂且难以维护管理，这主要源于实现所需的大量组件与多重技术框架。若设计与工程实践的实施未达最优标准，此类解决方案的复杂性与维护风险将呈指数级增长。

     

    什么是弹性？

    “弹性”正是这类关键的工程实践之一，其优劣直接关系到任何数字化转型举措的成败。如您所知，弹性通过平均恢复时间 (MTTR) 与平均故障间隔时间 (MTBF) 等指标，直接影响解决方案的整体可用性，同时也决定着变革性用户体验的成败。

    弹性本质上是系统在故障面前持续运行的能力。虽然系统故障最终可能表现为错误或组件/系统的不可用，但在分布式云原生系统中，可能导致故障的因素清单十分冗长。

    目前已有大量资料专注于如何在云原生应用中“实现”弹性。IBM 的 构建可靠性工场 实践为弹性实施提供了出色的入门指导与框架。此外，也存在诸如 混沌猴 等框架或  Gremlin  等工具，可帮助“测试”应用的弹性。

    然而挑战依然存在——我们如何验证某个解决方案是否“具备足够弹性”？具体而言，如何确认我们的测试已覆盖必要且充分的场景？如何确定应诱发哪些故障？

    针对上述挑战，我们建议采用以下四步法。

    1. 确定需测试弹性的场景与架构组件

    可通过识别“独特遍历路径”来实现——本质上是解决方案中各组件为支持功能场景可能被调用的顺序/组合。这些场景及其支撑组件构成了待测试的基础范围。

    例如，您的应用程序可能支持以下一种或多种场景：

    • 通过调用后端微服务的渠道应用程序搜索/浏览产品目录，这些微服务从持久化数据存储中获取数据。
    • 在预设时间/频率执行的批处理流程/调度程序。
    • 在预配置主题上发布并由订阅微服务处理的事件。
    • 由多个消费系统调用和暴露的 API。

    2. 确定故障点

    在确定场景与组件后，下一步是分析这些组件可能出现哪些“故障”。以下述特征的单一微服务为例：

    • 它通过网关暴露 API。
    • 它部署于支持 Kubernetes 的容器框架。
    • 它访问数据库。
    • 它与下游系统集成。

    通过识别“故障表面”，可整合出如下视图：

    展示微服务分层架构的示意图。中心是一个标有“核心”的黄色方框，其外围是标有“微服务 Pod”的灰色层。向外依次是标有“节点”的蓝色层、标有“API 网关”的浅蓝色层。除此之外，还有标有“资源与下游系统”的白色层，以及最外层标有“计算-存储-网络”的桃色层。每一层代表系统层级结构中的一个组件

    3. 识别各故障表面的失效原因

    上一步确定的每个故障表面可能因多种原因失效——这正是我们需要接着识别的。延续前述示例，将故障表面映射至可能原因可得出以下清单：

    • 核心： 微服务核心本身（作为代码单元）可能因内存不足问题失效，应用服务器可能崩溃等。
    • 微服务 Pod 与节点： 节点/Pod 可能健康检查失败。承载 Kubernetes 容器平台的虚拟机可能崩溃。
    • API 网关： API 网关引擎可能因处理请求所需的线程/内存不足而停止响应。
    • 后端系统： 后端系统响应时间可能过长，且系统可能崩溃。
    • 计算/存储/网络： 微服务与后端系统（可能部署于独立位置）间的网络可能中断。

    4. 准备“攻击”测试

    成因与故障表面可整合为如下矩阵。借此我们能理解并规划对解决方案实施“攻击”测试的组合策略。正如前文所述，这些策略现在可通过混沌测试框架来实现：

    产品优缺点对照表

    补充考量事项

    最后但同样重要的是，仅进行故障测试并不足够。请考虑以下场景：

    • 除了在单个组件实例中引入故障外，需确保云平台上未运行自动扩缩/多实例，或按需使所有副本失效。
    • 为测试降级结果（例如通过缓存机制），需具备“测试前”与“测试后”的比对验证能力。

    这需要额外能力来补充混沌测试框架，例如 基础设施即代码 (IaC)  或云资源的动态重配置能力。

    此外，由于实际组件测试成本较高，也可考虑采用“静态”验证能力，例如：

    • 副本集部署描述符验证
    • 虚拟机自动扩缩配置校验
    • 针对重试机制、熔断器实现等的静态代码检查

    了解更多

    总体而言，我们认为弹性建设不仅需要关注开发后阶段，更应贯穿全流程——从早期场景识别，依据业务影响确定优先级，再到结合静态与动态“攻击”测试来验证组件级弹性。本文阐述的方法论将有助于应对此过程中提出的关键挑战。

    IBM 的云原生应用开发与现代化服务确保持续贯彻严谨规范的工程实践。点击以下链接了解更多详情：

