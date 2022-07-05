「レジリエンス」は、デジタル・トランスフォーメーション・イニシアチブの成否に関わるエンジニアリング・プラクティスの1つです。ご存知かもしれませんが、レジリエンスは、平均復旧時間（MTTR）や平均故障間隔（MTBF）などのメトリクスを通じて、ソリューション全体の可用性に直接貢献し、また、変革的なユーザー・エクスペリエンスを実現/破壊することにも直接的な役割を果たします。

レジリエンスとは、基本的にシステムが障害に対して持続する能力のことです。システムの障害は、最終的にはエラーやコンポーネント/システムの利用不能として現れる場合がありますが、分散型のクラウドネイティブ・システムで障害を引き起こしうる要因は非常に多くあります。

クラウドネイティブ・アプリケーションでレジリエンスを「実装」する方法に焦点を当てた資料はすでに多くあります。IBMのBuild for Reliability Garage プラクティスは、レジリエンス実装のための優れた紹介とフレームワークを提供しています。chaos monkey）のようなフレームワークや、Gremlinののような、アプリケーションのレジリエンスの「テスト」に役立つツールもあります。

ただし、ソリューションの「レジリエンスが十分である」ことをどう検証するか、という課題が依然として残ります。具体的には、テストが必要かつ十分なシナリオをカバーしているかどうかを、どのようにして知ればいいのか、ということです。どの障害を誘発すべきかを判断する方法はあるでしょうか。

上記の課題に取り組むには、次の4段階のアプローチを提案します。