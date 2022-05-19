10秒が大きな問題になるのはいつですか？アプリケーションのパフォーマンスに関して。
クラウドネイティブなマイクロサービス・アプリケーションにとって、10秒は本当に長い時間です。
10 秒でアプリケーションに起こり得ることは無数にあり、そのほとんどは良くないことです。
しかし、アプリケーションに何が起こる可能性があるかについて詳しく説明する前に、10秒以内に何が起こるかを示す現実世界の事象をいくつか見てみましょう。
ウサイン・ボルトの例が特に気に入っているのは、この距離を10秒未満で走ることができるということです。
クラウドネイティブ・アプリケーションの性能と可用性にとって、10 秒は永遠です。取引はインターネット上を駆け巡り、商取引の車輪を円滑に動かしています。
何か問題が発生した場合、10秒以内に何が起こり得るでしょうか？確かに、数千件の取引が遅延やクラッシュ、そして完了しないことがあります。
この種の問題では、販売損失により収益が減少する可能性があります。顧客はショッピングカートやサイトを放棄し、欲しいものを購入するため別の場所を見つけるでしょう。ブランド・イメージが損なわれる可能性があります。
では、なぜメトリクスを遅くキャプチャしたり、さらにひどい場合にはメトリクスとトレースをサンプリングして集計したりするオブザーバビリティー（観察可能性）ツールが許容されるのでしょうか?このようなプラットフォームが、最新のマイクロサービスのスピードで情報を収集しコンテキスト化する IBM Instana プラットフォームのようなオブザーバビリティー・プラットフォームとどうしたら同等とみなされるのでしょう。問題を修正するために必要な情報が入手できるまで、上記の問題が長期間にわたって残ることになります。
PRISA Tecnologia社にとって重要なのはパフォーマンスです。パフォーマンス上の問題に遭遇すると、それはすぐに、業績やブランドに対する消費者の認識に悪影響を及ぼします。
「コンテンツ表示における１秒の時間差は、私たちのオーディエンスのエクスペリエンスに大きな違いをもたらします。」— PRISA Tecnologia社ITアーキテクチャ、オペレーション、セキュリティ、職場担当ディレクター、Jorge Tomé Hernando氏
Instana プラットフォームの主要なオブザーバビリティーの競合製品は、Instana プラットフォームの超高精度な 1 秒のメトリクス間隔と比較して、メトリクスを10 秒間隔でサンプリングするか、または1 分間隔以上で集計します。さらに、Instanaプラットフォームは3秒以内に問題通知を配信します。この応答状況は、ここに示したオブザーバビリティー検知ギャップの図に示されています。
オブザーバビリティー・プラットフォームに問題があることを知らせてもらうまで、10秒または最大1分待つ余裕があなたに本当にあるでしょうか。手動のトリアージなら、大丈夫かもしれません。しかし、自動や半自動の修復では不可能です。
すべてのアプリケーションの目標になるのは、速度と信頼性です。アプリケーションのパフォーマンスと信頼性を向上させるためには、「人間が常に問題を修正しなければならない（MTTR）」という主柱のストラテジーを変える必要があります。修復のための人間の介入は、リソースに過重な負担を与え、変化のペースを制限します。また、サービス・レベル・インジケーター（SLI）も削減されます。
「Instanaを導入することで、予想されるレイテンシーを保証することが日々の目標になりました。サービス呼び出しの目標完了時間は250ミリ秒未満です。これは火急の案件だけを対象とした目標ではありません。性能を日々向上させることで、250ミリ秒の目標に向かって進むことができるのです。 Instanaがそれを可能にしてくれます。」– Bryce Hendrix氏、Dealerware社、リード・プラットフォーム・アーキテクト
可用性を高めてパフォーマンスを向上させるには、自動化されたAIOpsが最適です。自動化されたAIOpsは、AIOpsと組み合わせてさらなるオートメーションを提供し、より高いレベルのパフォーマンスと可用性を実現するための道筋となります。どのように実現したのでしょうか。自動化されたAIOpsが問題を解決できるようにすることです。機械は人間よりもはるかに速く完璧に修正できます。インフラストラクチャーのリソースの割り当てなど、人が介入する前に機械が修正・防止できる問題が数多くあります。
これらのメリットは、すべてのアプリケーションの問題が自動化されたAIOpsで解決できることを意味しますか？もちろんそうではありません。
コードの問題など、人間のトリアージのみで解決できる複雑な論理問題は数多くあります。しかし、自動化された AIOps の方が高速かつ効率的であり、それが問題を修復する上で優先されるべき場面も数多くあります。
平均予防時間（MTTP）を考慮してください。これは、オブザーバビリティーとAIOpsによって問題がハイブリッドクラウド・アプリケーションとインフラストラクチャーに悪影響を及ぼすのを防ぐためにかかる時間で分類されます。
自動化されたAIOpsは、アプリケーションの問題を修復する連続性に新しいオプションを追加します。前の図は、完全に自動化された問題修復から始まり、人間によるMTTR標準に至るまでの連続性を示しています。
この連続性において、オブザーバビリティーはあらゆる種類の修復の開始点となります。オブザーバビリティー・プラットフォームで問題が検知されるまでに時間がかかればかかるほど、修復プロセスの開始にも時間がかかります。この時間の経過は、自動AIOpsが追加されると、１秒の検知と１０秒以上の検知との違いが大きくなることを意味します。アプリケーションが問題が検知されるまで 10 秒以上待つ余裕があるなら、自動化された AIOps を使用する理由はいったい何でしょうか?
自動化された AIOps 修復は、未来の波です。アプリケーションのパフォーマンスとレジリエンスを改善する方法は、次の論理的なステップとなります。インフラストラクチャーのパフォーマンスの問題は、マイクロサービス・コードの問題を上回ることが多く、これからも引き続きそうなるでしょう。
アプリケーションの問題検知と修復の新しいゴールド・スタンダードは、自動オブザーバビリティーとAIOpsになるでしょう。これらは、問題が大きな問題に発展しないようにするために、連携して使用されます。
自動化された AIOps 修復のメリットを最大限に活用するには、AIOps エンジンに供給する高頻度で超高精度のメトリックとトレースが必要です。これらは、低速な可観測性テクノロジーの数分の一のコストで利用できます。
実際、10秒の間に多くのことが起こる可能性があります。リアルタイムのメトリクスと自動化されたAIOpsを使用すると、悪い問題がアプリケーションに発生しないことを保証できます。
