テクノロジー・リーダーシップ

デジタルサービス開発を実現する、SREを活用したバイモーダルIT運用

記事をシェアする:

先日公開した「これからのデジタルサービス開発における10の提言(前編後編)」では、業界でデジタル変革の必要性が高まる中、顧客接点であるフロントサービスに焦点をあて、これからの時代のデジタルサービス開発のあり方について解説しました。

  • 前編:顧客接点、組織構造、プロセス、カルチャーの領域に属する提言
  • 後編:技術基盤領域に属する提言

この記事では、後編『提言8:デジタルサービスを支えるシステム基盤と運用保守スキームの整備』について、より詳しく解説いたします。

デジタルサービスを支えるシステム基盤/運用保守スキームの課題

デジタル時代において、デジタルプラットフォームなどの、顧客ニーズに直結したサービスを迅速に展開するサービスが隆盛となる中、アプリケーションをより迅速に市場へ展開する事が必然となってきており、業務部門と情報システム部門がより一体となってDX対応への取り組みを始めています。そんな中で、市場ニーズの変化を受けて変わり続けるアプリケーションを稼働させるための基盤や運用についても、信頼性を維持しながらも俊敏性を高めていくことが重要です。

DXの取り組みに合わせてDevOpsへの対応など運用変革の取り組みは、多くのシステム部門が取り組まねばならないテーマだとの認識は高くなっています。しかし、今までのアプリケーション開発チームと基盤チームという役割分担の延長上で、デジタルサービスのシステム基盤をとらえてしまうと、安定性ばかりを求めてアプリケーションの俊敏性に追随できない基盤となってしまいます。
その反面で、俊敏性だけを求めてしまうと、システムに求められる信頼性などのシステム品質への考慮が不足するリスクがあります。要求される品質を維持するためには、長年企業のシステムの根底を支えてきた経験やスキルを生かしたシステム運用を効率的に行うことが必要です。

デジタルサービスを提供するためには、ビジネスが要求する俊敏性と企業が求める信頼性を両立させたシステム構築と運用が求められています。

SREが実現する運用の図

サイト・リライアビリティ・エンジニアリング(SRE)に基づいた運用

このような状況下で、サイト・リライアビリティ・エンジニアリング(SRE)に基づいた運用の考え方が広がりを見せています。
SREとは、Googleにより提唱された、システム管理とサービス運用における考え方または方法論であり、運用上の問題をソフトウェア的に解決することが特徴となっています。
信頼性こそがあらゆるプロダクトの基本的な機能として、トイルとよばれるような手作業を徹底的に自動化し、ユーザー視点のサービスレベル目標(SLO)に従い運用することで、システムの信頼性、生産性を向上させるための活動を行う運用の考え方です。

SRE運用を支える主な考え方として、以下のような項目があります。

エラーバジェット

エラーに対する予算であり、損失可能な信頼性
新機能のリリースや新しいデプロイ手法の試験など、イノベーションを推進するために必要となる活動を行うための時間として、この予算内の“エラー”は許容することを合意しておく。

エラーバジェット=100% – であり、障害対応などで消費されなかった“エラー”時間は上述のような活動を行うために利用することで、継続的なリリースや改善する時間を確保し、実現することができる。

50%トイル/50%エンジニアリング

運用作業にかける時間は50%で残りの時間はエンジニアリング時間とする
トイルという“手作業で繰り返し行われ、人間の判断が不要で自動化が可能な作業”にかける時間を全体の運用時間の50%におさえ、残りの50%はエンジニアリングと呼ばれる“サイト信頼性向上を目的とした改善活動などのタスク”に時間を使うことで、自動化の推進や運用負荷軽減を継続的に行っていく。

SLI/SLOによるサービス品質の評価

サービスの信頼性に関する計測量をSLI(サービスレベル指標)としておき、SLIで計測されるサービスレベルのターゲット値をSLO(サービスレベル目標)として定義する
サービス提供のパフォーマンス(信頼性)を見るための項目として、リクエストのレイテンシー、エラー率やシステムスループットおよび可用性や耐久性、サービスが利用できる時間の比率などを監視して、その達成度合いを評価し、タイムリーなサービス改善をするための意思決定手段とすることが重要となる。

ここで記述した主要なSRE運用の考え方はほんの一部ですが、こうしたSRE運用の考え方に沿ったシステム運用を行っていくことで、信頼性を維持しながら、迅速性と可用性をあわせもったシステム運用が可能になります。

バイ・モーダルITシステムの基盤運用

デジタルサービスを支える基盤運用を行うためには、バイモーダルITモデル を適用し、異なる2つのモード(モード1: SoR、モード2: SoE)を融合し、SRE運用をベースとしたシステム基盤運用を推進していくべきだと考えられます。安定性と信頼性が特に求められるモード1領域の従来型運用方法や考え方・文化を、変化への対応を重視して高速なアジャイル開発のような考え方が適用されるモード2領域に対して、そのまま適用することは適切ではありません。
モード2領域においては、ビジネスや開発のスピードに対応しながらもサービスの継続提供に重点を置いたSREの考え方に沿った運用への転換を目指すべきです。つまり、求められている運用要件の違いを考慮して、新しい手法、プロセスをシステム基盤領域においても浸透させる必要があります。

SREの考え方に沿った運用を行っていくうえでの体制・文化づくりも重要となります。SREの運用プロセスや考え方を理解し実際にSRE運用をできる人員の育成、アプリケーションリリースやサービス改善のためのサービス停止を許容する時間の確保、サーバー等のシステム構成要素の連続稼働ではなくサービス継続を指標とした稼働率管理、などの従来のモード1システム基盤運用にはなかった新しい考え方を導入し、浸透させていくことが重要となります。

こうしたシステム基盤運用をおこなっていくことで、サービスの安定提供を実現しながらも、ビジネス変革スピードに対応した継続的なアプリケーションリリースや、先進的な技術の導入などに注力することが可能となっていきます。

また、こうした運用を実現するためには、システム基盤においても、初期構築の時点からモード2に対応した監視方法や、一度作成した環境には手を加えない運用である「イミュータブル・インフラストラクチャー」の考え方を導入して、構築・運用を開始していくことが重要となります。さらに、モード2のスピードを求められる運用に対応できるように、継続的なキャパシティプランニングを行い、柔軟なシステム基盤環境の追加や拡張を可能とするなどの考慮も必要となります。

バイモーダルITシステムの基盤運用の説明図

モード1システムのうち、プロセス単位で切り離してコンテナ化が可能なアプリケーションなど、モード2に移行していけるシステムについては、要件を見極めて徐々に移行を推進していくことも考えられます。アプリケーションの密結合を解消して、モード2のシステムおよび運用に移行していくことで、高速な開発や新しいビジネスの創出が実現できる領域が増えていくことになります。

モード1のシステムとして残っていく部分についても、俊敏性を高めていく必要があります。SREの考え方の基本となっている徹底的な運用自動化は、モード1の領域にも適用すべきであり、IaaSクラウドやオンプレミス環境においても、自動化運用の適用を進めて俗人的な運用からの脱却、効率的な運用の実現をできる限り進めていく必要があります。
日本IBMでは、システム基盤運用の考え方として、SRE運用モデルを推進しており、新しい金融システム基盤であるDSP(Digital Service Platform) に対しても、SRE運用モデルを適用した運用を行っています。

モード1システムに対しては、長年にわたる運用自動化ツール適用実績や知見を蓄積しています。モード1システムの安定性と自動化による運用効率化を共存させることで、モード2システム運用との親和性を高め、バイモーダルITの運用の実現を目指しており、この活動を通じてお客様と共に運用改革の「共創」を目指しています。

今後において冒頭にも解説したとおり、市場ニーズの変化を受けて変わり続けるアプリケーションを稼働させるための基盤や運用について、信頼性を維持しながら俊敏性を高めていくことが重要です。そのためには、システム基盤/運用保守スキームにおいて「SRE運用」などを取り入れて、モード1とモード2のそれぞれに適した運用を行なっていく必要があるでしょう。
 

青山 真巳
著者:青山 真巳
日本IBM, GTS, ISGP, Offering & Chief Technology Office/Executive Architect, IBM Academy of Technology member

IBMに入社後、アウトソーシングのお客様の運用・設計を担当し、日本でのクラウドサービスの立ち上げ後に、USにてグローバルのクラウドサービス開発にアーキテクトとして貢献。現在はインフラストラクチャー・アーキテクトとして、お客様のクラウドネイティブ提案やSRE(Site Reliability Engineering)運用の推進を担当。Architect Community JapanリーダーとしてIBMのアーキテクトの育成も行っている。

More テクノロジー・リーダーシップ stories
2021年11月16日

グローバル企業における研究者の働き方と、研究者を支えるコミュニティー活動

IBM Researchのハイブリッドクラウド研究 IBM Researchは世界の7つの地域に17の研究所があり、密に協業しながら最新技術の研究開発をしています。私はIBM東京基礎研究所で、Hybrid Cloud & […]

さらに読む