高可用性とは

道路と交通状況を写した夜の香港の空撮

執筆者

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

高可用性とは

高可用性(HA)とは、システムが、100%に近い時間でアクセス可能かつ信頼性が高い状態である能力を指す用語です。

可用性の高いシステムは、計画的なダウンタイムやサイト全体の災害などの停止に耐えられる必要があります。通常、HAシステムは次の2つの特性を持っています。

  • ほぼ100%の時間使用できる必要があります。
  • 事前に決定された、ユーザーの持つ一連の想定に応えることができる必要があります。

デジタル変革イニシアチブの成長とそれに続く多くのサービスのクラウドへの移行に伴い、Microsoft社、Amazon社(AWS社)、IBM、Red Hat®など、多くのテクノロジー企業やサービスとしてのソフトウェア(SaaS)企業が高可用性ソリューションを提供するようになりました。

ITシステムの高可用性は、重要なアプリケーションにおいてシステムのダウンタイムがほとんど、またはまったくないことが前提となっている業種・業務では特に重要です。たとえば、病院やデータセンターでは、ユーザーは日常的な多くの業務を実行するために高可用性ソリューションに依存しています。ユーザーが何らかの理由でシステムにアクセスできない場合、そのシステムは「利用不可能」とみなされます。ユーザーがシステムを利用できない時間期間は、ダウンタイムと呼ばれます。

HAと災害復旧(DR)の比較

災害復旧(DR)は、壊滅的なイベントの結果として生じるデータ損失や事業継続性の中断を防止または最小限に抑えるように設計されたITインフラストラクチャ ・テクノロジーとベスト・プラクティスで構成されます。一方、高可用性(HA)は、通常、システムの可用性に影響を与える可能性のある小さな障害や欠陥に関係します。

DRとHAは異なりますが、どちらもITシステムの中断を最小限に抑えるという目標を共有しており、通常は全体的なストラテジーの一環として冗長コンポーネントと冗長システムを採用します。また、DRとHAはどちらもデータのバックアップを使用して、ハードウェア障害、ソフトウェア障害、停電などのさまざまな問題が発生した場合にデータを利用できるようにします。

HAとフォールト・トレランス

フォールト・トレランスとは、1つ以上の重要なコンポーネントに障害が発生した後でも継続的に動作するシステムの能力です。HAと同様、フォールト・トレランスは、混乱を招くイベントの発生中または発生後に、システムを利用可能にする上で役立ちます。

ただし、フォールト・トレランスとHAが異なる点は、ダウンタイムの対処方法にあります。HAはダウンタイムをできるだけ少なくすることを目指しますが、フォールト・トレランスの目標はゼロ・ダウンタイムです。これは冗長性を確保し、インフラストラクチャー内のすべてのコンポーネントのバックアップまたは2次コピーを作成することによってのみ達成できる目標です。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

高可用性のメリット

企業が重要なアプリケーションやサービスを提供するためにオンラインサービス、クラウド、ハイブリッドクラウドへの依存度がこれまで以上に高まっているため、インフラストラクチャへの要求が高まっており、高可用性が優先事項となっています。高可用性システムが企業にもたらす最も一般的なメリットをいくつか紹介します。

柔軟性の向上

デジタル・トランスフォーメーションはほとんどの企業にとって重要な目標であり、従業員や顧客が重要なアプリケーションに無制限にアクセスできるようにするには、システムの高可用性が不可欠です1

データを保護する
高可用性アーキテクチャにより、組織の最も重要なデータは常に利用可能でアクセス可能となり、不正な侵害から保護されます。
ブランドの評判の向上

システム障害が数時間あるいは数分のダウンタイムを引き起こすと、SaaS、航空、モバイル・テクノロジーなどの幅広い業界の企業にとって、渉外業務上の悪夢となる可能性があります2。高可用性インフラストラクチャーにより、障害や予期せぬダウンタイムによってブランドの評判が損なわれない体制を確立できます。

顧客サービスの向上

マネージド サービス プロバイダー(MSP)は、ネットワークの高可用性を実現する必要があります。それが実現されない場合、サービス レベル契約(SLA)を満たせなくなるリスクがあります。HAシステムは、自動運転車の安全な運転や医療施設における患者の記録の管理を支援するネットワークなど、MSPが最も価値のある顧客に信頼できるネットワークを提供する上で役立ちます。

AI Academy

ハイブリッドクラウドでAI対応を実現

IBMのエキスパートが主催するこのカリキュラムは、ビジネス・リーダーが成長を促進するAI投資に優先順位を付けるために必要な知識を習得できます。

高可用性を実現する方法

医療や金融などの業界でゼロ・ダウンタイムを達成しようとしている場合でも、単に障害による評判上の被害を回避する方法を探している場合でも、高可用性を求める企業は、通常、4段階のプロセスに従います。

  1. 単一障害点の排除:単一障害点とは、障害が発生した場合にシステム全体の機能を停止させるコンポーネントです。たとえば、複数のサーバーが単一のネットワーク・スイッチ上で動作している場合、そのスイッチに障害が発生すると、ネットワーク上のすべてのサーバーに障害が発生します。単一障害点の削減、あるいは完全に排除するためによく用いられるのは、負荷分散と呼ばれる施策で、システムの処理能力全体に処理を分散します。

  2. 信頼性の高いフェイルオーバーの構築:フェイルオーバーとは、プライマリ・システムに障害が発生した場合に、プライマリ・システムからセカンダリ・システムへワークロードを転送することです。企業が信頼性の高いフェイルオーバーを構築することで、大幅なダウンタイム、データ損失、運用パフォーマンスの低下を招くことなく、ワークロードを容易に転送できます。

  3. 障害を即座に検知:高可用性は、システム内の障害や欠陥を発生後即座に検知するプロセスを実装することに依存します。最新のシステムの多くには、自動化された障害検知が組み込まれています。中には、障害を検知し、フェイルオーバー・プロセスの実装など、次のアクションを選択できるものもあります。

  4. 強力なデータのバックアップおよび復元機能を構築:システムの個々の部分に障害が発生した場合、適切なデータのバックアップおよび復元手順が実施されていないと、データが失われる可能性があります。データ保護の技術と実践では、データとアプリケーションを別のセカンダリ・デバイスに定期的にコピーすることで、データとアプリケーションを迅速に復元できるようにします。

ロード・バランシング

多くのHAシステムでは、アプリケーションの可用性を最適化するために、複数のサーバー間でトラフィックを分散するプロセスである負荷分散が使用されます。たとえば、トラフィックの多いWebサイトやクラウド・サービスでは、システムは毎日何百万ものユーザー・リクエストを受け取ります。負荷分散により、アプリケーションはWebサーバーからユーザーにコンテンツを迅速かつ中断することなく配信できます。負荷分散では、特に多数のロード・バランサーを一度に使用することで、システム内の単一のコンポーネントが過負荷となり、ダウンタイムや停止を引き起こす可能性のある単一障害点が発生するのを防ぐことができます。

冗長性

冗長性、つまりプライマリ・コンポーネントに障害が発生した場合にセカンダリ・コンポーネントまたはバックアップ・コンポーネントを引き継ぐことができるようにすることは、高可用性システムの重要な部分です。冗長性により、コンポーネントが機能していない場合でも、ユーザーやアプリケーションがデータベースを使用し続けることができます。システム内のコンポーネントが冗長でない場合、そのコンポーネントが失われるとシステム全体が機能しなくなる可能性があるため、そのコンポーネントは単一障害点と見なされます。

高可用性クラスター

高可用性クラスターは、高可用性クラスタリングとも呼ばれ、単一システムとして連動して動作する接続されたマシンのグループです。クラスター内の1台のマシンに障害が発生した場合、クラスター管理ソフトウェアはそのワークロードを別のマシンに転送します。高可用性クラスター内では、各ノード(コンピューター)間の共有ストレージによって、単一のノードが機能を停止した場合でもデータ損失がゼロになります。

高可用性の測定方法

高可用性は、100%稼働しているか、または一度も停止していないシステムに関連付けて測定されます。システムは100%稼働することは不可能ですが、目標として設定すると、一定期間におけるシステムの可用性を測定する上で役立ちます。高可用性システムとサービスの最も一般的なメトリクスは、ファイブナインの可用性と呼ばれるものです。

ファイブナインの可用性

ファイブナインの可用性とは、システムが99.999%の時間稼働して実行できることを意味します。通常、ファイブナインの可用性を必要とするのは、医療、運輸、金融、官公庁・自治体などの重要な業種・業務のシステムだけです。これらのシステムは、人々の生活、食料や避難所へのアクセス、経済的幸福にとって重要です。

こうした重要な業種・業務で運用されていないシステムは、通常、高い運用可能性を必要とせず、「スリーナインまたはフォーナイン」(99.9%または99.99%)の可用性で事足ります。この点について頻繁に用いられる説明として、高可用性システムの「99.9/99.999%のアップタイム」という表現があります。

その他の重要なメトリクス:平均時間と回復時間

IT System Managerは、ファイブナインの可用性に加えて、システムの可用性を測定するために、他にもいくつかの主要なメトリクスを使用します。

  • 平均故障間隔(MTBF):平均故障間隔(MTBF)は、システムまたはコンポーネントの信頼性の尺度です。これはメンテナンス管理の重要な要素であり、システムまたはコンポーネントが故障するまでの平均稼働時間を表します。MTBFの公式は、コンポーネントの故障が重大なダウンタイムや安全上のリスクにつながる可能性がある産業用システムや電子システムの保守性のコンテキストで使われることが多いですが、多くの種類の修理可能なシステムやさまざまな産業でも使われています。

  • 平均修復時間(MTTR):平均修復時間(MTTR)は、平均復旧時間とも呼ばれ、システムまたは設備が故障した後に修復するまでにかかる平均時間を測定するために使用されるメトリクスです。MTTRは、故障が発生してからシステムや設備が完全に機能するようになるまでの時間を意味します。これには、故障を検知し、問題を診断し、問題を解決するために要する時間も含まれます。MTTRは、システムや設備の可用性と信頼性を評価するため、監視すべき重要なメトリクスです。

  • 目標復旧時間(RTO):目標復旧時間(RTO)は、停止(計画的、計画外、または災害)から復旧し、システム、アプリケーション、または一連のアプリケーションの通常の運用を再開するまでにかかる時間です。RTOは、計画停止、計画外停止、および災害復旧によって異なる場合があります。

  • 復旧時点目標(RPO): RPO(Recovery Point Objective:復旧時点目標)とは、データの保全が必要となる、障害発生時点からの相対的な時点のことです。少なくとも障害または災害が発生したこの期間より前のデータ変更は、復元処理によって保存されます。ゼロは有効な値であり、「データ損失ゼロ」要件に相当します。

高可用性の例

多くの業界の組織が、広範なデジタル・トランスフォーメーションに取り組む中、インフラに対する可用性の要求が高まっています。リモートワークや5Gネットワークの普及により、ユーザーはいつでもどこからでもデータやアプリケーションにアクセスできることが当たり前になりました。しかし、アプリケーションを動かし、データへのアクセスを制御する基礎となるシステムが利用可能である場合に限られます。以下に、現代企業の繁栄を支える高可用性システムの例を挙げます。

電子健康記録(EHR)

医師がキャビネット内のファイルをめくって、最後のワクチン接種日を確認する時代は終わりました。今日、救急治療室や専門医のオフィスを訪ねると、医師はほぼ間違いなくオンラインで記録にアクセスするでしょう。この種の情報は重要かつプライベートな性質があるため、EHRは、ダウンタイムがほぼゼロで、数秒以内に正確な情報を安全に提供できる高可用性システムの一例です。

自動運転車

自動車やドローンなどの無人運転または自律走行車両は、それらを制御する人工知能(AI)が機能するために、高速で強力なインターネット接続に依存しています。たとえば、自律走行車両が赤信号に近づくと、数万点ものデータがほぼリアルタイムで処理され、信号の止まるべき位置で停止し、目的地まで走行します。高可用性は、あらゆる種類の自律走行車両の安全な運行に不可欠です

モノのインターネット(IoT)

モノのインターネット(IoT)は、インターネットに接続されたセンサーが組み込まれ、データの収集と共有を可能にする物理デバイス、車両、家電製品などのネットワークです。IoT(モノのインターネット)エコシステムが道路、水路、家電製品、気象監視などに拡大するにつれて、何百万ものデバイスがネットワークに依存するようになりました。高可用性により、IoT(モノのインターネット)デバイスをサポートするネットワークが中断することなくスムーズに動作できるようになります。

ビッグデータ

企業はデジタル時代に生成する膨大なデータを使用する方法が増えるため、効率的で効果的なデータ処理には高可用性が不可欠です。データセンターと複雑な分析プラットフォームは継続的なデータ処理を行い、リアルタイム分析とダウンタイムによってプロジェクトが数カ月単位で遅れてしまう可能性があります。HAソリューションは、企業が最も重要なデータに24時間365日アクセスできるようにします。

関連ソリューション
IBM Cloud Infrastructure Center 

IBM Cloud Infrastructure Centerは、IBM zSystemsおよびIBM LinuxONE上のプライベートクラウドのインフラストラクチャーを管理するためのOpenStack互換ソフトウェア・プラットフォームです。

Cloud Infrastructure Centerの詳細はこちら
ITインフラストラクチャー・ソリューション

企業のハイブリッドクラウドとAI戦略のために設計された、サーバー、ストレージ、ソフトウェアを紹介します。

ITインフラストラクチャー・ソリューションはこちら
クラウド・ソリューション

安全性と柔軟性を備えたクラウドで、ビジネスの成長に合わせてリソースを無理なく拡張できます。

クラウド・ソリューション
詳細情報はこちら

IBMのハイブリッドクラウドとAI対応ソリューションで、企業インフラを変革しましょう。ビジネスを保護、拡張、モダナイズするために設計されたサーバー、ストレージ、ソフトウェアを発見したり、専門家のインサイトにアクセスして生成AIストラテジーを強化したりできます。

ITインフラストラクチャー・ソリューションはこちら 電子書籍を読む