高可用性とハードウェア可用性

高可用性 ソフトウェアは、単純なハードウェアの可用性と混同されることがあります。耐障害性がある冗長システム (RAID など) や動的スイッチング・テクノロジー (DLPAR など) は、 一部のハードウェア障害を回復しますが、複雑なアプリケーションを可用性の高いまま保持するために 必要なすべての範囲のエラー検出や回復までは行いません。

現代の複雑なアプリケーションは、以下のすべてのコンポーネントにアクセスできる必要があります。

  • ノード (CPU、メモリー)
  • ネットワーク・インターフェース (ネットワーク・トポロジーにおける外部デバイスも含む)
  • ディスク・デバイスまたはストレージ・デバイス
  • アプリケーション・ソフトウェア

ダウン時間の原因に関する調査によると、実際のハードウェア障害が原因となったケースは、計画外の停止の中のほんのわずかなパーセンテージに過ぎません。その他には、以下の原因があります。

  • オペレーターのエラー
  • 環境の問題
  • アプリケーションおよびオペレーティング・システムのエラー

単に信頼性が高く回復可能なハードウェアであれば、構成におけるこれらのさまざまな障害すべてを防止できる、というわけではありません。これらの多様な要素の高可用性、その結果としてアプリケーションの高可用性を保つには、以下が必要となります。

  • アプリケーションが依存するリソースのアクセスや操作の物理的および論理的手順についての詳細かつ完全な計画。このような手順があれば、最初の段階で障害を回避するのに役立ちます。
  • エラーの検出および回復を自動化するモニターおよび回復パッケージ。
  • アプリケーションを使用可能なまま保持しながらクラスター構成のハードウェア面およびソフトウェア面を保守するための、よく制御されたプロセス。