リソース・グループ獲得障害の処理

PowerHA® SystemMirror® は、イベント・スクリプトを使用して PowerHA SystemMirror クラスター内のリソースを移動します。 PowerHA SystemMirror は、イベント・スクリプト内の特定のタイプの障害を区別します。 スクリプト・ロジックまたは環境のエラーが原因でスクリプトが失敗する致命的なタイプのエラーが引き続き存在しますが、 PowerHA SystemMirror はリソースの処理に関連するリカバリー可能エラーをトラップするようになりました。 これにより、 PowerHA SystemMirror はイベント処理を続行し、次に使用可能なノードでグループをオンラインにしようとします。

PowerHA SystemMirror がリソース・グループを開始または移動しようとすると、使用中のデバイスや使用不可のデバイス、ディスク・スペースの不足など、さまざまな理由で失敗する可能性があります。 PowerHA SystemMirror は、リソース・グループを別のノードに移動しようとすることによって、このような障害に反応する可能性があります。

リソース・グループ獲得のイベントは特定のノード上で失敗します。

  • リソース・グループ獲得失敗の際に手操作による即時の介入が必ず必要になるとは限りません。 リソース・グループが、別のノード上で正常にオンラインになる場合もあります。 ただし、リソース・グループの獲得失敗が発生したという事実は、注意が必要なシステムの問題が存在することを意味します。
  • ノードがリソース・グループを獲得できない場合、クラスター・マネージャーはエラー・メッセージをログに記録し、クラスター・リソースを使用可能にしておくためにイベントの処理を続行します。

    PowerHA SystemMirror 自動的に は、 ノード・アップ イベント中にノード上で ERROR 状態のリソース・グループを活動化しようとします。 この機能を無効にすることはできません。 結合ノードで ERROR 状態のリソース・グループを回復しようとして、ノードでリソース・グループの獲得に失敗した場合は、非コンカレント・リソース・グループがノード・リストの次のノードに (使用可能な場合は) フォールオーバーされます。 コンカレント・リソース・グループの獲得に失敗した場合、リソース・グループは ERROR 状態のままです。

  • PowerHA SystemMirror は、 hacmp.outにリソース・グループの獲得の失敗 (コマンドによって返されたゼロ以外の終了コードによって示される失敗) を報告しました。 この情報は、各メイン・イベントの詳細の後に続くイベント要約に表示されます。

    イベント要約を利用すると、hacmp.out ファイルで簡単にエラーを確認できます。 問題が存在するときに、config_too_long コンソール・メッセージでは分かりにくい場合があるので、このログを確認することがより重要となります。

    config_too_long イベントは、クラスター・イベントの完了に時間がかかりすぎる場合に必ず実行されます。 config_too_long イベントが実行される場合、それは、エラーが発生しているか、あるいはリカバリー操作が停止している可能性が あることを示しています。 config_too_long イベントに関する通知を構成することによって、オペレーターには、適切なアクションを とるように警報が出されます。