計画外のマルチノード再始動または障害からのストレージ・クラスターのリカバリー

ストレージ・ノードが再始動されると、 IBM Storage Scale ファイル・システムのサービスがハングする可能性があります。

ストレージ・ノードが予期せずに再始動され、ストレージ・クラスター内のディスクが失われる可能性があります。 欠落しているディスクが、ストレージ・クラスターで使用されているフォールト・トレランス RAID コードを超える場合、サービスを提供するためにファイル・システムが停止する可能性があります。 失われたノードのログ・リカバリー・プロセスを完了できません。 また、再始動ノードをブロックしてクラスターに再度参加させることもできます。

フォールト・トレランスから IBM Spectrum ® Storage Scale Erasure Code Edition (ECE) をリカバリーするには、以下の手順に従います。
注: IBM Storage Scale Erasure Code Edition (ECE) 環境におけるフォールト・トレランスの不足は、さまざまな理由により発生する可能性があります。
  1. 問題を識別します。
    1. アプリケーションの実行中のノードで mmfsadm dump waiters コマンドを実行します。 入出力スレッドの長いウェイターを表示します。
    2. mmgetstate コマンドを実行します。 これは、アービトレーション状態の再始動ノードと、アクティブ状態の他の再始動ノードを表示します。
    3. tslsrecgroup rg_1 --server --v2 コマンドを複数回実行します。 ログ・グループがノード間をジャンプすることが表示されます。
    4. すべてのストレージ・ノード上の mmfs.log ファイルを確認します。 ログ・メッセージは、さまざまなノードでループして表示されます。 以下のメッセージを参照してください。
      [E] リカバリー・グループ rg1 内のログ・グループ LG002 の再署名を開始しています ....
      これは、ユーザー・ログ・グループが引き続き辞任することを意味します。
  2. リカバリー・プロセスを開始します。
    1. mmlscluster コマンドを実行して、すべてのクォーラム・ノードを検出します。
    2. すべてのクォーラム・ノードで mmshutdown コマンドを実行します。 このアクションにより、すべてのノードがファイル・システムからアンマウントされます。
    3. すべてのクォーラム・ノードで mmstartup コマンドを実行します。
    4. mmlsrecoverygroup rg1 -L --pdisk を実行して、リカバリー・グループが再度アクティブになっているかどうか、および欠落している pdisk が存在しないことを確認します。
    5. すべてのクライアント・ノードにファイル・システムを再度マウントし、アプリケーションを再始動してください。