計画外のマルチノード再始動または障害からのストレージ・クラスターのリカバリー
ストレージ・ノードが再始動されると、 IBM Storage Scale ファイル・システムのサービスがハングする可能性があります。
ストレージ・ノードが予期せずに再始動され、ストレージ・クラスター内のディスクが失われる可能性があります。 欠落しているディスクが、ストレージ・クラスターで使用されているフォールト・トレランス RAID コードを超える場合、サービスを提供するためにファイル・システムが停止する可能性があります。 失われたノードのログ・リカバリー・プロセスを完了できません。 また、再始動ノードをブロックしてクラスターに再度参加させることもできます。
フォールト・トレランスから IBM Spectrum ® Storage Scale Erasure Code Edition (ECE) をリカバリーするには、以下の手順に従います。
注: IBM Storage Scale Erasure Code Edition (ECE) 環境におけるフォールト・トレランスの不足は、さまざまな理由により発生する可能性があります。
- 問題を識別します。
- アプリケーションの実行中のノードで mmfsadm dump waiters コマンドを実行します。 入出力スレッドの長いウェイターを表示します。
- mmgetstate コマンドを実行します。 これは、アービトレーション状態の再始動ノードと、アクティブ状態の他の再始動ノードを表示します。
- tslsrecgroup rg_1 --server --v2 コマンドを複数回実行します。 ログ・グループがノード間をジャンプすることが表示されます。
- すべてのストレージ・ノード上の mmfs.log ファイルを確認します。 ログ・メッセージは、さまざまなノードでループして表示されます。 以下のメッセージを参照してください。
[E] リカバリー・グループ rg1 内のログ・グループ LG002 の再署名を開始しています ....
これは、ユーザー・ログ・グループが引き続き辞任することを意味します。
- リカバリー・プロセスを開始します。
- mmlscluster コマンドを実行して、すべてのクォーラム・ノードを検出します。
- すべてのクォーラム・ノードで mmshutdown コマンドを実行します。 このアクションにより、すべてのノードがファイル・システムからアンマウントされます。
- すべてのクォーラム・ノードで mmstartup コマンドを実行します。
- mmlsrecoverygroup rg1 -L
--pdisk を実行して、リカバリー・グループが再度アクティブになっているかどうか、および欠落している
pdiskが存在しないことを確認します。 - すべてのクライアント・ノードにファイル・システムを再度マウントし、アプリケーションを再始動してください。