Active-Active IBM Spectrum Scale デプロイメントの構成
IBM Spectrum Scale 1 次インスタンスをデプロイし、デプロイ済みの IBM Spectrum Scale ミラー・インスタンスと IBM Spectrum Scale タイブレーカー・インスタンスを接続すると、可用性の高い Active-Active IBM Spectrum Scale 構成を作成できます。
このタスクについて
failureDetectionTime パラメーターおよび leaseRecoveryWait パラメーターの設定によっては、この期間にファイル・システムに接続を試みるクライアントにタイムアウトが設定される可能性があります。 タイムアウトは、最長で failureDetectionTime + leaseRecoveryWait になります。 これらのパラメーターの値を検索するには、いずれかの IBM Spectrum Scale サーバー・ノードに以下のコマンドをコマンド行から実行してください。su - gpfsprod -c '/usr/lpp/mmfs/bin/mmlsconfig leaseRecoveryWait'
su - gpfsprod -c '/usr/lpp/mmfs/bin/mmlsconfig failureDetectionTime'「クラスター状況の取得」操作を実行して、これらのプロパティーの値をリストします。leaseRecoveryWait および failureDetectionTime の最小許容値は 10 秒で、デフォルトは 35 秒です。 低い値に設定すると、クラスター内のノードがダウンしたときにデータ破損が生じるおそれがあるため、これらのプロパティーの更新は慎重に行ってください。 これらの値を更新する前に IBM Spectrum Scale サービス・チームに問い合わせたり IBM Spectrum Scale の資料を読んだりして、更新の影響を理解してください。su - gpfsprod -c 'sudo /usr/lpp/mmfs/bin/mmchmgr -c nodeIP' (nodeIP をクラスター・マネージャーにする場合)。
su - gpfsprod -c 'sudo /usr/lpp/mmfs/bin/mmchmgr fileSystemName nodeIP' は、 fileSystemNameの nodeIP マネージャーになります。
- Active-Active 構成の一部。アクティブな「ミラー」レプリカを利用する IBM Spectrum Scale の同期複製を使用する。または
- IBM Spectrum Scale パッシブ・サイドでテークオーバーの準備ができた状態で、Active-Passive 複製の一部であり、ボリューム複製を使用します。
以下の手順は、アクティブ/アクティブ IBM Spectrum Scale デプロイメントを高可用性用に構成するために実行できる一般的なステップを示しています。 この構成では、IBM Spectrum Scale 1 次インスタンスは 1 つのラック (1 次ラック と呼ばれる) にデプロイされるのに対し、IBM Spectrum Scale ミラー・インスタンスと IBM Spectrum Scale タイブレーカー・インスタンスは、別々の場所 (可能な場合) にある別個のラック (ミラー・ラック およびタイブレーカー・ラック と呼ばれる) にそれぞれデプロイされます。 一般に、このタイプの構成は、データ転送における待ち時間の問題を避けるため、地理的な距離が 300 km 未満の場合にのみサポートされます。
IBM Cloud Pak® 製品が ( Cloud Pak ソフトウェア または Cloud Pak System Softwareのいずれかで) 異なるデータ・センターにインストールされているか、単一データ・センターの異なるゾーンにインストールされている 3 つのシステムがある場合は、これらの 3 つの IBM Spectrum Scale サーバー構成をそれぞれ別個のシステムにデプロイする必要があります。
IBM Spectrum Scale タイブレーカー構成をデプロイする代わりに、 IBM Cloud Pak 製品がインストールされている 2 つのシステムがある場合は、以下のようにします。 外部タイブレーカー・ノードを別のシステムにインストールし、その別のノードを IBM Spectrum Scale クラスターに接続することができます。 代わりにこの外部タイブレーカー・ノードを設定する方法について詳しくは、関連リンクを参照してください。
IBM Spectrum Scale タイブレーカー構成をデプロイすることを選択し、 IBM Cloud Pak 製品がインストールされている 2 つのシステムに制限されている場合は、以下のようになります。 IBM Spectrum Scale タイブレーカー構成は、1 次構成またはミラー構成のいずれかと同じシステム上に配置できます。 可用性を最大にするには、計算ノードを共有しない個別クラウド・グループに各構成を割り当てます。 このセットアップでは、1 次ノードまたはミラー・ノードと同じ計算ノードにタイブレーカー・ノードは存在せず、いずれか 1 つの計算ノードで障害が発生しても、他の 2 つの IBM Spectrum Scale インスタンスは同時にダウンしません。
追加の考慮事項として、 IBM Spectrum Scale タイブレーカー構成を 1 次構成またはミラー構成のいずれかと同じシステムに配置する際に、 IBM Cloud Pak 製品がインストールされている 1 つのシステムが他のシステムより大きい場合は、以下のようになります。 IBM Spectrum Scale 1 次構成とタイブレーカー構成は最大のシステム上に配置し、 IBM Spectrum Scale ミラー構成は最大のシステム上に配置することを選択できます。
手順
結果
この手順により、ミラー構成とタイブレーカー構成が 1 次構成に接続され、Active-Active 環境が作成されます。
次のタスク
IBM Spectrum Scale の IBM® 共有サービス のインスタンスをまだデプロイしていない場合はデプロイし、新しいクラスターを使用するように構成することができます。 IBM Spectrum Scale パターン V1.2.5.0以降では、 IBM Spectrum Scale 共有サービスを使用する代わりに、 クライアントは、デプロイメント時に IBM Spectrum Scale サーバー接続情報を直接提供できます。
IBM Spectrum Scale クライアント・ポリシー (または代替となる IBM Spectrum Scale クライアント ・スクリプト・パッケージ) を含むその他のワークロード・パターンをデプロイします。 これで、これらのワークロードは、IBM Spectrum Scale クラスターで使用可能なボリュームにアクセスできるようになります。
フェイルオーバー状態が発生した場合、問題の性質によっては、いくつかの方法でリカバリーできる可能性があります。 一般に、1 次構成またはミラー構成で障害が発生した場合は、IBM Spectrum Scale クラスターをリカバリーできる可能性があります。 1 次構成またはミラー構成で障害が発生し、タイブレーク構成で障害が発生した場合、IBM Spectrum Scale クラスターは機能しなくなります。
- 存続している 1 次構成またはミラー構成で、「単一ラックにする」操作を実行できます。
- 障害が発生した構成での問題を修正したら、「複製されるクラスターにする」操作を実行できます。
- 存続しているインスタンスで「メンバーの削除」操作を実行し、障害が発生したインスタンスを指定してそのインスタンスをクラスターから削除することができます。 例えば、障害が発生したインスタンスがミラー・インスタンスの場合、「メンバーの削除」操作を実行し、「ミラー」オプションを選択します。 1 次構成を削除する必要がある場合、「メンバーの削除」操作を実行し、「1 次」オプションを選択します。 操作が正常に終了するまで待機します。 「クラスター状況の取得」操作を実行して、障害が発生したインスタンスのノードおよびディスクがクラスターの一部になっていないことを確認します。
- 前のステップで削除したインスタンスがまだ実行されている場合、接続されているボリュームを再使用できるようにするために、そのインスタンスを削除します。
- 前のステップで削除したインスタンスと同じタイプの新規インスタンスをデプロイします。 可能な場合は、削除したインスタンスが使用していた同じボリュームを再接続します。 これらのボリュームが使用不可の場合、つまり、ボリュームが正常ではない場合、または新規インスタンスを削除したインスタンスとは異なるクラウド・グループまたはラックにデプロイした場合、新規ボリュームを使用してかまいません。
- 「メンバーの追加 (Add Member)」操作を使用して、存続する 1 次インスタンスまたはミラー・インスタンスに新規インスタンスを追加します。
- 存続するインスタンスで複数のファイル・システムが使用可能の場合、新規デプロイメントでこれらのすべてのファイル・システムにボリュームを追加します。注: 新規ノードを使用してクラスターを拡張する場合、ミラー・インスタンスまたはタイブレーク・インスタンスを 1 次インスタンスに接続すると、1 次ボリューム上のデータが保持されます。 また、既存のクラスターからメンバーを削除する場合、少なくとも 1 つのミラー・インスタンスまたは 1 次インスタンスが実行されていれば、データは保持されます。 クラスターを拡張する場合、既存のクライアントの機能停止はありません。 クラスターからメンバーを削除する場合、操作が完了するまで一時的な機能停止が発生する場合があります。
クラスター・メンバーのサーバーやディスクが (保守または手操作による介入のために) 停止した場合は、「失われた接続の回復」操作を実行することで、そのメンバーのディスクやサーバーを再始動できます。