高可用性に関する考慮事項

RDMA による共用メモリー通信 (SMC-R) を使用すると、高信頼の接続キュー・ペア (RC QP) 間の RDMA over Converged Ethernet (RoCE) ファブリックを介した高速ピアツーピア接続が可能になります。SMC-R では、RC QP が SMC-R リンクとして定義され、SMC-R リンクは論理的に SMC-R リンク・グループにグループ化されます。詳しくは、SMC-R リンクおよびSMC-R リンク・グループを参照 してください。

SMC-R 通信には、各ホストに IBM® 10GbE RoCE Express® 機構が必要です。TCP 接続が動的および正常に SMC-R に切り替えられた後は、標準の TCP/IP 通信に戻ることはできません。このため、SMC-R でネットワークの高可用性を実現するには、冗長物理ネットワーク接続を用意することが重要です。

基礎をなす 10GbE RoCE Express インターフェースまたは関連ネットワーク・ハードウェアに障害が発生すると、z/OS® ホストは、障害が発生した 10GbE RoCE Express インターフェースを使用している SMC-R リンクから、リンク・グループ内の別の SMC-R リンクへ TCP 接続を透過的に移動する動的なフェイルオーバー処理を実行します。障害の発生時に、使用可能な別の SMC-R リンクがリンク・グループ内にないと、TCP 接続は失われます。リンク・グループ内に 2 つ目の冗長 SMC-R リンクを用意しておくには、2 つの 10GbE RoCE Expressインターフェースを定義してアクティブにする必要があります。

図 1. SMC-R リンク・グループ内の冗長 SMC-R リンク
この図について、以下の段落で説明します。
10GbE RoCE Express インターフェースが共用 RoCE 環境で動作する場合、SMC-R リンクに関連付けられた 10GbE RoCE Express インターフェースが物理的に同じ 10GbE RoCE Express 機構を使用していても、SMC-R リンク・グループは冗長と見なすことができます。
図 2. 共用 RoCE 環境での誤った完全冗長性構成
この図について、以下の段落で説明します。
例えば 図 2 では、z/OS 2 に複数の PFID 値が定義されていますが、それらの PFID 値は同じ 10GbE RoCE Express 機構の異なるポートを指しています。 この構成で、SMC-R を使用する TCP 接続が確立されると、2 つの SMC-R リンクを含む SMC-R リンク・グループが作成されます。 2 つの SMC-R リンクによって、この SMC-R リンク・グループには完全な冗長性があるように見えますが、この 10GbE RoCE Express 機構に障害が発生すると、両方の PFID とすべての関連インターフェースに障害が起こります。 これにより、SMC-R リンク・グループ内の両方の SMC-R リンクに障害が発生します。 結果として、動的フェイルオーバー処理は行われないため、それらの SMC-R リンクを使用する TCP 接続は失敗することになります。 このタイプの構成は、SMC-R リンク・グループに関する Netstat Devlinks/-d レポート内に「Partial (single local PCHID, unique ports)」という値で示されます。 詳しくは、「冗長性レベル」を参照してください。

共用 RoCE 環境に冗長パスが存在するようにするには、ある特定の TCP/IP スタックで使用する各 PFID 値が、物理的に異なる 10GbE RoCE Express 機構を指すように接続を設計する必要があります。 2 つの 10GbE RoCE Express 機構は、別々の PCHID 値が構成されていれば、物理的に異なります。 共用 RoCE 環境で物理的に異なる 10GbE RoCE Express 機構を使用する方法の例については、図 1 を参照してください。

図 1 に示しているように、両方の SMC-R ピアに 2 つのアクティブな 10GbE RoCE Express インターフェースがある場合、TCP 接続はリンク間で分散されます。TCP 接続が特定の SMC-R リンクに割り当てられていると見なされている場合でも、TCP 接続データでは、いずれの SMC-R リンクも使用できます。

一方の SMC-R リンクが関与する障害が発生した場合、すべての TCP 接続が他方の SMC-R リンクに自動的に移動します。例えば、図 3 で示しているように、SMC-R リンク 2 に障害が発生すると、すべての接続が SMC-R リンク 1 に移動します。回復後に新規 SMC-R リンクが確立されると、新規 TCP/IP 接続は新規リンクに移動して、RoCE 物理リソースの使用状況のバランスが取られます。 既存の接続も新規リンクに移動することがあります。

図 3. SMC-R リンク・グループ内のフェイルオーバー処理
この図については、前の段落で説明しています。

図 1 および 図 3 には、RoCE スイッチは示されていませんが、冗長物理スイッチも存在するのが理想的です。

両方の SMC-R ピアに複数のアクティブな 10GbE RoCE Express インターフェースがない場合は、SMC-R リンク・グループは理想的なレベルの TCP 接続回復力を提供しません。図 4 は、一方のピア (サーバー・ホスト) には 2 つのアクティブな 10GbE RoCE Express インターフェースがあるが、他方のピア (クライアント・ホスト) には 1 つしかない構成の例です。この状態でもサーバーでは 2 つの SMC-R リンク (アクティブなインターフェースごとに 1 つ) が作成されるため、10GbE RoCE Express インターフェースに障害が発生した場合でも、サーバーは SMC-R リンク間で TCP 接続を移動できます。ところが、クライアントは、クライアントの 10GbE RoCE Express インターフェースに障害が発生した場合に、代替パスが存在しないので TCP 接続を移動できません。回復機能を提供できるのは 1 つのピアのみのため、この構成の冗長性は部分的なものとなります。

図 4. 部分的に冗長性のある SMC-R リンク
この図については、前の段落で説明しています。

図 5 に示しているように、サーバーにもクライアントにも複数のアクティブな 10GbE RoCE Express インターフェースがない場合、SMC-R リンク・グループは単一の SMC-R リンクで構成されます。この構成で 10GbE RoCE Express インターフェースに障害が発生すると、TCP 接続は回復も移動もできないため、すべて失われます。このタイプの SMC-R リンクを単一リンクと呼び、構成に冗長機能はありません。

図 5. 冗長リンクのない SMC-R リンク・グループ
この図については、前の段落で説明しています。

冗長性レベル

System z® では、PCIe ベースの 10GbE RoCE Express 機構向けに、冗長内部 PCIe ハードウェア・サポート・インフラストラクチャーも提供されます。わかりやすいように、System z 内部 PCIe インフラストラクチャーは、内部パス と呼ばれます。10GbE RoCE Express 機構の内部パスは、この機構が System z I/O ドロワーにどのように接続されているかによって決まります。System z で完全な 10GbE RoCE Express ハードウェア冗長性を確保するには、各機構に固有の内部パスが必要です。System z I/O ドロワー構成について詳しくは、IBM サービス担当員にお問い合わせください。

完全な高可用性ソリューションには、2 つの SMC-R ピア間の以下のセットアップが必要となります。

物理ネットワーク・トポロジーおよびリモート・アダプターへのリモート・システムの内部パス構成は、ローカル・スタックでは可視ではありません。z/OS Communications Server では、既知のローカル要因にのみ基づいた冗長性レベルを評価および報告できます。ローカル・スタックに、固有の内部パスを持つ 2 つの固有 10GbE RoCE Express 機構が設定されている場合は、2 つの冗長 SMC-R リンクを持つ SMC-R リンクが、完全な冗長性があると見なされます。

表 1 は、報告される冗長性レベルを各レベルの説明とともに示しています。ここに示している値は、Netstat DEVlinks/-d レポートで特定の SMC-R リンク・グループについて表示される値を表しています。Netstat DEvlinks/-d レポートの例は、「z/OS Communications Server: IP システム管理者のコマンド」を参照してください。

表 1. 冗長性レベル
冗長性レベル 冗長リンクのある SMC-R リンク・グループ 固有の 10GbE RoCE Express 機構に固有の物理内部パスがある 説明
Full はい はい 完全なローカル・ハードウェア冗長性
規則: ハードウェア冗長性を各ホストで検証する必要があります。リモート・ホストの内部パスは、ローカル・ホストに対しては可視ではないため、考慮されません。
部分的 (単一ローカル内部パス) はい いいえ ローカル 10GbE RoCE Express 機構で、内部 System z PCIe アダプター・サポート・インフラストラクチャー (ハードウェア内部パス) が共用されます。このハードウェア構成では、単一障害点が提供されるため、完全な冗長性は保証できません。
部分的 (単一ローカル PCHID、固有ポート) はい いいえ ローカル 10GbE RoCE Express 機構は、同じ PCHID を使用します。ただし、固有ポートです。 同じ PCHID を使用すると単一障害点が形成されるため、完全な冗長性は保証されません。
部分的 (単一ローカル PCHID およびポート) はい いいえ ローカル 10GbE RoCE Express 機構は、同じ PCHID とポートを使用します。 同じ PCHID とポートを使用すると単一障害点が形成されるため、完全な冗長性は保証されません。
部分的 (単一ローカル RNIC) いいえ N/A リンク・グループのローカル・ホストには単一のアクティブな機構のみがありますが、リモート・ホストでは複数のアクティブな機構を使用できます。
部分的 (単一リモート RNIC) いいえ N/A リンク・グループのリモート・ホストには単一のアクティブな機構のみがありますが、ローカル・ホストには複数のアクティブな機構があります。
なし (単一ローカルおよびリモート RNIC) いいえ N/A リンク・グループのローカル・ホストとリモート・ホストの両方に、単一のアクティブな機構のみがあります。

物理ネットワーク ID が同じであることから SMC-R 対応インターフェースに関連付けられている 10GbE RoCE Express インターフェースを関連 RNIC インターフェース と呼びます。同一の物理ネットワーク ID に 3 つ以上の 10GbE RoCE Express インターフェースを定義できますが、TCP/IP スタックでは、特定の時点で 2 つ以下の関連 RNIC インターフェースを使用する SMC-R リンク・グループが作成されます。10GbE RoCE Express インターフェースは、以下の特性すべてを満たす IPAQENET インターフェースおよび IPAQENET6 インターフェースの場合に、関連 RNIC インターフェースと見なされます。

関連 RNIC インターフェースは、Netstat DEvlinks/-d OSD レポートに表示されます。Netstat DEvlinks/-d レポートの例は、「z/OS Communications Server: IP システム管理者のコマンド」を参照してください。

PNet ID が一致する追加の 10GbE RoCE Express インターフェースはすべて開始されますが、それらのインターフェースが追加リンク・レベルのロード・バランシングを目的として使用されることはありません。代わりに、関連 RNIC インターフェースのいずれかに障害が発生したときに使用できるよう、追加の 10GbE RoCE Express インターフェースが予約されます。

例えば、図 3 では、サーバー・ホスト上の 10GbE RoCE Express インターフェース 2 (図では PFID2) に障害が発生した場合、インターフェース 2 経由の SMC-R リンク 2 を使用していた TCP 接続は、SMC-R リンク 1 に切り替えられます。SMC-R リンク 1 のみがアクティブなため、SMC-R リンク・グループはその完全リンク冗長性レベルを失います。ただし、別の 10GbE RoCE Express インターフェース (PFID 5 とします) がサーバー・ホストでアクティブになっており、PFID 5 の PNet ID 値が PFID 1 および PFID 2 と同じ場合は、サーバーではクライアント・ホストへの PFID 5 経由の新規 SMC-R リンクをすぐにアクティブ化して、完全なリンク冗長性を再確立できます。PFID 5 と PFID 1 に固有の物理パスがあれば、完全な冗長性も復元されます。この新規 SMC-R リンクは、リンク・グループ内の TCP 接続に使用されます。PFID 2 が回復すると、スタンバイ PFID として機能し、PFID 1 または PFID 5 に障害が発生した場合に使用できます。

10GbE RoCE Express 機構のアップグレードをスケジュールしている場合など、計画停止の場合には、追加の PFID を使用することもできます。