RDMA による共用メモリー通信 (SMC-R) を使用すると、高信頼の接続キュー・ペア (RC QP) 間の RDMA over Converged Ethernet (RoCE) ファブリックを介した高速ピアツーピア接続が可能になります。SMC-R では、RC QP が SMC-R リンクとして定義され、SMC-R リンクは論理的に SMC-R リンク・グループにグループ化されます。詳しくは、SMC-R リンクおよびSMC-R リンク・グループを参照 してください。
SMC-R 通信には、各ホストに IBM® 10GbE RoCE Express® 機構が必要です。TCP 接続が動的および正常に SMC-R に切り替えられた後は、標準の TCP/IP 通信に戻ることはできません。このため、SMC-R でネットワークの高可用性を実現するには、冗長物理ネットワーク接続を用意することが重要です。
基礎をなす 10GbE RoCE Express インターフェースまたは関連ネットワーク・ハードウェアに障害が発生すると、z/OS® ホストは、障害が発生した 10GbE RoCE Express インターフェースを使用している SMC-R リンクから、リンク・グループ内の別の SMC-R リンクへ TCP 接続を透過的に移動する動的なフェイルオーバー処理を実行します。障害の発生時に、使用可能な別の SMC-R リンクがリンク・グループ内にないと、TCP 接続は失われます。リンク・グループ内に 2 つ目の冗長 SMC-R リンクを用意しておくには、2 つの 10GbE RoCE Expressインターフェースを定義してアクティブにする必要があります。
共用 RoCE 環境に冗長パスが存在するようにするには、ある特定の TCP/IP スタックで使用する各 PFID 値が、物理的に異なる 10GbE RoCE Express 機構を指すように接続を設計する必要があります。 2 つの 10GbE RoCE Express 機構は、別々の PCHID 値が構成されていれば、物理的に異なります。 共用 RoCE 環境で物理的に異なる 10GbE RoCE Express 機構を使用する方法の例については、図 1 を参照してください。
図 1 に示しているように、両方の SMC-R ピアに 2 つのアクティブな 10GbE RoCE Express インターフェースがある場合、TCP 接続はリンク間で分散されます。TCP 接続が特定の SMC-R リンクに割り当てられていると見なされている場合でも、TCP 接続データでは、いずれの SMC-R リンクも使用できます。
一方の SMC-R リンクが関与する障害が発生した場合、すべての TCP 接続が他方の SMC-R リンクに自動的に移動します。例えば、図 3 で示しているように、SMC-R リンク 2 に障害が発生すると、すべての接続が SMC-R リンク 1 に移動します。回復後に新規 SMC-R リンクが確立されると、新規 TCP/IP 接続は新規リンクに移動して、RoCE 物理リソースの使用状況のバランスが取られます。 既存の接続も新規リンクに移動することがあります。
図 1 および 図 3 には、RoCE スイッチは示されていませんが、冗長物理スイッチも存在するのが理想的です。
両方の SMC-R ピアに複数のアクティブな 10GbE RoCE Express インターフェースがない場合は、SMC-R リンク・グループは理想的なレベルの TCP 接続回復力を提供しません。図 4 は、一方のピア (サーバー・ホスト) には 2 つのアクティブな 10GbE RoCE Express インターフェースがあるが、他方のピア (クライアント・ホスト) には 1 つしかない構成の例です。この状態でもサーバーでは 2 つの SMC-R リンク (アクティブなインターフェースごとに 1 つ) が作成されるため、10GbE RoCE Express インターフェースに障害が発生した場合でも、サーバーは SMC-R リンク間で TCP 接続を移動できます。ところが、クライアントは、クライアントの 10GbE RoCE Express インターフェースに障害が発生した場合に、代替パスが存在しないので TCP 接続を移動できません。回復機能を提供できるのは 1 つのピアのみのため、この構成の冗長性は部分的なものとなります。
図 5 に示しているように、サーバーにもクライアントにも複数のアクティブな 10GbE RoCE Express インターフェースがない場合、SMC-R リンク・グループは単一の SMC-R リンクで構成されます。この構成で 10GbE RoCE Express インターフェースに障害が発生すると、TCP 接続は回復も移動もできないため、すべて失われます。このタイプの SMC-R リンクを単一リンクと呼び、構成に冗長機能はありません。
System z® では、PCIe ベースの 10GbE RoCE Express 機構向けに、冗長内部 PCIe ハードウェア・サポート・インフラストラクチャーも提供されます。わかりやすいように、System z 内部 PCIe インフラストラクチャーは、内部パス と呼ばれます。10GbE RoCE Express 機構の内部パスは、この機構が System z I/O ドロワーにどのように接続されているかによって決まります。System z で完全な 10GbE RoCE Express ハードウェア冗長性を確保するには、各機構に固有の内部パスが必要です。System z I/O ドロワー構成について詳しくは、IBM サービス担当員にお問い合わせください。
完全な高可用性ソリューションには、2 つの SMC-R ピア間の以下のセットアップが必要となります。
物理ネットワーク・トポロジーおよびリモート・アダプターへのリモート・システムの内部パス構成は、ローカル・スタックでは可視ではありません。z/OS Communications Server では、既知のローカル要因にのみ基づいた冗長性レベルを評価および報告できます。ローカル・スタックに、固有の内部パスを持つ 2 つの固有 10GbE RoCE Express 機構が設定されている場合は、2 つの冗長 SMC-R リンクを持つ SMC-R リンクが、完全な冗長性があると見なされます。
表 1 は、報告される冗長性レベルを各レベルの説明とともに示しています。ここに示している値は、Netstat DEVlinks/-d レポートで特定の SMC-R リンク・グループについて表示される値を表しています。Netstat DEvlinks/-d レポートの例は、「z/OS Communications Server: IP システム管理者のコマンド」を参照してください。
冗長性レベル | 冗長リンクのある SMC-R リンク・グループ | 固有の 10GbE RoCE Express 機構に固有の物理内部パスがある | 説明 |
---|---|---|---|
Full | はい | はい | 完全なローカル・ハードウェア冗長性 規則: ハードウェア冗長性を各ホストで検証する必要があります。リモート・ホストの内部パスは、ローカル・ホストに対しては可視ではないため、考慮されません。
|
部分的 (単一ローカル内部パス) | はい | いいえ | ローカル 10GbE RoCE Express 機構で、内部 System z PCIe アダプター・サポート・インフラストラクチャー (ハードウェア内部パス) が共用されます。このハードウェア構成では、単一障害点が提供されるため、完全な冗長性は保証できません。 |
部分的 (単一ローカル PCHID、固有ポート) | はい | いいえ | ローカル 10GbE RoCE Express 機構は、同じ PCHID を使用します。ただし、固有ポートです。 同じ PCHID を使用すると単一障害点が形成されるため、完全な冗長性は保証されません。 |
部分的 (単一ローカル PCHID およびポート) | はい | いいえ | ローカル 10GbE RoCE Express 機構は、同じ PCHID とポートを使用します。 同じ PCHID とポートを使用すると単一障害点が形成されるため、完全な冗長性は保証されません。 |
部分的 (単一ローカル RNIC) | いいえ | N/A | リンク・グループのローカル・ホストには単一のアクティブな機構のみがありますが、リモート・ホストでは複数のアクティブな機構を使用できます。 |
部分的 (単一リモート RNIC) | いいえ | N/A | リンク・グループのリモート・ホストには単一のアクティブな機構のみがありますが、ローカル・ホストには複数のアクティブな機構があります。 |
なし (単一ローカルおよびリモート RNIC) | いいえ | N/A | リンク・グループのローカル・ホストとリモート・ホストの両方に、単一のアクティブな機構のみがあります。 |
物理ネットワーク ID が同じであることから SMC-R 対応インターフェースに関連付けられている 10GbE RoCE Express インターフェースを関連 RNIC インターフェース と呼びます。同一の物理ネットワーク ID に 3 つ以上の 10GbE RoCE Express インターフェースを定義できますが、TCP/IP スタックでは、特定の時点で 2 つ以下の関連 RNIC インターフェースを使用する SMC-R リンク・グループが作成されます。10GbE RoCE Express インターフェースは、以下の特性すべてを満たす IPAQENET インターフェースおよび IPAQENET6 インターフェースの場合に、関連 RNIC インターフェースと見なされます。
関連 RNIC インターフェースは、Netstat DEvlinks/-d OSD レポートに表示されます。Netstat DEvlinks/-d レポートの例は、「z/OS Communications Server: IP システム管理者のコマンド」を参照してください。
PNet ID が一致する追加の 10GbE RoCE Express インターフェースはすべて開始されますが、それらのインターフェースが追加リンク・レベルのロード・バランシングを目的として使用されることはありません。代わりに、関連 RNIC インターフェースのいずれかに障害が発生したときに使用できるよう、追加の 10GbE RoCE Express インターフェースが予約されます。
例えば、図 3 では、サーバー・ホスト上の 10GbE RoCE Express インターフェース 2 (図では PFID2) に障害が発生した場合、インターフェース 2 経由の SMC-R リンク 2 を使用していた TCP 接続は、SMC-R リンク 1 に切り替えられます。SMC-R リンク 1 のみがアクティブなため、SMC-R リンク・グループはその完全リンク冗長性レベルを失います。ただし、別の 10GbE RoCE Express インターフェース (PFID 5 とします) がサーバー・ホストでアクティブになっており、PFID 5 の PNet ID 値が PFID 1 および PFID 2 と同じ場合は、サーバーではクライアント・ホストへの PFID 5 経由の新規 SMC-R リンクをすぐにアクティブ化して、完全なリンク冗長性を再確立できます。PFID 5 と PFID 1 に固有の物理パスがあれば、完全な冗長性も復元されます。この新規 SMC-R リンクは、リンク・グループ内の TCP 接続に使用されます。PFID 2 が回復すると、スタンバイ PFID として機能し、PFID 1 または PFID 5 に障害が発生した場合に使用できます。
10GbE RoCE Express 機構のアップグレードをスケジュールしている場合など、計画停止の場合には、追加の PFID を使用することもできます。