Network Manager コア・プロセスのフェイルオーバーの追跡

いくつかのアクションとチェックを実行して、 Network Manager コア・プロセスのフェイルオーバーが期待どおりに動作しているかどうかを確認できます。

開始時のフェイルオーバーの追跡

プライマリー・ドメインがアクティブ・ドメインとして稼働を開始するようにするため、バックアップ・ドメインを開始する前に、プライマリー・ドメインとその仮想ドメイン・プロセスを開始します。 プライマリー仮想ドメイン・プロセスの開始前にバックアップ・ドメインが開始される場合、このバックアップ・ドメインがアクティブになり、ネットワークのポーリングを開始し、プライマリー・ドメインに関する正常性検査問題イベントを生成する可能性があります。 ただしこの問題は、プライマリー仮想ドメインが開始し、正常性検査イベントがドメイン間で送信されると自動的に解決されます。

開始時に、トポロジーとポリシーはプライマリー・ドメインからバックアップ・ドメインにコピーされます。 ただしバックアップ・ドメインは、そのトポロジーの初期化が完了するまでは (フェイルオーバー時に) アクティブになることはできません。 トポロジーが初期化されたことを検証するには、以下のようにします。
  • バックアップ・ドメインの $NCHOME/var/precision ディレクトリーにゼロ以外のサイズのトポロジー・キャッシュ・ファイル (Store.Cache.ncimCache.entityData.domain) があるかどうかを確認します。ここで、 domain は現行ドメインの名前です。
スタートアップのためのイベント生成 ItnmServiceState と ItnmFailoverConnection のネットワークマネージャー イベントをイベントビューアーで監視し、仮想ドメインプロセスが実行中であり、TCPソケット接続が確立されていることを確認します
  • ローカル ncp_virtualdomain プロセスが開始されるたびに、ncp_ctrl プロセスにより ItnmServiceState 解決イベントが生成されます。
  • 仮想ドメイン・プロセス間で TCP 接続が確立されると、ItnmFailoverConnection 解決イベントが生成されます。

システムが定常状態の場合のフェイルオーバーの追跡

通常の定常状態 フェイルオーバーは、プライマリー・ドメインおよびバックアップ・ドメインの仮想ドメイン・プロセスが開始し、接続した後でのみ動作可能となります。 定常状態の動作は、次のように定義されます。
  • プライマリー・ドメインがアクティブであり、唯一のドメインであるように稼働している。 ポーリング・プログラムによりモニターされているネットワークをディスカバリー・プロセスがディスカバーし、イベント・ゲートウェイによりイベントが強化されます。
  • バックアップ・ドメインがスタンバイ・モードである。 ディスカバリーは開始されず、ポーリング・プログラムはプライマリー・ドメインで構成されているポリシーを追跡し続けますが、デバイスのポーリングは実行しません。 また、イベント・ゲートウェイも ObjectServer のイベントを更新しません。
プロセスの状況を確認するには、各ドメインで OQL 照会を実行します。
  • ncp_ctrl プロセスのデータベースを照会することにより、個々の Network Manager プロセスの状況を確認できます。 問題なく実行されているすべてのプロセスの services.inTray データベース表に serviceState = 4 を設定して、サービスが 稼働中であることを示す必要があります。
  • ncp_poller プロセスと ncp_g_event プロセスにはそれぞれ config.failover データベース表が関連付けられています。このデータベース表は、これらのプロセスの現在のフェイルオーバー状態を示します。 定常状態で正常に実行されている場合、両方のドメインの config.failover OQL 表では、これらのプロセスに対して FailedOver = 0 が設定されます。 (仮想ドメイン・プロセスは、FailedOver フィールドを定期的に更新します。)
定常状態でのイベント生成: 各ドメインは、 $NCHOME/etc/precision/VirtualDomainSchema.cfg ファイル内のフィルターに基づいて、その状態に関するイベントを生成します。 このイベントは、m_HealthCheckInterval フィールドで構成されている間隔で生成されます。 ItnmHealthChk と ItnmDatabaseConnection のイベントイベントビューアで監視し、プライマリドメインとバックアップドメインが正常に動作しているかどうかを確認します
  • 各ドメインが正常な場合は、ItnmHealthChk 解決イベントが生成されます。
  • プライマリー NCIM データベースへの接続が失われた場合は、プライマリー・ドメインにより ItnmDatabaseConnection 問題イベントが生成されます。 VirtualDomainSchema.cfg ファイルの NCIM state.filters エントリーに対して定義されている時間間隔内に接続が再確立されないと、プライマリー・ドメインにより、プライマリー・ドメインに関する ItnmHealthChk 問題イベントが生成されます。
  • バックアップ・ドメインは、m_FailoverTime で構成されている時間間隔内にプライマリー・ドメインから ItnmHealthChk 解決イベントを受け取らなかった場合、プライマリー・ドメインの代わりに合成 ItnmHealthChk 問題イベントを生成します。

    プライマリー・ドメインまたはバックアップ・ドメインによってプライマリー・ドメインに関する ItnmHealthChk 問題イベントが生成されると、フェイルオーバーがトリガーされ、バックアップ・ドメインがアクティブになります。 プライマリー・ドメインがまだ実行中の場合は、プライマリー・ドメインはスタンバイ・モードになります。

    ヒント: ヘルス・チェック・イベントの場合、「ノード」フィールドは、ヘルス・チェック・イベントが生成されるドメインを識別します。 「要約」フィールドは、イベントを発生させるドメインと、イベント内容に関わるドメインを識別します。

フェイルオーバーおよびフェイルバックの追跡

フェイルオーバーが発生すると、バックアップ・ドメインがアクティブになり、バックアップ・ポーリング・プログラムがネットワークをモニターし、イベント・ゲートウェイが ObjectServer イベントを更新します。 ncp_poller および ncp_g_event プロセスの状況を確認するには、OQL 照会を実行します。 これらのプロセスにはそれぞれ、config.failover データベース表が関連付けられています。このデータベース表は、プロセスの現在のフェイルオーバー状態を示します。 バックアップ・ドメインがアクティブな場合、config.failover 表ではこれらのプロセスに対して FailedOver = 1 が設定されます。これは、プロセスがフェイルオーバー状態にあることを示します。 (プライマリー・ドメインがまだ稼働している場合は、関連プロセスにも値 FailedOver = 1 が割り当てられます。)

フェイルバックが発生すると、バックアップ・ドメインがスタンバイ・モードになり、プライマリー・ドメインが再びアクティブになります。 これはスタートアップと類似しています。

フェールオーバーとフェールバック時のイベント生成イベントビューアで ItnmHealthChk と ItnmFailover のネットワークマネージャー イベントを監視し、フェールオーバーとフェールバックの動作を確認します
  • プライマリー・ドメインに関する ItnmHealthChk 問題イベントは、フェイルオーバーがトリガーされたことを示します。 その後発生するプライマリー・ドメインに関する ItnmHealthChk 解決イベントは、フェイルバックがトリガーされたことを示します。
  • ItnmFailover イベントは、 Network Manager ドメインがいつフェイルオーバーまたはフェイルバックするかを示すために生成されます。 イベント記述により、ドメインがプライマリー・ドメインまたはバックアップ・ドメインのいずれであるか、およびドメインがアクティブになったのか、またはスタンバイ・モードになったのかが示されます。