AWS 上の Red Hat OpenShift クラスター への GPU ワーカー・ノードの追加
始める前に
以下の要件があることを確認してください。
- GPU ワーカーノードがRed Hat® OpenShift®クラスターに追加されます。. 現在のAWS Maximo® Application SuiteBYOL製品には、GPUを搭載したノードは含まれていません。
制御シェル。
制御シェルはブート・ノードにすることができます。 すべてのインスタンスのリストの後にある EC2 ダッシュボードでコントロール・シェルを見つけます。 ブート・ノードが停止状態の場合は、インスタンスを再始動します。 このインスタンスに EC2-userとして接続します。ヒント: Visual Studio Code を使用してブート・ノードにリモート接続できますが、これは必要ありません。ocjq適切な EC2 GPU インスタンスが選択されており、 Maximo Application Suite インスタンスがインストールされている地域で十分な可用性があります。
この情報は、 AWS コンソールの EC2 サービスの後にあるインスタンス・タイプ・ページから取得します。
例えば、 Maximo Application Suite インスタンスを
us-east-1領域にデプロイした場合は、 AWS Web サイトにナビゲートして、その領域の EC2 インスタンス・タイプ・ページに移動します。 「インスタンス・タイプ」ページには、コンピュート、ネットワーキング、ストレージ、アクセラレーター、および料金情報の詳細が表示されます。 ネットワーキング・セクションは、アベイラビリティー・ゾーンの詳細を示します。
このタスクについて
このタスクのプロセスについて詳しくは、以下を参照してください。
- AWS 推奨される GPU インスタンス
- 注: AWS は、GPU に付属の EC2 インスタンスを提供しています。 MVC の EC2 インスタンス・タイプとして
p3.2xlargeを使用します。 - AWS
- AWS
手順
次の作業
プロセスが正常に完了したこと、またはエラーが発生したことを確認するには、 openshift-machine-api 名前空間でコマンドを実行してください。
次に、コマンド oc create -f <machine set custom resource> を実行します (ステップ 12)。 出力は常に、マシンが作成されたことを示します。 ただし、マシンの作成中に障害が発生した場合、マシン・セットは準備ができておらず、使用できません。 oc get machine を実行すると、即時に障害を示すことができます。
oc get machine コマンドを実行します。 出力には、マシンがプロビジョンされたことが示されます。
名前フェーズ・タイプ領域ゾーン存続期間 masocp-qxkeml-wh7px-master-0 m5.2xlarge us-east-1 us-east-1a 18h の実行 masocp-qxkeml-wh7px-master-1 m5.2xlarge us-east-1 us-east-1b 18h を実行します。 masocp-qxkeml-wh7px-master-2 m5.2xlarge us-east-1 us-east-1c 18h を実行します。 masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd 失敗 4s masocp-qxkeml-wh7px-worker-gpu-us-east-1a-nhldx 失敗 20s masocp-qxkeml-wh7px-worker-us-east-1a-h2c8g m5.4xlarge us-east-1 us-east-1a 18h masocp-qxkeml-wh7px-worker-us-east-1a-p7mt9 m5.4xlarge us-east-1 us-east-1a 18h の実行 masocp-qxkeml-wh7px-worker-us-east-1b-4rlrq m5.4xlarge us-east-1 us-east-1b 18h masocp-qxkeml-wh7px-worker-us-east-1b-dhv6g m5.4xlarge us-east-1 us-east-1b 18h の実行 masocp-qxkeml-wh7px-worker-us-east-1c-ks85p m5.4xlarge us-east-1 us-east-1c 18h masocp-qxkeml-wh7px-workerocs-us-east-1a-9r6pj m5.4xlarge us-east-1 us-east-1a 17h masocp-qxkeml-wh7px-workerocs-us-east-1b-p9psl m5.4xlarge us-east-1 us-east-1b 17h masocp-qxkeml-wh7px-workerocs-us-east-1c-94d7q m5.4xlarge us-east-1 us-east-1c 17h を実行します。 |
oc describe machine <machine name> または oc describe machineset <machineset name> を実行し、 「状況」 または 「イベント」の後にリストされているエラー・メッセージを確認します。ステータス:
条件:
最終遷移時刻: 2022-05-26T15:20:25Z
メッセージ: インスタンスが作成されていません
理由:InstanceNotCreated
重大度: 警告
状況: False
タイプ: InstanceExists
エラー・メッセージ: インスタンスの起動中にエラーが発生しました。要求されたインスタンス・タイプ (p3.2xlarge) は、要求されたアベイラビリティー・ゾーン (us-east-1a) ではサポートされていません。 アベイラビリティー・ゾーンを指定しないか、 us-east-1b、 us-east-1c、 us-east-1d、 us-east-1fを選択して、要求を再試行してください。
エラーの理由: InvalidConfiguration
最終更新日: 2022-05-26T15:20:26Z
フェーズ: 失敗
プロバイダー状況:
条件:
最終プローブ時刻: 2022-05-26T15:20:26Z
最終遷移時刻: 2022-05-26T15:20:26Z
メッセージ: インスタンスの起動中にエラーが発生しました。要求されたインスタンス・タイプ (p3.2xlarge) は、要求されたアベイラビリティー・ゾーン (us-east-1a) ではサポートされていません。 アベイラビリティー・ゾーンを指定しないか、 us-east-1b、 us-east-1c、 us-east-1d、 us-east-1fを選択して、要求を再試行してください。
理由 MachineCreationFailed
状況: False
タイプ: MachineCreation
イベント:
Type Reason Age From Message
---- ------ ---- ---- -------
警告 FailedCreate 52s (x2 over 53s) awscontroller masocp-qxkeml-wh7px-worker-gpu-us-east-1a-5z7sd: リコンサイラーがマシンの作成に失敗しました: インスタンスの起動に失敗しました: インスタンスの起動中にエラーが発生しました: 要求されたインスタンス・タイプ (p3.2xlarge) は、要求されたアベイラビリティー・ゾーン (us-east-1a) ではサポートされていません。 アベイラビリティー・ゾーンを指定しないか、 us-east-1b、 us-east-1c、 us-east-1d、 us-east-1fを選択して、要求を再試行してください。
|
oc delete machineset <machineset name>
カスタム・リソースの availabilityZone 値を編集して、 oc
create -f <customresource.json>を再実行します。 ステップ 13にリストされているコマンドを使用して、マシン・セットおよびマシンの作成をモニターします。 その他のタイプのエラーの場合は、マシン・セットを削除し、カスタム・リソースを編集し、編集したカスタム・リソース JSON ファイルを使用してマシン・セットを再作成します。