Red Hat® OpenShift での MIG サポートの構成
OpenShift® クラスター内に Nvidia マルチインスタンス GPU (MIG) を構成できます。
MIG サポートを構成するには、 MIG サポートを構成するための公式の Nvidia ガイドに従ってください。
重要:
- IBM® watsonx.ai がインストールされている、またはインストールされる予定のクラスターでは、マルチインスタンス GPU サポートを構成しないでください。
- 再構成中は、ノード上でワークロードを実行しないでください。 これを行うと、構成プロセスは失敗します。
ノードに MIG プロファイルを割り当てるには、次のコマンドを使用して、そのプロファイルにラベルを付けます。
oc label nodes node1 nvidia.com/mig.config=all-1g.10gb --overwrite=true
注: ご使用の GPU でサポートされる MIG プロファイルのリストについては、GPU オペレーター名前空間の
mig-parted-config
構成マップを参照してください。標準セットアップでは、 Cloud Pak for Data クラスター全体で単一の MIG プロファイルを使用するため、カスタム・ランタイム定義を構成する必要はありません。 標準セットアップを使用するには、すべてのノードに同じ MIG プロファイルのラベルを付けます。
その結果、ユーザーは GPU ランタイムを開始し、単一の GPU を選択して MIG デバイスを割り当てることができます。
注: 1 つのランタイムに複数の MIG デバイスを割り当てることは推奨されません。 これは、機械学習モデルのトレーニングなどのタスクは、分散方式では簡単に実行できないためです (MIG デバイスは、設計上、分離されたエンティティーです)。 ユース・ケースで複数の MIG 装置をランタイムに割り当てる必要がある場合は、 クラスター内での複数の MIG プロファイルの構成を参照してください。
クラスター内の複数の MIG プロファイルの構成
異なる MIG プロファイルを有効にするには、各ワーカー・ノードに異なるプロファイルを割り当ててから、新しいカスタム・ランタイム定義を作成します。
新規カスタム・ランタイム定義を作成するには、以下の手順を
- GPU ランタイムのランタイム定義 (例えば、
jupyter-231n-pygpu
) をダウンロードします。 「 ランタイム構成のダウンロード」を参照してください。 - ランタイム定義内に、新しく作成した MIG プロファイルを指定する
nodeAffinity
プロパティーを追加します。"nodeAffinity": { "requiredDuringSchedulingIgnoredDuringExecution": { "nodeSelectorTerms": [ { "matchExpressions": [ { "key": "nvidia.com/mig.config", "operator": "In", "values": ["all-1g.10g"] } ] } ] } }
- カスタム構成のアップロードの説明に従って、カスタム・ランタイム定義をアップロードします。
- MIG サポートを提供しない他の GPU がクラスターに含まれている場合は、これらのノードにテイントを適用して、容認を含むカスタム・ランタイム定義を処理する必要があります。 テイントと容認について詳しくは、 テイントと容認を参照してください。以下に、容認の例を示します。
これにより、単一の MIG デバイスの代わりに完全な GPU を誤って選択することがなくなります。"tolerations": [ { "key": "DontSchedule", "operator": "Exists", "effect": "NoExecute" } ]
他のワークロードが MIG ノードにスケジュールされないようにするには、このノードにもテイントを適用し、ランタイム定義に容認を追加します。
カスタム・ランタイム定義がアップロードされた後、ユーザーはプロジェクト内に新しい環境を作成し、特定の MIG プロファイルを提供するノードを選択できます。