Red Hat® OpenShift での MIG サポートの構成

OpenShift® クラスター内に Nvidia マルチインスタンス GPU (MIG) を構成できます。

MIG サポートを構成するには、 MIG サポートを構成するための公式の Nvidia ガイドに従ってください。

重要:

IBM® watsonx.ai がインストールされている、またはインストールされる予定のクラスターでは、マルチインスタンス GPU サポートを構成しないでください。
再構成中は、ノード上でワークロードを実行しないでください。これを行うと、構成プロセスは失敗します。

ノードに MIG プロファイルを割り当てるには、次のコマンドを使用して、そのプロファイルにラベルを付けます。

oc label nodes node1 nvidia.com/mig.config=all-1g.10gb --overwrite=true

注: ご使用の GPU でサポートされる MIG プロファイルのリストについては、GPU オペレーター名前空間の mig-parted-config 構成マップを参照してください。

標準セットアップでは、 Cloud Pak for Data クラスター全体で単一の MIG プロファイルを使用するため、カスタム・ランタイム定義を構成する必要はありません。標準セットアップを使用するには、すべてのノードに同じ MIG プロファイルのラベルを付けます。

その結果、ユーザーは GPU ランタイムを開始し、単一の GPU を選択して MIG デバイスを割り当てることができます。

注: 1 つのランタイムに複数の MIG デバイスを割り当てることは推奨されません。これは、機械学習モデルのトレーニングなどのタスクは、分散方式では簡単に実行できないためです (MIG デバイスは、設計上、分離されたエンティティーです)。ユース・ケースで複数の MIG 装置をランタイムに割り当てる必要がある場合は、クラスター内での複数の MIG プロファイルの構成を参照してください。

クラスター内の複数の MIG プロファイルの構成

異なる MIG プロファイルを有効にするには、各ワーカー・ノードに異なるプロファイルを割り当ててから、新しいカスタム・ランタイム定義を作成します。

新規カスタム・ランタイム定義を作成するには、以下の手順を

GPU ランタイムのランタイム定義 (例えば、 jupyter-231n-pygpu) をダウンロードします。「ランタイム構成のダウンロード」を参照してください。

ランタイム定義内に、新しく作成した MIG プロファイルを指定する nodeAffinity プロパティーを追加します。

"nodeAffinity": {  "requiredDuringSchedulingIgnoredDuringExecution": {
    "nodeSelectorTerms": [
        {
        "matchExpressions": [
            {
            "key": "nvidia.com/mig.config",
            "operator": "In",
            "values": ["all-1g.10g"]
            }
        ]
        }
    ]
    }
}

カスタム構成のアップロードの説明に従って、カスタム・ランタイム定義をアップロードします。
MIG サポートを提供しない他の GPU がクラスターに含まれている場合は、これらのノードにテイントを適用して、容認を含むカスタム・ランタイム定義を処理する必要があります。テイントと容認について詳しくは、テイントと容認を参照してください。
以下に、容認の例を示します。
```
"tolerations": [
  {
    "key": "DontSchedule",
    "operator": "Exists",
    "effect": "NoExecute"
  }
]
```
これにより、単一の MIG デバイスの代わりに完全な GPU を誤って選択することがなくなります。
他のワークロードが MIG ノードにスケジュールされないようにするには、このノードにもテイントを適用し、ランタイム定義に容認を追加します。

カスタム・ランタイム定義がアップロードされた後、ユーザーはプロジェクト内に新しい環境を作成し、特定の MIG プロファイルを提供するノードを選択できます。