Red Hat® OpenShift での MIG サポートの構成

OpenShift® クラスター内に Nvidia マルチインスタンス GPU (MIG) を構成できます。

MIG サポートを構成するには、 MIG サポートを構成するための公式の Nvidia ガイドに従ってください。
重要:
  • IBM® watsonx.ai がインストールされている、またはインストールされる予定のクラスターでは、マルチインスタンス GPU サポートを構成しないでください。
  • 再構成中は、ノード上でワークロードを実行しないでください。 これを行うと、構成プロセスは失敗します。
ノードに MIG プロファイルを割り当てるには、次のコマンドを使用して、そのプロファイルにラベルを付けます。
oc label nodes node1 nvidia.com/mig.config=all-1g.10gb --overwrite=true
注: ご使用の GPU でサポートされる MIG プロファイルのリストについては、GPU オペレーター名前空間の mig-parted-config 構成マップを参照してください。

標準セットアップでは、 Cloud Pak for Data クラスター全体で単一の MIG プロファイルを使用するため、カスタム・ランタイム定義を構成する必要はありません。 標準セットアップを使用するには、すべてのノードに同じ MIG プロファイルのラベルを付けます。

その結果、ユーザーは GPU ランタイムを開始し、単一の GPU を選択して MIG デバイスを割り当てることができます。
注: 1 つのランタイムに複数の MIG デバイスを割り当てることは推奨されません。 これは、機械学習モデルのトレーニングなどのタスクは、分散方式では簡単に実行できないためです (MIG デバイスは、設計上、分離されたエンティティーです)。 ユース・ケースで複数の MIG 装置をランタイムに割り当てる必要がある場合は、 クラスター内での複数の MIG プロファイルの構成を参照してください。

クラスター内の複数の MIG プロファイルの構成

異なる MIG プロファイルを有効にするには、各ワーカー・ノードに異なるプロファイルを割り当ててから、新しいカスタム・ランタイム定義を作成します。

新規カスタム・ランタイム定義を作成するには、以下の手順を
  1. GPU ランタイムのランタイム定義 (例えば、 jupyter-231n-pygpu) をダウンロードします。 「 ランタイム構成のダウンロード」を参照してください。
  2. ランタイム定義内に、新しく作成した MIG プロファイルを指定する nodeAffinity プロパティーを追加します。
    "nodeAffinity": {  "requiredDuringSchedulingIgnoredDuringExecution": {
        "nodeSelectorTerms": [
            {
            "matchExpressions": [
                {
                "key": "nvidia.com/mig.config",
                "operator": "In",
                "values": ["all-1g.10g"]
                }
            ]
            }
        ]
        }
    }
  3. カスタム構成のアップロードの説明に従って、カスタム・ランタイム定義をアップロードします。
  4. MIG サポートを提供しない他の GPU がクラスターに含まれている場合は、これらのノードにテイントを適用して、容認を含むカスタム・ランタイム定義を処理する必要があります。 テイントと容認について詳しくは、 テイントと容認を参照してください。
    以下に、容認の例を示します。
    "tolerations": [
      {
        "key": "DontSchedule",
        "operator": "Exists",
        "effect": "NoExecute"
      }
    ]
    これにより、単一の MIG デバイスの代わりに完全な GPU を誤って選択することがなくなります。

    他のワークロードが MIG ノードにスケジュールされないようにするには、このノードにもテイントを適用し、ランタイム定義に容認を追加します。

カスタム・ランタイム定義がアップロードされた後、ユーザーはプロジェクト内に新しい環境を作成し、特定の MIG プロファイルを提供するノードを選択できます。