根据 GPU 硬件规格创建部署

您可以利用 CUDA 软件规范和 GPU 硬件规范,在 GPU 上部署机器学习和深度学习模型。

限制

  • 要在 GPU 上部署模型,集群配置必须是同构的:
    • 集群中的所有 GPU 节点必须使用相同类型的 GPU
    • 所有 MIG 节点必须具有相同的 MIG 配置或分区大小
  • GPU 部署不支持使用自定义硬件规格。
  • CUDA 软件规格包含 NVIDIA CUDA 驱动程序,但除非在部署中指定了 GPUx 硬件规格,否则不会为该部署分配任何 GPU。
  • 专用 GPU 和 MIG 分区无法同时使用。
重要提示: 如果您希望部署获得 GPU 资源分配,则在创建部署时必须同时指定 CUDA 软件规格和 GPU 硬件规格。

有关 CUDA 软件规格的列表,请参阅 “软件规格 ”。 有关 GPU 硬件规格的列表,请参阅 GPU 硬件规格

如果您要部署的应用程序无需利用整个 GPU 的全部性能,也可以为 GPU 启用 MIG 支持。 如果您正在为 GPU 加速工作负载配置 MIG,所有启用了 GPU 的节点都应遵循在先前配置步骤中确定的单一策略。 这可确保集群中所有支持 GPU 的节点行为一致。 要配置 MIG 支持,请参阅 NVIDIA 配置 MIG 支持指南

请参阅以下代码示例,了解如何创建一个使用 GPU 硬件规格的部署:

_from ibm_watsonx_ai import APIClient

wx_ai_client = APIClient(credentials)
meta_props = {
    client.deployments.ConfigurationMetaNames.NAME: f"GPU deployment",
    client.deployments.ConfigurationMetaNames.ONLINE: {},
    client.deployments.ConfigurationMetaNames.HARDWARE_SPEC:{"name": "GPUx2"}

}

deployment_details = wx_ai_client.deployments.create(<asset_id>, meta_props)_