配置 GPU 工作程序节点

验证您的 GPU 工作程序节点是否已做好部署准备。

更新 GPU 驱动程序版本

可以在安装 IBM® Cloud Private 之前或之后更新 GPU 驱动程序。

  1. 更新 GPU 驱动程序版本。 请参阅 http://www.nvidia.com/Download/index.aspx 在新选项卡中打开

  2. 更新 GPU 驱动程序版本之后,请重新启动 Kubelet,以允许 Kubernetes 获取对 GPU 驱动程序的更改。

    systemctl restart kubelet
    

验证节点是否已做好部署准备

您必须从安装有 Nvidia GPU 驱动程序的工作程序节点执行这些验证步骤。

  1. 检查 Nvidia 是否已启动并正在运行。

    nvidia-smi
    

    输出类似于以下代码:

    Thu Nov  9 16:44:28 2017
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 375.66                 Driver Version: 375.66                    |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla K80           Off  | 0000:08:00.0     Off |                    0 |
    | N/A   47C    P8    26W / 149W |      0MiB / 11439MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    |   1  Tesla K80           Off  | 0000:09:00.0     Off |                    0 |
    | N/A   36C    P8    31W / 149W |      0MiB / 11439MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    
    +-----------------------------------------------------------------------------+
    | Processes:                                                       GPU Memory |
    |  GPU       PID  Type  Process name                               Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    

    如果返回了错误消息,请在节点上重新安装 GPU 驱动程序。 请参阅 http://www.nvidia.com/Download/index.aspx 在新选项卡中打开

  2. 确保 nvidia-uvm 设备文件可用。

    ls /dev/nvidia-uvm
    

    如果返回了错误消息 No such file or directory,那么您必须创建 nvidia-uvm 设备文件。

    要创建 nvidia-uvm 设备文件,请执行以下步骤:

    • 对于 Linux® x86_64

      1. 从 IBM developerWorks 社区将 cudaInit_x86 文件下载到工作程序节点。 请参阅 cudaInit_x86 在新选项卡中打开

      2. 在工作程序节点上,运行以下命令:

        ./cudaInit_x86
        
    • 对于 Linux® on Power® (ppc64le),请运行以下命令:

      1. 从 IBM developerWorks 社区将 cudaInit_ppc64le 文件下载到工作程序节点。 请参阅 cudaInit_ppc64le 在新选项卡中打开

      2. 在工作程序节点上,运行以下命令:

        ./cudaInit_ppc64le
        
  3. 找到 GPU 驱动程序日志文件。

     ls /var/lib/docker/volumes/nvidia_driver_<xxx.xx>
    

    其中,<xxx.xx> 是 Nvidia 驱动程序的版本。 可以通过运行 nvidia-smi 命令来获取版本信息。

    如果返回了错误消息 No such file or directory,那么您必须创建 GPU 驱动程序日志目录。

    要创建 GPU 日志目录,请执行以下步骤:

    1. 移除 /var/lib/docker/volumes 文件夹并重新启动 kubelet。

      rm -rf /var/lib/docker/volumes
      systemctl restart kubelet
      
    2. 验证是否已创建 GPU 驱动程序日志文件。

      ls /var/lib/docker/volumes/nvidia_driver_<xxx.xx>
      

      如果该日志文件仍未创建,请在节点上重新安装 GPU 驱动程序。 请参阅 http://www.nvidia.com/Download/index.aspx 在新选项卡中打开

    您现在已准备就绪,可以在工作程序节点上部署使用 GPU 资源的应用程序。 请参阅创建附加有 GPU 资源的部署