配置 GPU 工作程序节点
验证您的 GPU 工作程序节点是否已做好部署准备。
更新 GPU 驱动程序版本
可以在安装 IBM® Cloud Private 之前或之后更新 GPU 驱动程序。
-
更新 GPU 驱动程序版本。 请参阅 http://www.nvidia.com/Download/index.aspx
。
-
更新 GPU 驱动程序版本之后,请重新启动 Kubelet,以允许 Kubernetes 获取对 GPU 驱动程序的更改。
systemctl restart kubelet
验证节点是否已做好部署准备
您必须从安装有 Nvidia GPU 驱动程序的工作程序节点执行这些验证步骤。
-
检查 Nvidia 是否已启动并正在运行。
nvidia-smi输出类似于以下代码:
Thu Nov 9 16:44:28 2017 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 375.66 Driver Version: 375.66 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla K80 Off | 0000:08:00.0 Off | 0 | | N/A 47C P8 26W / 149W | 0MiB / 11439MiB | 0% Default | +-------------------------------+----------------------+----------------------+ | 1 Tesla K80 Off | 0000:09:00.0 Off | 0 | | N/A 36C P8 31W / 149W | 0MiB / 11439MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+如果返回了错误消息,请在节点上重新安装 GPU 驱动程序。 请参阅 http://www.nvidia.com/Download/index.aspx
-
确保
nvidia-uvm设备文件可用。ls /dev/nvidia-uvm如果返回了错误消息
No such file or directory,那么您必须创建nvidia-uvm设备文件。要创建
nvidia-uvm设备文件,请执行以下步骤:-
对于 Linux® x86_64
-
从 IBM developerWorks 社区将
cudaInit_x86文件下载到工作程序节点。 请参阅 cudaInit_x86。
-
在工作程序节点上,运行以下命令:
./cudaInit_x86
-
-
对于 Linux® on Power® (ppc64le),请运行以下命令:
-
从 IBM developerWorks 社区将
cudaInit_ppc64le文件下载到工作程序节点。 请参阅 cudaInit_ppc64le。
-
在工作程序节点上,运行以下命令:
./cudaInit_ppc64le
-
-
-
找到 GPU 驱动程序日志文件。
ls /var/lib/docker/volumes/nvidia_driver_<xxx.xx>其中,
<xxx.xx>是 Nvidia 驱动程序的版本。 可以通过运行nvidia-smi命令来获取版本信息。如果返回了错误消息
No such file or directory,那么您必须创建 GPU 驱动程序日志目录。要创建 GPU 日志目录,请执行以下步骤:
-
移除
/var/lib/docker/volumes文件夹并重新启动 kubelet。rm -rf /var/lib/docker/volumes systemctl restart kubelet -
验证是否已创建 GPU 驱动程序日志文件。
ls /var/lib/docker/volumes/nvidia_driver_<xxx.xx>如果该日志文件仍未创建,请在节点上重新安装 GPU 驱动程序。 请参阅 http://www.nvidia.com/Download/index.aspx
。
您现在已准备就绪,可以在工作程序节点上部署使用 GPU 资源的应用程序。 请参阅创建附加有 GPU 资源的部署。
-