解决 GPU、PCIe 适配器或设备问题
了解如何访问日志文件、用于识别事件类型的信息以及潜在问题和服务操作的列表。
关于本任务
程序
- 系统中的所有适配器是否都丢失或者出现故障?
如果 过去 是的: 更换系统背板。 - 如果您的系统是8335-GTC , 8335-GTG , 8335-GTH , 8335-GTW , 或者8335-GTX , 去8335-GTC , 8335-GTG , 8335-GTH , 8335-GTW , 或者8335-GTX位置确定物理位置以及移除和替换程序。
不: 继续执行下一步。 - 要使用操作系统日志信息确定要执行的正确服务过程,请完成以下步骤:
- 作为 root 用户登录。
- 要显示操作系统日志,请输入
dmesg然后按 Enter。
- 扫描问题发生时操作系统日志,查找首次出现的关键字,例如 fail、failure 或 failed。 当您找到与下表中的一个或多个资源名称伴随的关键字时,就需要执行服务操作。 使用下表来确定针对您的问题类型需要执行的维修流程。
表 1. 不同类型的操作系统日志的资源名称、示例和服务流程。 资源名称 需要服务操作的日志示例 问题的类型 服务流程 eth1 ,eth2 ,eth3 , 恩P xxxxx , 在哪里xxxxx网口。 Failed to re-initialize device网络 去解决网络适配器问题。 mlx5_core Link Downhealth_care: handling bad device here网络 去解决网络适配器问题。 tg3 PCI I/O error detected.Link is Down网络 去解决网络适配器问题。 非易失性存储器 aborting RmInitAdapter failed!图形 去解决图形处理单元问题。 nvidia-nvlink IBMNPU: NPU FENCE detected, machine power cycle required图形 去解决图形处理单元问题。 NVMe Failed status: ffffffff, reset controllerNVMe 闪存适配器 去解决 NVMe Flash 适配器问题。 sda、sdb、sdc FAILED Result存储器 去解决存储设备问题。 EEH Detected error on PHB#xxx, 在哪里xxx是 PHB 编号。PCIe 总线或适配器 解决与 I/O 相关且在此操作系统日志条目出现时附近的任何设备驱动程序错误。 xxx has failed 6 times in the last hour and has been permanently disabled, 在哪里xxx是 PCI 总线号。PCIe 总线或适配器 确保为设备正确安装了正确的设备驱动程序。 如果问题仍然存在,请更换操作系统日志条目中指定的 PCIe 插槽中的适配器。