解决 GPU、PCIe 适配器或设备问题

了解如何访问日志文件、用于识别事件类型的信息以及潜在问题和服务操作的列表。

关于本任务

程序

  1. 系统中的所有适配器是否都丢失或者出现故障?
    如果 过去
    是的: 更换系统背板。
    不: 继续执行下一步。
  2. 要使用操作系统日志信息确定要执行的正确服务过程,请完成以下步骤:
    1. 作为 root 用户登录。
    2. 要显示操作系统日志,请输入dmesg然后按 Enter。
  3. 扫描问题发生时操作系统日志,查找首次出现的关键字,例如 fail、failure 或 failed。 当您找到与下表中的一个或多个资源名称伴随的关键字时,就需要执行服务操作。 使用下表来确定针对您的问题类型需要执行的维修流程。
    表 1. 不同类型的操作系统日志的资源名称、示例和服务流程。
    资源名称 需要服务操作的日志示例 问题的类型 服务流程
    eth1 ,eth2 ,eth3 , 恩P xxxxx , 在哪里xxxxx网口。 Failed to re-initialize device 网络 解决网络适配器问题
    mlx5_core Link Down
    health_care: handling bad device here
    网络 解决网络适配器问题
    tg3 PCI I/O error detected.
    Link is Down
    网络 解决网络适配器问题
    非易失性存储器 aborting RmInitAdapter failed! 图形 解决图形处理单元问题
    nvidia-nvlink IBMNPU: NPU FENCE detected, machine power cycle required 图形 解决图形处理单元问题
    NVMe Failed status: ffffffff, reset controller NVMe 闪存适配器 解决 NVMe Flash 适配器问题
    sda、sdb、sdc FAILED Result 存储器 解决存储设备问题
    EEH Detected error on PHB#xxx, 在哪里xxx是 PHB 编号。 PCIe 总线或适配器 解决与 I/O 相关且在此操作系统日志条目出现时附近的任何设备驱动程序错误。
    xxx has failed 6 times in the last hour and has been permanently disabled, 在哪里xxx是 PCI 总线号。 PCIe 总线或适配器 确保为设备正确安装了正确的设备驱动程序。 如果问题仍然存在,请更换操作系统日志条目中指定的 PCIe 插槽中的适配器。