AIX 和 Linux 问题分析

当服务由 AIX® 或 Linux® 操作系统管理时,您可以使用此过程来查找有关服务器硬件问题的信息。

对问题进行故障诊断时请记住以下几点:
  • 是否发生外部断电或瞬间断电?
  • 是否更改了硬件配置?
  • 是否添加了系统软件?
  • 最近是否安装了任何新程序或程序更新 (包括 PTF)?

在使用此过程之前,请确保已完成 开始问题分析中的步骤。

复审这些注意事项后,请完成以下步骤:

  1. 操作系统是否可运行?
    • 是: 继续执行下一步。
    • 否: 转至步骤 11
  2. 是否有任何与此问题相关的消息 (例如,设备不可用或报告错误) 显示在系统控制台上或以提供参考码的电子邮件发送给您?
    注: 参考码可以是 8 字符系统参考码 (SRC) 或服务请求号 (SRN) 5 , 6 或 7 字符 (带连字符或不带连字符)。
    • 是: 继续执行下一步。
    • 否: 转至步骤 4
  3. 参考码描述可能会提供信息或您可以执行的操作来更正故障。
    使用 IBM® Knowledge Center 的搜索功能来查找参考码详细信息。 搜索功能位于 IBM Knowledge Center 的左上角。 请阅读参考码描述并返回此处。 现在不要执行任何其他操作。

    有关参考码的更多信息,请参阅 参考码

    如果参考码描述提供信息以解决该问题而不替换故障项列表中的 FRU ,请完成以下步骤。

    您是否能够解决问题?

    • 是: 这将结束过程。
    • 否: 继续执行下一步。
  4. 是否正在运行 Linux 操作系统?
    • 是: 继续执行下一步。
    • 否: 转至步骤 6
  5. 要在运行 Linux 操作系统的系统或逻辑分区中找到错误信息,请完成以下步骤:
    注: 在继续执行此步骤之前,请确保诊断软件包已安装在系统上。
    1. 以 root 用户身份登录。
    2. 在命令行中,输入 grep RTAS /var/log/platform 并按 Enter键。
    3. 查找包含参考码的最新条目。

    继续执行步骤 8

  6. 要在运行 AIX 操作系统的系统或逻辑分区中找到错误信息,请完成以下步骤:
    1. 以 root 用户身份登录到 AIX 操作系统,或者使用 CE 登录。 如果需要帮助,请与系统管理员联系。
    2. 输入 diag 以装入诊断控制器,并显示联机诊断菜单。
    3. 从 "功能选择" 菜单中,选择 任务选择
    4. 从 "任务选择列表" 菜单中,选择 显示先前的诊断结果
    5. 从 "先前诊断结果" 菜单中,选择 显示诊断日志摘要
    继续执行下一步。
  7. 显示诊断日志,其中包含来自错误日志的按时间排序的事件表。

    在 T 列中查找具有 S 条目的最新条目。 按 Enter 键以选择表中的行,然后选择 落实

    将显示表中此条目的详细信息。 在条目末尾附近查找 SRN 条目,并记录所显示的信息。

    继续执行下一步。

  8. 在故障发生时间附近是否发现可维护事件或打开问题?
    • 是: 继续执行下一步。
    • 否: 请与硬件服务提供者联系。 这将结束此过程。
  9. 参考码描述可能会提供信息或您可以执行的操作来更正故障。
    使用 IBM Knowledge Center 的搜索功能来查找参考码详细信息。 搜索功能位于 IBM Knowledge Center 的左上角。 请阅读参考码描述并返回此处。 现在不要执行任何其他操作。

    有关参考码的更多信息,请参阅 参考码

    是否有帮助您解决问题的参考码描述?

    • 是: 这将结束过程。
    • 否: 继续执行下一步。
  10. 需要服务才能解决该错误。 收集尽可能多的错误数据并记录。 您和服务提供者将根据以下准则制定纠正措施以解决问题:
    • 如果在可维护事件视图或控制面板中提供了现场可更换部件 (FRU) 位置码,请使用该位置来确定要更换的 FRU。
    • 如果在参考码查找信息中列出了参考码的隔离过程,请将其包括为纠正操作,即使未在服务性事件视图或控制面板中列出也是如此。
    • 如果有任何 FRU 标记为要进行块更换,请同时更换块更换组中的所有 FRU。
    从 "错误事件日志" 视图中,完成以下步骤:
    1. 记录参考码。
    2. 记录错误详细信息。
    3. 请与服务供应商联系。

    这将结束此过程。

  11. 可以在控制面板或高级系统管理界面 (ASMI) 中找到有关操作系统未在运行或操作系统现在不可访问时发生的错误的详细信息。

    是否选择使用 ASMI 来查找错误详细信息?

    • 是: 转至步骤 13
    • 否: 继续执行下一步。
  12. 在控制面板上,完成以下步骤。
    1. 按增量或减量按钮,直到数字 11 显示在屏幕的左上角。
    2. Enter 键以显示功能 11 的内容。
    3. 在右上角查找参考码。

    功能 11 中的控制面板上是否显示了参考码?

    • 是: 转至步骤 14
    • 否: 请与硬件服务提供者联系。 这将结束此过程。
  13. 在连接到 ASMI 的控制台上,完成以下步骤。
    注: 如果您无法找到报告的问题,并且在报告的故障时间附近有多个打开的问题,请使用日志中最早的问题。

    选择您正在处理的系统:

    9080-HEX

    1. 登录到 ASMI。 有关更多信息,请参阅 设置和访问 ASMI
    2. 在导航区域中,展开系统服务助手,然后单击错误/事件日志。 如果日志条目存在,那么错误和事件日志条目的列表会显示在总结视图中。
    3. 滚动 可维护客户注意事件 下的日志,并验证是否存在与故障对应的问题。

    所有其他系统

    1. 登录到 ASMI。 有关更多信息,请参阅 登录到 ASMI GUI
    2. 在 ASMI 的导航区域中,单击 日志 > 事件日志。 如果日志条目存在,那么错误和事件日志条目的列表会显示在总结视图中。
    3. 查找严重性为 紧急 的日志,并验证是否存在与故障对应的问题。

    您是否在故障发生的时间附近发现了问题?

    • 是: 继续执行下一步。
    • 否: 请与硬件服务提供者联系。 这将结束此过程。
  14. 参考码描述可能会提供信息或您可以执行的操作来更正故障。
    使用 IBM Knowledge Center 的搜索功能来查找参考码详细信息。 搜索功能位于 IBM Knowledge Center 的左上角。 请阅读参考码描述并返回此处。 现在不要执行任何其他操作。

    有关参考码的更多信息,请参阅 参考码

    是否有帮助您解决问题的参考码描述?

    • 是: 这将结束过程。
    • 否: 继续执行下一步。
  15. 需要服务才能解决该错误。 收集尽可能多的错误数据并记录。 您和服务提供者将根据以下准则制定纠正措施以解决问题:
    • 如果在可维护事件视图或控制面板中提供了现场可更换部件 (FRU) 位置码,请使用该位置来确定要更换的 FRU。
    • 如果在参考码查找信息中列出了参考码的隔离过程,请将该隔离过程作为更正操作包括在内,即使该隔离过程未在服务性事件视图或控制面板中列出也是如此。
    • 如果有任何 FRU 标记为要进行块更换,请同时更换块更换组中的所有 FRU。

    要在控制面板上查找错误详细信息,请完成以下步骤:

    1. Enter 键以显示功能 14 的内容。 如果数据在功能 14 中可用,那么参考码具有 FRU 列表。
    2. 在控制面板上记录功能 11 到 20 中的信息。
    3. 请与服务提供者联系,并报告参考码和其他信息。

    要在 ASMI 上查找错误详细信息,请从 "错误事件日志" 视图完成以下步骤:

    1. 记录参考码。
    2. 选中日志上的相应复选框,然后单击 "显示详细信息"。
    3. 记录错误详细信息。
    4. 请与服务供应商联系。

    这将结束此过程。