错误日志记录概述
当操作系统模块检测到错误时,会开始错误日志记录过程。
然后,错误检测代码段将错误信息发送到 错误保存 和 错误 内核服务或 错误日志 子例程。 然后,将该错误信息写入 /dev/error 特殊文件。 然后,该进程向收集的数据添加时间戳记。 errdemon 守护程序不断检查 /dev/error 文件中的新条目,当写入新数据时,守护程序执行一系列操作。
在条目被写入错误日志之前,errdemon 守护程序将由内核或应用程序代码发送的标签与错误记录模板资源库的内容进行比较。 如果标签与资源库中的项相匹配,那么守护程序收集系统其他部分的另外的数据。
为了在错误日志中创建条目, errdemon 守护程序检索资源库中合适的模板、检测到错误的单元的资源名称以及详细的数据。 除此之外,如果错误表示与硬件相关的问题且硬件的重要产品数据 (VPD) 存在,那么守护程序从 Object Data Manager 检索 VPD。 通过 SMIT 或使用 errpt 命令访问错误日志时,错误日志将根据错误模板存储库中的错误模板进行格式化,并显示在摘要或详细报告中。 还可以使用 liberrlog, errlog_open, errlog_close中提供的服务来检索条目。 errlog_find_first, errlog_find_next, errlog_find_sequence, errlog_set_direction和 errlog_write。 errlog_write 提供了有限的更新能力。
错误日志中的大部分条目可归为硬件和软件问题,但是信息消息也可以被记录下来。
diag 命令使用错误日志来诊断硬件问题。 为了正确地诊断新系统问题,系统从错误日志中删除超过 90 天的硬件相关条目。 系统删除已记录超过 30 天的软件相关条目。
您应该熟悉以下术语:
| 术语 | 描述 |
|---|---|
| ERROR ID | 32 位 CRC 十六进制代码,用于标识特殊的失败。 每个错误记录模板均具有一个唯一的错误标识。 |
| 错误标号 | 错误标识的助记名称。 |
| 错误日志 | 存储系统遇到的错误和失败实例的文件。 |
| 错误日志项 (error log entry) | 系统错误日志中的记录,它描述硬件失败、软件失败或操作员消息。 错误日志条目包含捕获的失败数据。 |
| 错误记录模板 | 将错误日志格式化为报告时显示的信息的描述,包括错误类型和类信息、可能原因和建议操作。 总起来说,模板由错误记录模板资源库组成。 |