错误日志记录任务

此部分描述了错误日志记录任务和信息。

读取错误报告

要获取故障前 24 小时内记录的所有错误的报告,请输入:

errpt -a -s mmddhhmmyy | pg

其中 mmddhhmmyy 代表故障前 24 小时的月份、日期、小时、分钟和年份。

错误日志报告包含下列信息:

注: 并非所有错误都会生成以下每个类别的信息。
标签
事件的预定义名称。
标识
事件的数字标识。
日期/时间
事件的日期和时间。
序号
事件的唯一号码。
机器标识
系统处理器单元的标识号。
节点标识
系统的助记符名称。
错误的常规源。 可能的错误类为:
H
这种不同取决于硬件类型。 (产生硬件错误时,请参阅系统操作员指南,以了解有关对问题设备或其他设备进行诊断的信息。 诊断程序测试设备并分析与其相关的错误日志条目来确定设备的状态。)
软件。
O
参考消息。
u
未确定(例如网络)。
类型
已经产生的错误的严重性。 可能存在下列类型的错误:
PEND
即将丢失设备或组件的可用性。
perf
设备或组件的性能已降低到可接受的级别以下。
PERM
无法从中恢复的情况。 具有此值的错误类型通常是最严重的错误,并且很可能表示硬件设备或软件模块有缺陷。 除以下错误类型以外的错误类型PERM通常不会指示缺陷,但会记录这些缺陷,以便诊断程序可以对其进行分析。
TEMP
许多次失败尝试之后而恢复的情况。 这种错误类型也用于记录信息条目,例如 DASD 设备的数据传输统计信息。
UNKN
无法确定错误的严重性。
信息
错误日志条目仅供参考,并非由错误造成。
资源名称
已经检测到错误的资源的名称。 对于软件错误。 这是软件组件或可执行程序的名称。 对于硬件错误,这是设备或系统组件的名称。 这并不表示组件是错误的或者需要更换。 相反,它被用来确定要用合适的诊断模块来分析错误。
资源类
检测到故障的资源的常规类 (例如,disk).
资源类型
检测到故障的资源的类型 (例如,设备类型355mb).
位置码
至设备的路径。 至多可能有四个字段,分别为抽屉、插槽、接口和端口。
VPD
重要产品数据。 该字段的内容(如果存在的话)有所不同。 设备的错误日志条目通常返回有关设备生产商、序列号、工程差价级别和只读存储器级别的信息。
描述
错误的摘要。
可能原因
列示错误的一些可能来源。
用户的原因
列示由于用户过失而产生的错误的可能原因。 磁盘插入错误和外部设备(例如调制解调器和显示机)未打开就是用户导致的错误的实例。
建议操作
用于纠正用户所导致错误的操作的描述。
安装原因
列示由于安装或配置过程错误所产生错误的可能原因。 这种类型错误的实例包括硬件和软件配合不当、电缆安装错误或电缆连接松开以及系统配置错误。
建议操作
用于纠正安装所导致错误的操作的描述。
故障原因
列示硬件或软件中可能的缺陷。
注: 软件错误日志中的故障原因部分通常指示软件缺陷。 列示用户或安装原因或者两种原因(但不列示故障原因)的日志通常指示问题不是软件缺陷。

如果您怀疑软件缺陷或无法纠正用户或安装原因,将问题报告至软件维护部门。

建议操作
用于纠正故障的操作的描述。 对于硬件错误,PERFORM PROBLEM DETERMINATION PROCEDURES是列出的建议操作之一。 对于硬件错误,这将使得运行诊断程序。
详细数据
  • 对于每个错误日志条目唯一的故障数据,例如设备检测数据。
  • 有关进程对核心进行转储时,该进程当前工作目录的信息,如文件系统序列号和索引节点号。
要显示由 -a 标记产生的详细报告的缩短版本,使用 -A 标记。 -一个 标志对于 --g ,-t 标志无效。 使用 -A 产生报告的缩短版本时报告的项为:
  • 标号
  • 日期和时间
  • 类型
  • 资源名称
  • 描述
  • 详细数据
该标志的示例的输出的格式如下所示:
LABEL:           STOK_RCVRY_EXIT
Date/Time:       Tue Dec 14 15:25:33
Type:            TEMP Resource Name:   tok0
Description PROBLEM RESOLVED
Detail Data FILE NAME line: 273 file: stok_wdt.c 
SENSE DATA 
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1
可以为一些错误关闭报告。 要显示哪些错误关闭了报告,请输入:
errpt -t -F report=0 | pg

如果针对任何错误关闭了报告,请使用 errupdate 命令启用所有错误的报告。

还可能已经为一些错误关闭了日志记录。 要显示哪些错误关闭了日志记录,请输入:
errpt -t -F log=0 | pg

如果对任何错误关闭了日志记录,请使用 errupdate 命令对所有错误启用日志记录。 如果必须重新创建系统错误,那么记录所有错误十分有用。

详细错误报告的示例

以下是错误报告条目示例,由errpt -a命令生成。

错误类值 H 和错误类型值 PERM 指示系统遇到硬件问题(例如 SCSI 适配器设备驱动程序),无法从其恢复。 诊断信息可能与这种类型的错误有关。 如果这样,它在错误列表末尾显示设备驱动程序遇到的问题(如同下列实例中所显示):
LABEL:      SCSI_ERR1
ID:         0502F666

Date/Time:        Jun 19 22:29:51
Sequence Number:  95
Machine ID:       123456789012
Node ID:          host1
Class:            H
Type:             PERM
Resource Name:    scsi0
Resource Class:   adapter
Resource Type:    hscsi
Location:         00-08
VPD:
     Device Driver Level.........00
     Diagnostic Level............00
     Displayable Message.........SCSI
     EC Level....................C25928
     FRU Number..................30F8834
     Manufacturer................IBM97F
     Part Number.................59F4566
     Serial Number...............00002849
     ROS Level and ID............24
     Read/Write Register Ptr.....0120

Description
ADAPTER ERROR

Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE

Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE

          Recommended Actions
          PERFORM PROBLEM DETERMINATION PROCEDURES
          CHECK CABLE AND ITS CONNECTIONS

Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 

Diagnostic Log sequence number:  153
Resource Tested:        scsi0
Resource Description:   SCSI I/O Controller
Location:               00-08
SRN:                    889-191
Description:            Error log analysis indicates hardware failure.
Probable FRUs:
    SCSI Bus        FRU: n/a            00-08
                    Fan Assembly
    SCSI2           FRU: 30F8834        00-08
                    SCSI I/O Controller
错误类值 H 和错误类型值 PEND 指示某个硬件(令牌环)可能马上变得不可用(由于系统检测到许多错误)。
LABEL:    TOK_ESERR
ID:       AF1621E8

Date/Time:       Jun 20 11:28:11
Sequence Number: 17262
Machine Id:      123456789012
Node Id:         host1
Class:           H
Type:            PEND
Resource Name:   TokenRing
Resource Class:  tok0
Resource Type:   Adapter
Location:        TokenRing

Description
EXCESSIVE TOKEN-RING ERRORS

Probable Causes
TOKEN-RING FAULT DOMAIN

Failure Causes
TOKEN-RING FAULT DOMAIN

        Recommended Actions
        REVIEW LINK CONFIGURATION DETAIL DATA
        CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN

Detail Data
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685 
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000
错误类值 S 和错误类型值 PERM 指示系统遇到软件问题,无法从其恢复。
LABEL:    DSI_PROC
ID:       20FAED7F
 
Date/Time:       Jun 28 23:40:14
Sequence Number: 20136
Machine Id:      123456789012
Node Id:         123456789012
Class:           S
Type:            PERM
Resource Name:   SYSVMM

Description
Data Storage Interrupt, Processor

Probable Causes
SOFTWARE PROGRAM

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005
错误类值 S 和错误类型值 TEMP 指示系统遇到软件问题。 尝试若干次后,系统可以从问题中恢复。
LABEL:          SCSI_ERR6
ID:             52DB7218
 
Date/Time:       Jun 28 23:21:11
Sequence Number: 20114
Machine Id:      123456789012
Node Id:         host1
Class:           S
Type:            INFO
Resource Name:   scsi0

Description
SOFTWARE PROGRAM ERROR

Probable Causes
SOFTWARE PROGRAM

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF 
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF 
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800 
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000
错误类值 O 指示已经记录了一条参考消息。
LABEL:     OPMSG
ID:        AA8AB241
 
Date/Time:       Jul 16 03:02:02
Sequence Number: 26042
Machine Id:      123456789012
Node Id:         host1
Class:           O
Type:            INFO
Resource Name:   OPERATOR

Description
OPERATOR NOTIFICATION

User Causes
errlogger COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM errlogger COMMAND
hdisk1 : Error log analysis indicates a hardware failure.

摘要错误报告的示例

下列是使用 errpt 命令生成的摘要错误报告的实例。 为每个错误条目返回一行信息。

ERROR_
IDENTIFIER TIMESTAMP  T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071   0101000070 I 0  errdemon      Error logging turned off
0E017ED1   0405131090 P H  mem2          Memory failure
9DBCFDEE   0101000070 I 0  errdemon      Error logging turned on
038F2580   0405131090 U H  scdisk0       UNDETERMINED ERROR
AA8AB241   0405130990 I O  OPERATOR      OPERATOR NOTIFICATION

生成错误报告

要创建软件或硬件问题的错误报告,进行下列操作:

  1. 通过确定错误日志记录是否包含条目来确定错误日志打开还是关闭:
    errpt -a
    errpt 命令从系统错误日志中的条目生成错误报告。
    如果错误日志不包含条目,那么错误日志记录已经被关闭。 通过键入下列内容激活程序:
    /usr/lib/errdemon
    注: 您必须具有 root 用户访问权才能运行此命令。

    errdemon 守护程序启动错误日志记录,并在系统错误日志中写入错误日志条目。 如果守护程序不在运行,那么不记录错误。

  2. 使用 errpt 命令生成错误日志报告。 例如,要查看以下对象的所有错误:hdisk1磁盘驱动器,类型:
    errpt -N hdisk1
  3. 使用 SMIT 生成错误日志报告。 例如,使用 smit errpt 命令:
    smit errpt
    1. 选择 1 将错误报告发送至标准输出,或者选择 2 将报告发送至显示机。
    2. 选择在产生错误日志条目时进行显示或显示。 否则,请选择
    3. 选择资源名称 选项中指定相应的设备名 (例如,hdisk1).
    4. 选择 执行

停止错误日志

此过程描述如何停止错误日志记录工具。

要关闭错误日志记录,请使用 errstop 命令。 必须具有 root 用户权限来使用此命令。

通常,您不会想要关闭错误日志记录工具。 而应该清除旧的或不必要的条目的错误日志。

安装或试验新软件或硬件时,关闭错误日志记录工具。 这样,错误日志记录守护程序不使用 CPU 时间记录知道其原因的问题。

清除错误日志

错误日志清除通常作为每日 cron 命令的一部分为您完成。 如果它不被自动执行,每两天在检查错误日志内容之后自己清除错误日志,以确保没有任何明显的错误。

也可以清除特定的错误。 例如,如果您获得一个新的磁盘且不想要日志中旧磁盘的错误,那么可以只清除旧磁盘的错误。

可以通过下列两种方法之一删除错误日志中的所有条目:

  • 使用 "洱海" -d命令。 例如,要删除所有软件错误,请输入:
    errclear -d S 0
    errclear 命令从错误日志中删除指定数目天数之前的条目。 该0在上一个示例中,指示您要删除所有天数的条目。
  • 使用 smit errclear 命令:
    smit errclear

将错误日志复制到软盘或磁带

执行下列其中一个操作来复制错误日志:

  • 要将错误日志复制到软盘,请使用 lsbackup 命令。 将一个格式化软盘插入软盘驱动器中并键入:
    ls /var/adm/ras/errlog | backup -ivp
  • 要将错误日志复制到磁带,在驱动器中插入磁带并键入:
    ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0
  • 要收集 tar 文件中的系统配置信息并将其复制到软盘,使用 snap 命令。 将一个格式化软盘插入软盘驱动器中并键入:
    snap -a -o /dev/rfd0
    注: 要使用 snap 命令,您需要 root 用户权限。

    本实例中的 snap 命令使用 -a 标记收集有关您的系统配置的所有信息。 -o 标记将压缩的 tar 文件复制到您命名的设备。 该/dev/rfd0为您的磁盘驱动器命名。

    要收集 tar 文件中的所有配置信息并将其复制到磁带,请输入:
    snap -a -o /dev/rmt0

    /dev/rmt0为您的磁带机命名。

使用 liberrlog 服务

liberrlog 服务允许您从错误日志读条目并提供有限制的更新能力。 在以 C 编程语言(胜于 shell 脚本)撰写的错误通知方法中,它们特别有用。 使用 liberrlog 功能访问错误日志比使用 errpt 命令有效得多。