错误日志记录任务
此部分描述了错误日志记录任务和信息。
读取错误报告
要获取故障前 24 小时内记录的所有错误的报告,请输入:
errpt -a -s mmddhhmmyy | pg其中 mmddhhmmyy 代表故障前 24 小时的月份、日期、小时、分钟和年份。
错误日志报告包含下列信息:
- 标签
- 事件的预定义名称。
- 标识
- 事件的数字标识。
- 日期/时间
- 事件的日期和时间。
- 序号
- 事件的唯一号码。
- 机器标识
- 系统处理器单元的标识号。
- 节点标识
- 系统的助记符名称。
- 类
- 错误的常规源。 可能的错误类为:
- H
- 这种不同取决于硬件类型。 (产生硬件错误时,请参阅系统操作员指南,以了解有关对问题设备或其他设备进行诊断的信息。 诊断程序测试设备并分析与其相关的错误日志条目来确定设备的状态。)
- 六
- 软件。
- O
- 参考消息。
- u
- 未确定(例如网络)。
- 类型
- 已经产生的错误的严重性。 可能存在下列类型的错误:
- PEND
- 即将丢失设备或组件的可用性。
- perf
- 设备或组件的性能已降低到可接受的级别以下。
- PERM
- 无法从中恢复的情况。 具有此值的错误类型通常是最严重的错误,并且很可能表示硬件设备或软件模块有缺陷。 除以下错误类型以外的错误类型PERM通常不会指示缺陷,但会记录这些缺陷,以便诊断程序可以对其进行分析。
- TEMP
- 许多次失败尝试之后而恢复的情况。 这种错误类型也用于记录信息条目,例如 DASD 设备的数据传输统计信息。
- UNKN
- 无法确定错误的严重性。
- 信息
- 错误日志条目仅供参考,并非由错误造成。
- 资源名称
- 已经检测到错误的资源的名称。 对于软件错误。 这是软件组件或可执行程序的名称。 对于硬件错误,这是设备或系统组件的名称。 这并不表示组件是错误的或者需要更换。 相反,它被用来确定要用合适的诊断模块来分析错误。
- 资源类
- 检测到故障的资源的常规类 (例如,disk).
- 资源类型
- 检测到故障的资源的类型 (例如,设备类型355mb).
- 位置码
- 至设备的路径。 至多可能有四个字段,分别为抽屉、插槽、接口和端口。
- VPD
- 重要产品数据。 该字段的内容(如果存在的话)有所不同。 设备的错误日志条目通常返回有关设备生产商、序列号、工程差价级别和只读存储器级别的信息。
- 描述
- 错误的摘要。
- 可能原因
- 列示错误的一些可能来源。
- 用户的原因
- 列示由于用户过失而产生的错误的可能原因。 磁盘插入错误和外部设备(例如调制解调器和显示机)未打开就是用户导致的错误的实例。
- 建议操作
- 用于纠正用户所导致错误的操作的描述。
- 安装原因
- 列示由于安装或配置过程错误所产生错误的可能原因。 这种类型错误的实例包括硬件和软件配合不当、电缆安装错误或电缆连接松开以及系统配置错误。
- 建议操作
- 用于纠正安装所导致错误的操作的描述。
- 故障原因
- 列示硬件或软件中可能的缺陷。注: 软件错误日志中的故障原因部分通常指示软件缺陷。 列示用户或安装原因或者两种原因(但不列示故障原因)的日志通常指示问题不是软件缺陷。
如果您怀疑软件缺陷或无法纠正用户或安装原因,将问题报告至软件维护部门。
- 建议操作
- 用于纠正故障的操作的描述。 对于硬件错误,PERFORM PROBLEM DETERMINATION PROCEDURES是列出的建议操作之一。 对于硬件错误,这将使得运行诊断程序。
- 详细数据
- 对于每个错误日志条目唯一的故障数据,例如设备检测数据。
- 有关进程对核心进行转储时,该进程当前工作目录的信息,如文件系统序列号和索引节点号。
- 标号
- 日期和时间
- 类型
- 资源名称
- 描述
- 详细数据
LABEL: STOK_RCVRY_EXIT
Date/Time: Tue Dec 14 15:25:33
Type: TEMP Resource Name: tok0
Description PROBLEM RESOLVED
Detail Data FILE NAME line: 273 file: stok_wdt.c
SENSE DATA
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1errpt -t -F report=0 | pg如果针对任何错误关闭了报告,请使用 errupdate 命令启用所有错误的报告。
errpt -t -F log=0 | pg如果对任何错误关闭了日志记录,请使用 errupdate 命令对所有错误启用日志记录。 如果必须重新创建系统错误,那么记录所有错误十分有用。
详细错误报告的示例
以下是错误报告条目示例,由errpt -a命令生成。
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD:
Device Driver Level.........00
Diagnostic Level............00
Displayable Message.........SCSI
EC Level....................C25928
FRU Number..................30F8834
Manufacturer................IBM97F
Part Number.................59F4566
Serial Number...............00002849
ROS Level and ID............24
Read/Write Register Ptr.....0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Diagnostic Log sequence number: 153
Resource Tested: scsi0
Resource Description: SCSI I/O Controller
Location: 00-08
SRN: 889-191
Description: Error log analysis indicates hardware failure.
Probable FRUs:
SCSI Bus FRU: n/a 00-08
Fan Assembly
SCSI2 FRU: 30F8834 00-08
SCSI I/O ControllerLABEL: TOK_ESERR
ID: AF1621E8
Date/Time: Jun 20 11:28:11
Sequence Number: 17262
Machine Id: 123456789012
Node Id: host1
Class: H
Type: PEND
Resource Name: TokenRing
Resource Class: tok0
Resource Type: Adapter
Location: TokenRing
Description
EXCESSIVE TOKEN-RING ERRORS
Probable Causes
TOKEN-RING FAULT DOMAIN
Failure Causes
TOKEN-RING FAULT DOMAIN
Recommended Actions
REVIEW LINK CONFIGURATION DETAIL DATA
CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN
Detail Data
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000LABEL: DSI_PROC
ID: 20FAED7F
Date/Time: Jun 28 23:40:14
Sequence Number: 20136
Machine Id: 123456789012
Node Id: 123456789012
Class: S
Type: PERM
Resource Name: SYSVMM
Description
Data Storage Interrupt, Processor
Probable Causes
SOFTWARE PROGRAM
Failure Causes
SOFTWARE PROGRAM
Recommended Actions
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005LABEL: SCSI_ERR6
ID: 52DB7218
Date/Time: Jun 28 23:21:11
Sequence Number: 20114
Machine Id: 123456789012
Node Id: host1
Class: S
Type: INFO
Resource Name: scsi0
Description
SOFTWARE PROGRAM ERROR
Probable Causes
SOFTWARE PROGRAM
Failure Causes
SOFTWARE PROGRAM
Recommended Actions
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000LABEL: OPMSG
ID: AA8AB241
Date/Time: Jul 16 03:02:02
Sequence Number: 26042
Machine Id: 123456789012
Node Id: host1
Class: O
Type: INFO
Resource Name: OPERATOR
Description
OPERATOR NOTIFICATION
User Causes
errlogger COMMAND
Recommended Actions
REVIEW DETAILED DATA
Detail Data
MESSAGE FROM errlogger COMMAND
hdisk1 : Error log analysis indicates a hardware failure.摘要错误报告的示例
下列是使用 errpt 命令生成的摘要错误报告的实例。 为每个错误条目返回一行信息。
ERROR_
IDENTIFIER TIMESTAMP T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0101000070 I 0 errdemon Error logging turned off
0E017ED1 0405131090 P H mem2 Memory failure
9DBCFDEE 0101000070 I 0 errdemon Error logging turned on
038F2580 0405131090 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130990 I O OPERATOR OPERATOR NOTIFICATION生成错误报告
要创建软件或硬件问题的错误报告,进行下列操作:
- 通过确定错误日志记录是否包含条目来确定错误日志打开还是关闭:
errpt 命令从系统错误日志中的条目生成错误报告。errpt -a如果错误日志不包含条目,那么错误日志记录已经被关闭。 通过键入下列内容激活程序:/usr/lib/errdemon注: 您必须具有 root 用户访问权才能运行此命令。errdemon 守护程序启动错误日志记录,并在系统错误日志中写入错误日志条目。 如果守护程序不在运行,那么不记录错误。
- 使用 errpt 命令生成错误日志报告。 例如,要查看以下对象的所有错误:hdisk1磁盘驱动器,类型:
errpt -N hdisk1 - 使用 SMIT 生成错误日志报告。 例如,使用 smit errpt 命令:
smit errpt- 选择 1 将错误报告发送至标准输出,或者选择 2 将报告发送至显示机。
- 选择是在产生错误日志条目时进行显示或显示。 否则,请选择 否。
- 在 选择资源名称 选项中指定相应的设备名 (例如,hdisk1).
- 选择 执行。
停止错误日志
此过程描述如何停止错误日志记录工具。
要关闭错误日志记录,请使用 errstop 命令。 必须具有 root 用户权限来使用此命令。
通常,您不会想要关闭错误日志记录工具。 而应该清除旧的或不必要的条目的错误日志。
安装或试验新软件或硬件时,关闭错误日志记录工具。 这样,错误日志记录守护程序不使用 CPU 时间记录知道其原因的问题。
清除错误日志
错误日志清除通常作为每日 cron 命令的一部分为您完成。 如果它不被自动执行,每两天在检查错误日志内容之后自己清除错误日志,以确保没有任何明显的错误。
也可以清除特定的错误。 例如,如果您获得一个新的磁盘且不想要日志中旧磁盘的错误,那么可以只清除旧磁盘的错误。
可以通过下列两种方法之一删除错误日志中的所有条目:
- 使用 "洱海" -d命令。 例如,要删除所有软件错误,请输入:
errclear 命令从错误日志中删除指定数目天数之前的条目。 该0在上一个示例中,指示您要删除所有天数的条目。errclear -d S 0 - 使用 smit errclear 命令:
smit errclear
将错误日志复制到软盘或磁带
执行下列其中一个操作来复制错误日志:
- 要将错误日志复制到软盘,请使用 ls 和 backup 命令。 将一个格式化软盘插入软盘驱动器中并键入:
ls /var/adm/ras/errlog | backup -ivp - 要将错误日志复制到磁带,在驱动器中插入磁带并键入:
ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0 - 要收集 tar 文件中的系统配置信息并将其复制到软盘,使用 snap 命令。 将一个格式化软盘插入软盘驱动器中并键入:
snap -a -o /dev/rfd0注: 要使用 snap 命令,您需要 root 用户权限。本实例中的 snap 命令使用 -a 标记收集有关您的系统配置的所有信息。 -o 标记将压缩的 tar 文件复制到您命名的设备。 该/dev/rfd0为您的磁盘驱动器命名。
要收集 tar 文件中的所有配置信息并将其复制到磁带,请输入:snap -a -o /dev/rmt0该/dev/rmt0为您的磁带机命名。
使用 liberrlog 服务
liberrlog 服务允许您从错误日志读条目并提供有限制的更新能力。 在以 C 编程语言(胜于 shell 脚本)撰写的错误通知方法中,它们特别有用。 使用 liberrlog 功能访问错误日志比使用 errpt 命令有效得多。