エラー・ログ作業
このセクションでは、エラー・ログ作業と関連情報について説明します。
エラー・レポートの読み取り
障害前の 24 時間以内に記録されたすべてのエラーに関するレポートを入手するには、次のように入力します。
errpt -a -s mmddhhmmyy | pgここで mmddhhmmyy は、障害の 24 時間前の時点の月、日、時、分、および年を示します。
エラー・ログ・レポートには、以下の情報が示されます。
- ラベル
- イベントの事前定義名。
- ID
- イベントの数値 ID。
- 日付/時刻
- イベントの日時。
- シーケンス番号
- イベントに固有の番号。
- Machine ID
- システム・プロセッサー装置の識別番号。
- Node ID
- システムのニーモニック名。
- クラス
- エラーの一般的な原因。 可能なエラー・クラスを以下に示します。
- h
- ハードウェア。 (ハードウェア・エラーを受け取った場合には、システム・オペレーター・ガイドで、 問題のデバイスまたは他の機器の診断の実行に関する情報を参照してください。 診断プログラムは、デバイスをテストし、デバイスに関連するエラー・ログ・エントリーを分析して、 デバイスの状態を判別します。)
- S
- ソフトウェア。
- O
- 通知メッセージ。
- U
- 未判別 (例えば、ネットワーク)。
- タイプ
- 発生したエラーの重大度。 起こり得るエラーのタイプを以下に示します。
- PEND
- デバイスまたはコンポーネントがまもなく使用できなくなるか失われる。
- PERF
- デバイスまたはコンポーネントのパフォーマンスが、受け入れ可能レベルより低くなった。
- PERM
- リカバリーできない条件。 この値のエラー・タイプは通常、最も重大なエラーであり、 欠陥のあるハードウェア・デバイスまたはソフトウェア・モジュールがある可能性が高いといえます。 以下以外のエラー・タイプPERM通常は障害を示すものではありませんが、診断プログラムで分析できるように記録されています。
- TEMP
- 多くの試みが失敗した後にリカバリーした条件。 このエラー・タイプは、DASD デバイスのデータ転送統計のような通知エントリーを記録するためにも使用されます。
- UNKN
- エラーの重大度を判別できない。
- 情報
- エラー・ログ・エントリーは通知エントリーであり、エラーの結果ではない。
- リソース名
- エラーを検出したリソースの名前。 ソフトウェア・エラーの場合。 これは、ソフトウェア・コンポーネントまたは実行可能プログラムの名前です。 ハードウェア・エラーの場合、これは、デバイスまたはシステム・コンポーネントの名前です。 これは、コンポーネントに欠陥があるとか、置換が必要であることを示しているのではありません。 むしろ、エラー分析のために適切な診断モジュールを決定するのに使用されます。
- リソース・クラス
- 障害を検出したリソースの一般クラス (例えば、以下の装置クラス)disk).
- リソース・タイプ
- 障害を検出したリソースのタイプ (例えば、以下の装置タイプ)355mb).
- ロケーション・コード
- デバイスへのパス。 4 つまでのフィールドが可能で、それぞれ、ドロワー、スロット、コネクター、およびポートを示します。
- VPD
- 重要プロダクト・データ。 このフィールドがある場合、その内容はさまざまです。 デバイスに関するエラー・ログ・エントリーは一般的に、デバイス・メーカー、 通し番号、技術変更レベル、 および読み取り専用ストレージのレベルに関する情報を戻します。
- 説明
- エラーの要約。
- Probable cause
- エラーの推定原因の一部のリスト。
- ユーザー原因
- ユーザーの間違いによるエラーに関する可能な理由のリスト。 ユーザーが原因のエラーの例は、挿入が不適切なディスクや、オンになっていない外部デバイス (モデムおよびプリンター) です。
- Recommended actions
- ユーザーが原因のエラーを訂正するためのアクションの記述。
- Install causes
- 誤ったインストール手順または構成手順によるエラーに関する可能な理由のリスト。 このタイプのエラーの例には、ハードウェアとソフトウェアの不一致、 ケーブルの誤ったインストールまたはケーブル接続のゆるみ、および不適切なシステム構成などがあります。
- Recommended actions
- インストールが原因のエラーを訂正するためのアクションの記述。
- 障害原因
- ハードウェアまたはソフトウェアの可能な欠陥のリスト。注: ソフトウェア・エラー・ログの障害原因セクションは、通常、ソフトウェア障害を示します。 ユーザーまたはインストール上あるいはその両方が原因であるが、 原因が障害ではない原因をリストするログは通常、 問題がソフトウェアの欠陥ではないことを示します。
ソフトウェアの欠陥が疑われる場合、またはユーザーまたはインストール上の原因を訂正できない場合には、 ソフトウェア保守部門に問題を報告してください。
- Recommended actions
- 障害を訂正するためのアクションの記述。 ハードウェア・エラーの場合PERFORM PROBLEM DETERMINATION PROCEDURESリストされている推奨処置の 1 つです。 ハードウェア・エラーの場合、これは、診断プログラムの実行を意味します。
- Detailed data
- デバイス・センス・データなどの、各エラー・ログ・エントリーに固有の障害データ。
- プロセスがコアをダンプする際の FILE SYSTEM SERIAL NUMBER や INODE NUMBER などの、プロセスの現行作業ディレクトリーに関する情報。
- ラベル
- 日付/時刻
- タイプ
- リソース名
- 説明
- Detail data
LABEL: STOK_RCVRY_EXIT
Date/Time: Tue Dec 14 15:25:33
Type: TEMP Resource Name: tok0
Description PROBLEM RESOLVED
Detail Data FILE NAME line: 273 file: stok_wdt.c
SENSE DATA
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1errpt -t -F report=0 | pgエラーの報告がオフになっている場合は、 errupdate コマンドを使用して、すべてのエラーの報告を使用可能にします。
errpt -t -F log=0 | pgエラーのロギングがオフになっている場合は、 errupdate コマンドを使用して、すべてのエラーのロギングを使用可能にします。 すべてのエラーを記録することは、システム・エラーの再作成が必要になった場合に役に立ちます。
詳細エラー・レポートの例
以下は、errpt -aコマンドを発行して生成されるエラー・レポート・エントリーのサンプルである。
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD:
Device Driver Level.........00
Diagnostic Level............00
Displayable Message.........SCSI
EC Level....................C25928
FRU Number..................30F8834
Manufacturer................IBM97F
Part Number.................59F4566
Serial Number...............00002849
ROS Level and ID............24
Read/Write Register Ptr.....0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Diagnostic Log sequence number: 153
Resource Tested: scsi0
Resource Description: SCSI I/O Controller
Location: 00-08
SRN: 889-191
Description: Error log analysis indicates hardware failure.
Probable FRUs:
SCSI Bus FRU: n/a 00-08
Fan Assembly
SCSI2 FRU: 30F8834 00-08
SCSI I/O ControllerLABEL: TOK_ESERR
ID: AF1621E8
Date/Time: Jun 20 11:28:11
Sequence Number: 17262
Machine Id: 123456789012
Node Id: host1
Class: H
Type: PEND
Resource Name: TokenRing
Resource Class: tok0
Resource Type: Adapter
Location: TokenRing
Description
EXCESSIVE TOKEN-RING ERRORS
Probable Causes
TOKEN-RING FAULT DOMAIN
Failure Causes
TOKEN-RING FAULT DOMAIN
Recommended Actions
REVIEW LINK CONFIGURATION DETAIL DATA
CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN
Detail Data
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000LABEL: DSI_PROC
ID: 20FAED7F
Date/Time: Jun 28 23:40:14
Sequence Number: 20136
Machine Id: 123456789012
Node Id: 123456789012
Class: S
Type: PERM
Resource Name: SYSVMM
Description
Data Storage Interrupt, Processor
Probable Causes
SOFTWARE PROGRAM
Failure Causes
SOFTWARE PROGRAM
Recommended Actions
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005LABEL: SCSI_ERR6
ID: 52DB7218
Date/Time: Jun 28 23:21:11
Sequence Number: 20114
Machine Id: 123456789012
Node Id: host1
Class: S
Type: INFO
Resource Name: scsi0
Description
SOFTWARE PROGRAM ERROR
Probable Causes
SOFTWARE PROGRAM
Failure Causes
SOFTWARE PROGRAM
Recommended Actions
IF PROBLEM PERSISTS THEN DO THE FOLLOWING
CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000LABEL: OPMSG
ID: AA8AB241
Date/Time: Jul 16 03:02:02
Sequence Number: 26042
Machine Id: 123456789012
Node Id: host1
Class: O
Type: INFO
Resource Name: OPERATOR
Description
OPERATOR NOTIFICATION
User Causes
errlogger COMMAND
Recommended Actions
REVIEW DETAILED DATA
Detail Data
MESSAGE FROM errlogger COMMAND
hdisk1 : Error log analysis indicates a hardware failure.要約エラー・レポートの例
次に示すのは、errpt コマンドを使用して生成される要約エラー・レポートの例です。 エラー・エントリーごとに、1 行の情報が戻ります。
ERROR_
IDENTIFIER TIMESTAMP T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0101000070 I 0 errdemon Error logging turned off
0E017ED1 0405131090 P H mem2 Memory failure
9DBCFDEE 0101000070 I 0 errdemon Error logging turned on
038F2580 0405131090 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130990 I O OPERATOR OPERATOR NOTIFICATIONエラー・レポートの生成
ソフトウェア障害またはハードウェア障害に関するエラー・レポートを作成するには、 以下を行ってください。
- 以下のコマンドを使って、エラー・ログにエントリーが入っているかどうかを判別して、
エラー・ログがオン/オフであるかを判別する。
errpt コマンドは、システム・エラー・ログのエントリーからエラー・レポートを生成します。errpt -aエラー・ログにエントリーが入っていない場合には、エラー・ログがオフになっています。 次のように入力して、この機能を活動化してください。/usr/lib/errdemon注: このコマンドを実行するには、root ユーザー・アクセス権限が必要です。errdemon デーモンは、エラー・ロギングを開始し、エラー・ログ・エントリーをシステム・エラー・ログに書き込みます。 このデーモンが実行していない場合、エラーは記録されません。
- errpt
コマンドを使用して、エラー・ログ・レポートを生成する。 例えば, システムのすべてのエラーを表示するためには,hdisk1ディスク・ドライブ、タイプ:
errpt -N hdisk1 - SMIT を使用してエラー・ログ・レポートを生成する。 例えば、smit errpt コマンドを使用します。
smit errpt- エラー・レポートを標準出力に送信するには 1 を、レポートをプリンターに送信するには 2 を選択してください。
- エラー・ログ・エントリーを表示または印刷するには、 はい を選択します。 それ以外の場合は、 いいえ
- 「Select resource names」 オプションで適切なデバイス名を指定します。hdisk1).
- 「実行」を選択します。
エラー・ログの停止
以下の手順は、エラー・ログ機能を停止する方法を示しています。
エラー・ロギングをオフにするには、 errstop コマンドを使用します。 このコマンドを使用するには、root ユーザー権限が必要です。
通常は、エラー・ログ機能をオフにする必要はありません。 その代わり、エラー・ログの古いエントリーまたは不要なエントリーをクリーンアップする必要があります。
新規ソフトウェアまたは新規ハードウェアのインストール時またはテスト時には、 エラー・ログ機能をオフにしてください。 このようにすれば、エラー・ログ・デーモンは、 テスト者が自分が問題を起こしたと認識できる問題を記録するために CPU 時間を使用しなくてすみます。
エラー・ログのクリーンアップ
エラー・ログのクリーニングは、通常、毎日の cron コマンドの一部として行われます。 自動的に実行されない場合には、自分自身で内容を調べて重大なエラーがないことを確認してから、 2 日に一度くらいの頻度でエラー・ログをクリーンアップしてください。
特定のエラーをクリーンアップすることもできます。 例えば、新規ディスクを入手し、混乱の原因となるログ内の古いディスクのエラー情報が不要であれば、 古いディスクのエラーだけをクリーンアップすることができます。
エラー・ログ内のすべてのエントリーを削除するには、以下のいずれかを実行します。
- errclear -dコマンドを使用する。 例えば、すべてのソフトウェア・エラーを削除するには、次のように入力します。
errclear コマンドは、 指定した日数より古いエントリーをエラー・ログから削除します。 この0上記の例では、すべての日の項目を削除することを示しています。errclear -d S 0 - smit errclear コマンドを使用します。
smit errclear
ディスケットまたはテープへのエラー・ログのコピー
エラー・ログをコピーするには、以下のいずれかを行います。
- エラー・ログをディスケットにコピーするには、 ls および backup コマンドを使用します。 フォーマット済みディスケットをディスケット・ドライブに挿入し、次のように入力します。
ls /var/adm/ras/errlog | backup -ivp - エラー・ログをテープにコピーするには、
テープをドライブに挿入してから、次のように入力します。
ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0 - tar ファイル内のシステム構成情報を収集し、
ディスケットにコピーするには、snap コマンドを使用します。 フォーマット済みディスケットをディスケット・ドライブに挿入し、次のように入力します。
snap -a -o /dev/rfd0注: snap コマンドを使用するには、root ユーザー権限が必要です。この例の snap コマンドは -a フラグを使用して、システム構成に関するすべての情報を収集しています。 -o フラグは、圧縮済みの tar ファイルを指定のデバイスにコピーします。 この/dev/rfd0ディスク・ドライブを指定します。
tar ファイル内のすべての構成情報を収集し、 テープにコピーするには、以下を入力します。snap -a -o /dev/rmt0この/dev/rmt0テープ装置の名前を指定します。
liberrlog サービスの使用
liberrlog サービスでは、 エラー・ログからエントリーを読み取ったり、 制限付きの更新機能を使用したりできます。 このサービスは特に、 シェル・スクリプトよりも、C プログラミング言語で作成されたエラー通知メソッドで役に立ちます。 エラー・ログにアクセスする場合、 liberrlog 関数を使用したほうが、 errpt コマンドを使用するよりもずっと効果的です。