エラー・ログ作業

このセクションでは、エラー・ログ作業と関連情報について説明します。

エラー・ログ機能の使用に役立つエラー・ログ作業および情報を以下のセクションで説明します。

エラー・レポートの読み取り
詳細エラー・レポートの例
要約エラー報告書の例
エラー・レポートの生成
エラー・ログの停止
エラー・ログのクリーンアップ
ディスケットまたはテープへのエラー・ログのコピー
liberrlog サービスの使用

エラー・レポートの読み取り

障害前の 24 時間以内に記録されたすべてのエラーに関するレポートを入手するには、次のように入力します。

errpt -a -s mmddhhmmyy | pg

ここで mmddhhmmyy は、障害の 24 時間前の時点の月、日、時、分、および年を示します。

エラー・ログ・レポートには、以下の情報が示されます。

注: すべてのエラーが以下の各カテゴリーの情報を生成するわけではありません。

ラベル

イベントの事前定義名。

ID

イベントの数値 ID。

日付/時刻

イベントの日時。

シーケンス番号

イベントに固有の番号。

Machine ID

システム・プロセッサー装置の識別番号。

Node ID

システムのニーモニック名。

クラス

エラーの一般的な原因。可能なエラー・クラスを以下に示します。

h: ハードウェア。 (ハードウェア・エラーを受け取った場合には、システム・オペレーター・ガイドで、問題のデバイスまたは他の機器の診断の実行に関する情報を参照してください。診断プログラムは、デバイスをテストし、デバイスに関連するエラー・ログ・エントリーを分析して、デバイスの状態を判別します。)
S: ソフトウェア。
O: 通知メッセージ。
U: 未判別 (例えば、ネットワーク)。

タイプ

発生したエラーの重大度。起こり得るエラーのタイプを以下に示します。

PEND: デバイスまたはコンポーネントがまもなく使用できなくなるか失われる。
PERF: デバイスまたはコンポーネントのパフォーマンスが、受け入れ可能レベルより低くなった。
PERM: リカバリーできない条件。この値のエラー・タイプは通常、最も重大なエラーであり、欠陥のあるハードウェア・デバイスまたはソフトウェア・モジュールがある可能性が高いといえます。以下以外のエラー・タイプPERM通常は障害を示すものではありませんが、診断プログラムで分析できるように記録されています。
TEMP: 多くの試みが失敗した後にリカバリーした条件。このエラー・タイプは、DASD デバイスのデータ転送統計のような通知エントリーを記録するためにも使用されます。
UNKN: エラーの重大度を判別できない。
情報: エラー・ログ・エントリーは通知エントリーであり、エラーの結果ではない。

リソース名

エラーを検出したリソースの名前。ソフトウェア・エラーの場合。これは、ソフトウェア・コンポーネントまたは実行可能プログラムの名前です。ハードウェア・エラーの場合、これは、デバイスまたはシステム・コンポーネントの名前です。これは、コンポーネントに欠陥があるとか、置換が必要であることを示しているのではありません。むしろ、エラー分析のために適切な診断モジュールを決定するのに使用されます。

リソース・クラス

障害を検出したリソースの一般クラス (例えば、以下の装置クラス)disk).

リソース・タイプ

障害を検出したリソースのタイプ (例えば、以下の装置タイプ)355mb).

ロケーション・コード

デバイスへのパス。 4 つまでのフィールドが可能で、それぞれ、ドロワー、スロット、コネクター、およびポートを示します。

VPD

重要プロダクト・データ。このフィールドがある場合、その内容はさまざまです。デバイスに関するエラー・ログ・エントリーは一般的に、デバイス・メーカー、通し番号、技術変更レベル、および読み取り専用ストレージのレベルに関する情報を戻します。

説明

エラーの要約。

Probable cause

エラーの推定原因の一部のリスト。

ユーザー原因

ユーザーの間違いによるエラーに関する可能な理由のリスト。ユーザーが原因のエラーの例は、挿入が不適切なディスクや、オンになっていない外部デバイス (モデムおよびプリンター) です。

Recommended actions

ユーザーが原因のエラーを訂正するためのアクションの記述。

Install causes

誤ったインストール手順または構成手順によるエラーに関する可能な理由のリスト。このタイプのエラーの例には、ハードウェアとソフトウェアの不一致、ケーブルの誤ったインストールまたはケーブル接続のゆるみ、および不適切なシステム構成などがあります。

Recommended actions

インストールが原因のエラーを訂正するためのアクションの記述。

障害原因

ハードウェアまたはソフトウェアの可能な欠陥のリスト。

注: ソフトウェア・エラー・ログの障害原因セクションは、通常、ソフトウェア障害を示します。ユーザーまたはインストール上あるいはその両方が原因であるが、原因が障害ではない原因をリストするログは通常、問題がソフトウェアの欠陥ではないことを示します。

ソフトウェアの欠陥が疑われる場合、またはユーザーまたはインストール上の原因を訂正できない場合には、ソフトウェア保守部門に問題を報告してください。

Recommended actions

障害を訂正するためのアクションの記述。ハードウェア・エラーの場合PERFORM PROBLEM DETERMINATION PROCEDURESリストされている推奨処置の 1 つです。ハードウェア・エラーの場合、これは、診断プログラムの実行を意味します。

Detailed data

デバイス・センス・データなどの、各エラー・ログ・エントリーに固有の障害データ。
プロセスがコアをダンプする際の FILE SYSTEM SERIAL NUMBER や INODE NUMBER などの、プロセスの現行作業ディレクトリーに関する情報。

-a フラグを使って作成した明細報告書の短縮版を表示するには、-A フラグを使います。 -A フラグは、 -a, -g, が指定されている場合は無効です。または -t フラグ。 -A を使って短縮版のレポートを作成したときに報告される項目は次のとおりです。

ラベル
日付/時刻
タイプ
リソース名
説明
Detail data

このフラグの出力例は次のような形式になります。

LABEL:           STOK_RCVRY_EXIT
Date/Time:       Tue Dec 14 15:25:33
Type:            TEMP Resource Name:   tok0
Description PROBLEM RESOLVED
Detail Data FILE NAME line: 273 file: stok_wdt.c 
SENSE DATA 
0000 0000 0000 0000 0000 0000 DEVICE ADDRESS 0004 AC62 25F1

一部のエラーに関するレポート作成がオフになっている場合があります。どのエラーのレポート作成がオフになっているかを表示するには、次のように入力します。

errpt -t -F report=0 | pg

エラーの報告がオフになっている場合は、 errupdate コマンドを使用して、すべてのエラーの報告を使用可能にします。

一部のエラーに関する記録がオフになっている場合があります。どのエラーの記録がオフになっているかを表示するには、次のように入力します。

errpt -t -F log=0 | pg

エラーのロギングがオフになっている場合は、 errupdate コマンドを使用して、すべてのエラーのロギングを使用可能にします。すべてのエラーを記録することは、システム・エラーの再作成が必要になった場合に役に立ちます。

詳細エラー・レポートの例

以下は、errpt -aコマンドを発行して生成されるエラー・レポート・エントリーのサンプルである。

エラー・クラス値 H およびエラー・タイプ値 PERM は、システムがハードウェア障害 (SCSI アダプター・デバイス・ドライバーなど) を検出し、リカバリーできなかったことを示します。このタイプのエラーには、診断情報が関連付けられている可能性があります。その場合、デバイス・ドライバーで検出された問題に関する以下の例で示されているように、診断情報がエラー・リストの最後に表示されます。

LABEL:      SCSI_ERR1
ID:         0502F666

Date/Time:        Jun 19 22:29:51
Sequence Number:  95
Machine ID:       123456789012
Node ID:          host1
Class:            H
Type:             PERM
Resource Name:    scsi0
Resource Class:   adapter
Resource Type:    hscsi
Location:         00-08
VPD:
     Device Driver Level.........00
     Diagnostic Level............00
     Displayable Message.........SCSI
     EC Level....................C25928
     FRU Number..................30F8834
     Manufacturer................IBM97F
     Part Number.................59F4566
     Serial Number...............00002849
     ROS Level and ID............24
     Read/Write Register Ptr.....0120

Description
ADAPTER ERROR

Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE

Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE

          Recommended Actions
          PERFORM PROBLEM DETERMINATION PROCEDURES
          CHECK CABLE AND ITS CONNECTIONS

Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 

Diagnostic Log sequence number:  153
Resource Tested:        scsi0
Resource Description:   SCSI I/O Controller
Location:               00-08
SRN:                    889-191
Description:            Error log analysis indicates hardware failure.
Probable FRUs:
    SCSI Bus        FRU: n/a            00-08
                    Fan Assembly
    SCSI2           FRU: 30F8834        00-08
                    SCSI I/O Controller

エラー・クラス値 H およびエラー・タイプ値 PEND は、システムが多くのエラーを検出したので、 1 つのハードウェア (トークンリング) がまもなく使用できなくなることを示します。

LABEL:    TOK_ESERR
ID:       AF1621E8

Date/Time:       Jun 20 11:28:11
Sequence Number: 17262
Machine Id:      123456789012
Node Id:         host1
Class:           H
Type:            PEND
Resource Name:   TokenRing
Resource Class:  tok0
Resource Type:   Adapter
Location:        TokenRing

Description
EXCESSIVE TOKEN-RING ERRORS

Probable Causes
TOKEN-RING FAULT DOMAIN

Failure Causes
TOKEN-RING FAULT DOMAIN

        Recommended Actions
        REVIEW LINK CONFIGURATION DETAIL DATA
        CONTACT TOKEN-RING ADMINISTRATOR RESPONSIBLE FOR THIS LAN

Detail Data
SENSE DATA
0ACA 0032 A440 0001 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 2080 0000 0000 0010 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 78CC 0000 0000 0005 C88F 0304 F4E0 0000 1000 5A4F 5685 
1000 5A4F 5685 3030 3030 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000 0000 0000 0000 0000

エラー・クラス値 S およびエラー・タイプ値 PERM は、システムがソフトウェアで問題を検出し、リカバリーできなかったことを示します。

LABEL:    DSI_PROC
ID:       20FAED7F
 
Date/Time:       Jun 28 23:40:14
Sequence Number: 20136
Machine Id:      123456789012
Node Id:         123456789012
Class:           S
Type:            PERM
Resource Name:   SYSVMM

Description
Data Storage Interrupt, Processor

Probable Causes
SOFTWARE PROGRAM

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
Data Storage Interrupt Status Register
4000 0000
Data Storage Interrupt Address Register
0000 9112
Segment Register, SEGREG
D000 1018
EXVAL
0000 0005

エラー・クラス値 S およびエラー・タイプ値 TEMP は、システムがソフトウェアで問題を検出したことを示します。システムは、問題からのリカバリーを数回試みましたが、リカバリーできませんでした。

LABEL:          SCSI_ERR6
ID:             52DB7218
 
Date/Time:       Jun 28 23:21:11
Sequence Number: 20114
Machine Id:      123456789012
Node Id:         host1
Class:           S
Type:            INFO
Resource Name:   scsi0

Description
SOFTWARE PROGRAM ERROR

Probable Causes
SOFTWARE PROGRAM

Failure Causes
SOFTWARE PROGRAM

        Recommended Actions
        IF PROBLEM PERSISTS THEN DO THE FOLLOWING
        CONTACT APPROPRIATE SERVICE REPRESENTATIVE

Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0011 0000 0008 000E 0900 0000 0000 FFFF 
FFFE 4000 1C1F 01A9 09C4 0000 000F 0000 0000 0000 0000 FFFF FFFF 
0325 0018 0040 1500 0000 0000 0000 0000 0000 0000 0000 0000 0800 
0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 
0000 0000

エラー・クラス値 O は、通知メッセージが記録されたことを示します。

LABEL:     OPMSG
ID:        AA8AB241
 
Date/Time:       Jul 16 03:02:02
Sequence Number: 26042
Machine Id:      123456789012
Node Id:         host1
Class:           O
Type:            INFO
Resource Name:   OPERATOR

Description
OPERATOR NOTIFICATION

User Causes
errlogger COMMAND

        Recommended Actions
        REVIEW DETAILED DATA

Detail Data
MESSAGE FROM errlogger COMMAND
hdisk1 : Error log analysis indicates a hardware failure.

要約エラー・レポートの例

次に示すのは、errpt コマンドを使用して生成される要約エラー・レポートの例です。エラー・エントリーごとに、1 行の情報が戻ります。

ERROR_
IDENTIFIER TIMESTAMP  T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071   0101000070 I 0  errdemon      Error logging turned off
0E017ED1   0405131090 P H  mem2          Memory failure
9DBCFDEE   0101000070 I 0  errdemon      Error logging turned on
038F2580   0405131090 U H  scdisk0       UNDETERMINED ERROR
AA8AB241   0405130990 I O  OPERATOR      OPERATOR NOTIFICATION

エラー・レポートの生成

ソフトウェア障害またはハードウェア障害に関するエラー・レポートを作成するには、以下を行ってください。

以下のコマンドを使って、エラー・ログにエントリーが入っているかどうかを判別して、エラー・ログがオン/オフであるかを判別する。
```
errpt -a
```
errpt コマンドは、システム・エラー・ログのエントリーからエラー・レポートを生成します。
エラー・ログにエントリーが入っていない場合には、エラー・ログがオフになっています。次のように入力して、この機能を活動化してください。
```
/usr/lib/errdemon
```
注: このコマンドを実行するには、root ユーザー・アクセス権限が必要です。

errdemon デーモンは、エラー・ロギングを開始し、エラー・ログ・エントリーをシステム・エラー・ログに書き込みます。このデーモンが実行していない場合、エラーは記録されません。
errpt コマンドを使用して、エラー・ログ・レポートを生成する。例えば, システムのすべてのエラーを表示するためには,hdisk1ディスク・ドライブ、タイプ:
```
errpt -N hdisk1
```
SMIT を使用してエラー・ログ・レポートを生成する。例えば、smit errpt コマンドを使用します。
```
smit errpt
```
1. エラー・レポートを標準出力に送信するには 1 を、レポートをプリンターに送信するには 2 を選択してください。
2. エラー・ログ・エントリーを表示または印刷するには、はいを選択します。それ以外の場合は、 いいえ
3. 「Select resource names」 オプションで適切なデバイス名を指定します。hdisk1).
4. 「実行」を選択します。

エラー・ログの停止

以下の手順は、エラー・ログ機能を停止する方法を示しています。

エラー・ロギングをオフにするには、 errstop コマンドを使用します。このコマンドを使用するには、root ユーザー権限が必要です。

通常は、エラー・ログ機能をオフにする必要はありません。その代わり、エラー・ログの古いエントリーまたは不要なエントリーをクリーンアップする必要があります。

新規ソフトウェアまたは新規ハードウェアのインストール時またはテスト時には、エラー・ログ機能をオフにしてください。このようにすれば、エラー・ログ・デーモンは、テスト者が自分が問題を起こしたと認識できる問題を記録するために CPU 時間を使用しなくてすみます。

エラー・ログのクリーンアップ

エラー・ログのクリーニングは、通常、毎日の cron コマンドの一部として行われます。自動的に実行されない場合には、自分自身で内容を調べて重大なエラーがないことを確認してから、 2 日に一度くらいの頻度でエラー・ログをクリーンアップしてください。

特定のエラーをクリーンアップすることもできます。例えば、新規ディスクを入手し、混乱の原因となるログ内の古いディスクのエラー情報が不要であれば、古いディスクのエラーだけをクリーンアップすることができます。

エラー・ログ内のすべてのエントリーを削除するには、以下のいずれかを実行します。

errclear -dコマンドを使用する。例えば、すべてのソフトウェア・エラーを削除するには、次のように入力します。
```
errclear -d S 0
```
errclear コマンドは、指定した日数より古いエントリーをエラー・ログから削除します。この0上記の例では、すべての日の項目を削除することを示しています。
smit errclear コマンドを使用します。
```
smit errclear
```

ディスケットまたはテープへのエラー・ログのコピー

エラー・ログをコピーするには、以下のいずれかを行います。

エラー・ログをディスケットにコピーするには、 ls および backup コマンドを使用します。フォーマット済みディスケットをディスケット・ドライブに挿入し、次のように入力します。
```
ls /var/adm/ras/errlog | backup -ivp
```
エラー・ログをテープにコピーするには、テープをドライブに挿入してから、次のように入力します。
```
ls /var/adm/ras/errlog | backup -ivpf/dev/rmt0
```
tar ファイル内のシステム構成情報を収集し、ディスケットにコピーするには、snap コマンドを使用します。フォーマット済みディスケットをディスケット・ドライブに挿入し、次のように入力します。
```
snap -a -o /dev/rfd0
```
注: snap コマンドを使用するには、root ユーザー権限が必要です。

この例の snap コマンドは -a フラグを使用して、システム構成に関するすべての情報を収集しています。 -o フラグは、圧縮済みの tar ファイルを指定のデバイスにコピーします。この/dev/rfd0ディスク・ドライブを指定します。
tar ファイル内のすべての構成情報を収集し、テープにコピーするには、以下を入力します。
```
snap -a -o /dev/rmt0
```
この/dev/rmt0テープ装置の名前を指定します。

liberrlog サービスの使用

liberrlog サービスでは、エラー・ログからエントリーを読み取ったり、制限付きの更新機能を使用したりできます。このサービスは特に、シェル・スクリプトよりも、C プログラミング言語で作成されたエラー通知メソッドで役に立ちます。エラー・ログにアクセスする場合、 liberrlog 関数を使用したほうが、 errpt コマンドを使用するよりもずっと効果的です。