情報源としてのシステム・ログの使用

System Automation のすべてのサブシステムおよび RSCT によって生成されるメッセージは、トラブルシューティングおよび問題判別の最初の情報源です。

  • Linux®: メッセージはシステム・ログ (/var/log/messages) に書き込まれます。
  • AIX®: システム・ロガーはデフォルトでは構成されません。 メッセージは、エラー・ログに書き込まれます。

    デバッグ・データを入手できるようにするため、ファイル /etc/syslog.conf で システム・ロガーを構成することをお勧めします。 必要な変更を行ったら、コマンド refresh –s syslogdを使用して syslogd をリサイクルする必要があります。 ログ・ファイルのロケーションは /etc/syslog.conf に定義されています。

メッセージは、以下のイベントのシステム・ログに記録されています。
  • サブシステムの開始。例えば、次のとおりです。
    Mar 10 13:04:15 node1 RecoveryRM[5482]: (Recorded using libct_ffdc.a cv 
    2):::Error ID: 824....zgK22/WNI/8cU0B....................:::Reference 
    ID:  :::Template ID: 0:::Details File:  :::Location:
     RSCT,IBM.RecoveryRMd.C,1.21.1.2,135           :::RECOVERYRM_INFO_0_ST 
    IBM.RecoveryRM daemon has started.
  • サブシステムの停止。例えば、次のとおりです。
    Mar 10 13:04:28 node1 RecoveryRM[5482]: (Recorded using libct_ffdc.a cv 
    2):::Error ID: 822....AhK22/osT18cU0B....................:::Reference 
    ID:  :::Template ID: 0:::Details File:  :::Location: 
    RSCT,RecoveryRMDaemon.C,1.14,177              :::RECOVERYRM_2621_402_ER 
    IBM.RecoveryRM daemon stopped by SRC command or exiting due to an error 
    condition . Error id  0
  • サブシステムのエラー。例えば、次のとおりです。
    Mar 10 13:04:14 node1 srcmstr: src_error=-9035, errno=0,
    module='srchevn.c'@line:'251', 0513-035 The IBM.RecoveryRM Subsystem ended
    abnormally. SRC will try and restart it.
  • サブクラスターの Quorum 状態に関連するメッセージ。例えば、次のとおりです。
    Mar  9 16:13:07 node1 ConfigRM[31411]: (Recorded using libct_ffdc.a cv
    2):::Error ID: :::Reference ID:  :::Template ID: 0:::Details
    File:  :::Location: 
    RSCT,PeerDomain.C,1.99.11.1,15510             :::CONFIGRM_HASQUORUM_ST The 
    operational quorum state of the active peer domain has changed to 
    HAS_QUORUM.  In this state, cluster resources may be recovered and 
    controlled as needed by  management applications.
  • IBM.ServiceIP リソースの開始および停止。例えば、次のとおりです。
    Mar  8 09:41:08 node1 GblResRM[1886]: (Recorded using libct_ffdc.a cv 2):::Error 
    ID: :::Reference ID:  :::Template ID: 0:::Details File:  :::Location: 
    RSCT,ServiceIP.C,1.2.5,1360                   :::GBLRESRM_IPONLINE IBM.ServiceIP 
    assigned address on device. IBM.ServiceIP 10.67.78.89 eth1:1
    
    Mar  8 09:42:44 node1 GblResRM[1886]: (Recorded using libct_ffdc.a cv 2):::Error 
    ID: :::Reference ID:  :::Template ID: 0:::Details File:  :::Location: 
    RSCT,ServiceIP.C,1.2.5,1434                   :::GBLRESRM_IPOFFLINE 
    IBM.ServiceIP removed address. IBM.ServiceIP 10.67.78.89
  • クラス IBM.Application のリソースの StartCommand、StopCommand、または MonitorCommand はタイムアウトになります。例えば、次のとおりです。
    Mar 13 10:25:55 node1 GblResRM[24275]: (Recorded using libct_ffdc.a cv 
    2):::Error ID: :::Reference ID:  :::Template ID: 0:::Details File:  :::Location: 
    RSCT,Application.C,1.2.1,2434                 :::GBLRESRM_MONITOR_TIMEOUT 
    IBM.Application monitor command timed out. Resource name resource1
ヒント: デフォルトでログに記録されるデータに加えて、 IBM.Application リソースの StartCommand および StopCommand の実行を特定の場所に記録することをお勧めします。
System Automation 用の既製のポリシーが備えるスクリプトは、デフォルトでは、リソースの StartCommand および StopCommand のすべての実行をシステム・ログに記録します。 以下の出力例で、リソースが NFS サーバー用の既製のポリシーの StartCommand から開始される際に、システム・ログに書き込まれるデータを示します。
Mar 13 10:34:31 node1 /usr/sbin/rsct/sapolicies/nfsserver/nfsserverctrl-
server:[27230]: NFS server started