对传感器进行故障诊断

本主题描述了 IBM® Tivoli® Monitoring 作用域传感器发生的常见问题,并提供了这些问题的解决方案。

将创建定义作用域之外的计算机系统

问题
在发现期间,将创建一些在定义的作用域之外的计算机系统。
解决方案
如果此传感器的发现概要文件中的 discoverITMEndpoints 属性设置为 true,那么在发现期间,传感器将为 Tivoli Enterprise Portal Server 已知的每个 Tivoli Monitoring 端点创建一个计算机系统。 即使端点位于包含门户网站服务器的初始发现作用域之外,也会进行此创建。

将覆盖使用发现管理控制台对生成的 Tivoli Monitoring 作用域进行的更新

问题
将覆盖使用发现管理控制台对先前发现中生成的 Tivoli Monitoring 作用域进行的更新。
解决方案
在级别 1 发现期间,将根据 Tivoli Enterprise Portal Server 的名称创建新的作用域。 下次在级别 1 或级别 2 发现期间发现门户网站服务器时,将覆盖此作用域。

要更改所生成的 Tivoli Monitoring 作用域,请使用包含所生成作用域的元素的其他名称创建作用域。

在大型 Tivoli Monitoring 环境中,传感器由于超时错误而失败

问题
在大型 Tivoli Monitoring 环境中, Tivoli Monitoring 作用域传感器由于超时错误而失败。
解决方案
etc/collation.properties 文件中,编辑以下属性,其中 value 是允许传感器运行的毫秒数 (例如, 60000 表示 1 分钟):
com.collation.discover.agent.ITMScopeSensor.timeout=value

当目标系统与 Tivoli Enterprise Portal Server 或 TADDM 之间存在慢速网络链路或许多路由器中继段时,传感器将失败并发生超时错误

问题
Tivoli Monitoring Scope 传感器失败,发生超时错误。 目标系统与 Tivoli Enterprise Portal Server 或 TADDM 之间存在慢速网络链路或许多路由器中继段。 该环境包含 Windows , Linux®和 UNIX 系统。
解决方案
此问题是由 TCP 缓冲区设置引起的。 由于缓冲区大小有时太小,因此 TADDM 传感器和 Tivoli Enterprise Portal Server 的性能很差。

要解决此问题,请根据操作系统完成以下步骤:

在 AIX® 系统上:
  1. 请运行以下命令:
    /usr/sbin/no -o tcp_sendspace=32768
    /usr/sbin/no -o tcp_recvspace=32768  
  2. 重新启动 TADDM 服务器。
在 Linux 系统上:
  1. 使用以下设置编辑 /etc/sysctl.conf 文件:
    # increase TCP maximum buffer size
    		net.core.rmem_max = 16777216
    		net.core.wmem_max = 16777216
    
    # increase Linux autotuning TCP buffer limits
    
    # min, default, and maximum number of bytes to use
    		net.ipv4.tcp_rmem = 4096 87380 16777216
    		net.ipv4.tcp_wmem = 4096 65536 16777216
  2. 运行 sysctl -p 以读取并设置新值。
  3. 重新启动 TADDM 服务器。
在 Solaris 系统上:
  1. 请运行以下命令:
    /usr/sbin/ndd -set /dev/tcp tcp_xmit_hiwat 32768
    /usr/sbin/ndd -set /dev/tcp tcp_recv_hiwat 32768
  2. 重新启动 TADDM 服务器。

部署发现目标支持捆绑软件后运行 tacmd getDeployStatus 命令时产生错误消息

问题
在部署发现目标支持捆绑软件之后,运行 tacmd getDeployStatus 命令会产生以下一条或多条消息:
  • 错误消息: KDY1024E: 命令 /opt/IBM/ITM/bin/CandleAgent
    -h /opt/IBM/ITM start d7 未启动或停止代理程序。
    该命令返回了返回码。
  • 错误消息: KDY1008E: 代理程序操作 INSTALL 失败,
    产品代码 d7的返回码。 命令
    /opt/IBM/ITM/tmaitm6/aix526/bin/kdy_xa -setCMS d7 生成了
    following error text: <Variable formatSpec="{4}">stdErr
    Text</Variable>.  The specified return code was received from
    双向翻译器。
  • 错误消息: KDY1024E: 代理程序未能响应
    命令 C: \itmagent\installITM\Batch\kincli -startagent -akd7 
    未启动或停止代理程序。 该命令返回了 
    故障返回码。
解决方案
这些消息未指示实际错误,因为发现目标支持捆绑软件并非旨在响应代理程序 startstop 命令。 Tivoli Monitoring cinfo 命令也不会列出支持捆绑软件,因为支持捆绑软件是对现有操作系统代理程序的添加。
验证发现目标支持捆绑软件是否正确安装在发现目标上。 从目标计算机上的 Tivoli Monitoring 目录中,运行 directory 命令,如以下示例中所示:
C:\Documents and Settings\Administrator>cd %CANDLEHOME%

C:\IBM\ITM>dir taddm
 Volume in drive C has no label.
 Volume Serial Number is B81D-9114

 Directory of C:\IBM\ITM\taddm

09/24/2010  06:38 PM    <DIR>          .
09/24/2010  06:38 PM    <DIR>          ..
09/24/2010  06:38 PM             6,656 Base64.exe
09/24/2010  06:38 PM             1,960 KD7WINNT.dsc
09/24/2010  06:38 PM             1,363 post.bat
09/24/2010  06:38 PM             4,280 pre.bat
09/24/2010  06:38 PM           249,856 TaddmTool.exe
09/24/2010  06:38 PM           474,624 TaddmTool.pdb
09/24/2010  06:38 PM           569,344 TaddmWmi.dll
09/24/2010  06:38 PM           106,496 TaddmWmi.exe
09/24/2010  06:38 PM             1,424 TaddmWmi.mof
09/24/2010  06:38 PM         2,968,576 TaddmWmi.pdb
              10 File(s)      4,384,579 bytes
               2 Dir(s)  10,931,712,000 bytes free
发现支持捆绑软件文件必须存在于 %CANDLE_HOME%\taddm 目录中。

在 Windows 目标系统上运行级别 2 发现的传感器时,将在运行 Tivoli Enterprise Portal Server 的计算机上打开多个命令窗口

问题
在 Windows 目标系统上运行 IBM Tivoli Monitoring Scope sensor for a Level 2 发现时,将在运行 Tivoli Enterprise Portal Server 的计算机上打开多个命令窗口。
解决方案
IBM Tivoli Monitoring Windows 操作系统代理程序可能配置为作为系统服务运行,并且已启用 允许服务与桌面交互 选项。 请完成以下步骤以更正此问题:
  1. 右键单击 "管理 Tivoli Monitoring Services " 程序中的代理程序。
  2. 单击 更改启动
  3. 在打开的窗口的 " 登录方式 " 窗格中,取消选中 允许服务与桌面交互 复选框。
  4. 单击确定
  5. 再次右键单击 "管理 Tivoli Monitoring Services " 程序中的代理程序。
  6. 单击 回收

临时文件位于目标系统的日志目录中

问题
在通过 IBM Tivoli Monitoring进行级别 2 发现期间,某些命令在端点上失败,这会导致多个 KD7* 文件或 session_script*.bat 文件位于目标系统的日志目录中。 由于其他原因 (例如,发现过早结束或 Tivoli Monitoring 代理程序与 Tivoli Enterprise Monitoring Server 的连接存在问题) ,也可能存在这些文件。
解决方案
管理员可以在发现未运行的任何时候手动除去这些文件。 在发现期间除去这些文件可能会导致发现失败。

发现目标的输出中存在尾部空格

问题
如果创建在 IBM Tivoli Monitoring Scope 传感器下运行的定制服务器模板,那么发现目标的输出中可能存在尾部空格 (例如换行符或回车符)。
解决方案
要确保定制服务器模板在与 Tivoli Monitoring Scope 传感器配合使用时提供相同的输出,请除去定制服务器模板的服务器端逻辑中的空格。

升级 IBM Tivoli Monitoring后,发现期间发生错误

问题
在升级 IBM Tivoli Monitoring之后,由于以下原因,发现期间可能会发生错误:
  • 更新 Tivoli Monitoring 库或代理程序表的结果
  • TADDM 发现逻辑的更新结果
解决方案
如果错误是由于 Tivoli Monitoring 库或代理程序表的更新所致,请重做以下任务:

如果上述解决方案都不起作用,请确保 collation.properties 文件中的 com.ibm.cdb.discover.ITM.https.strictChecking 属性设置为 false。 缺省情况下,不会将此属性添加到 collation.properties 文件,这意味着其缺省值为 false。 此属性仅用于 SSL 会话。 如果将其设置为 true,那么连接主机名必须与证书主机名匹配。 否则,发现将失败。

发现 Tivoli Monitoring 6.2.2 环境期间发生错误

问题
在发现 Tivoli Monitoring V6.2.2 环境期间, Tivoli Enterprise Monitoring Server 可能会意外关闭,从而生成以下 TADDM 错误消息:
  • CTJTD0203E The Computer System agent cannot retrieve the host 
    and IP information for the following computer system
  • CTJTD3000E Starting - An error occurs and the sensor timed out
解决方案
验证 Tivoli Monitoring 服务器上的 Tivoli Enterprise Monitoring Server 进程是否正在运行,如果需要,请重新启动 Tivoli Enterprise Monitoring Server。 由于代理请求过多 (这与 Tivoli Monitoring 6.2.2 的已知问题相关) ,此进程可能会意外关闭。 有关更多信息,请参阅 Tivoli Monitoring APAR IZ52960.2。

Tivoli Monitoring 作用域不包含 Tivoli Enterprise Portal Server 上定义的所有端点

问题
在发现期间创建的 Tivoli Monitoring 作用域不包含 Tivoli Enterprise Portal Server 上定义的所有端点。
解决方案
无法解析其 MAC 地址的不活动端点和端点不会包含在创建的作用域集中。

目标由 IBM Tivoli Monitoring 会话发现,但在级别 2 发现期间不由 SSH 或 WMI 发现

问题
当 IBM Tivoli Monitoring 作用域传感器发现端点时,缺省情况下,将来的级别 2 发现将使用 Tivoli Monitoring 进行发现。 不使用直接连接 (SSH 或 WMI)。 即使 IBM Tivoli Monitoring Scope 传感器未包含在发现概要文件中,也会使用此方法。
解决方案
要通过 SSH 或 WMI 发现端点,请在 collation.properties 文件中定义以下属性: com.ibm.cdb.session.allow.ITM.endpoint_ip_address=false

有关如何修改影响 TADDM 如何发现 Tivoli Monitoring 端点的属性的信息,请参阅 TADDM 管理员指南

Tivoli Enterprise Portal Server 上的活动报告查询过多

问题
SessionSensor.log 文件中生成以下参考消息:
KFWITM460E: Too many active report queries from client IPAddress;
 exceeding limit at number requests.
解决方案
增加最大暂挂请求数。 在 Tivoli Enterprise Portal Server 上编辑配置设置,在 Windows 操作系统上编辑 KFWENV 文件,在 Linux 或 UNIX 操作系统上使用以下设置编辑 cq.ini 文件:
KFW_REPORT_REQUEST_LIMIT_MAX=100 
KFW_REPORT_REQUEST_LIMIT=30 
KFW_REPORT_REQUEST_LIMIT_DURATION=300
KFW_REPORT_REQUEST_LIMIT 属性指定从单个客户机向 Tivoli Enterprise Portal Server 发出的暂挂请求的正常限制。 KFW_REPORT_REQUEST_LIMIT_MAX 指定可超过 KFW_REPORT_REQUEST_LIMIT的暂挂请求的临时最大限制,仅允许在 KFW_REPORT_REQUEST_LIMIT_DURATION 定义的时间脉冲串期间 (以秒计)。