内容


通过 IBM Electronic Service Agent for IBM PowerLinux 报告 IBM PowerKVM 主机的问题

主动检测硬件问题来实现更高可用性

Comments

Electronic Service Agent 的一些背景知识

IBM Electronic Service Agent (ESA) 是 IBM Power Systems™ 上的一个免费的软件工具,用于自动连续监视、收集并向 IBM Electronic Support 提交硬件问题信息。IBM ESA 还可以经常收集和提交硬件、软件、性能和系统配置信息,这些可以帮助 IBM 支持团队诊断问题。ESA 是一个在多个平台上运行的产品。IBM AIX® 和 IBM i 操作系统中有一个版本。IBM Power® Hardware Management Console (HMC)、IBM Systems Director、IBM Flex System Manager® 和 IBM 的 PowerLinux 安装工具包中有一个嵌入式版本。对于 ESA 3.0 或更高版本的 PowerLinux,支持向 IBM PowerKVM 主机报告问题。ESA 可以监视多个 PowerKVM 系统,主动、自动报告 PowerKVM 主机上发生的硬件问题,这会实现高度可用的 PowerKVM 服务器。本文只介绍 PowerKVM 主机的硬件问题报告功能。

PowerKVM 主机问题报告

要为 PowerKVM 实现自动问题检测和报告功能,需要在 Power 服务器上满足以下前提条件:

  • 在任何 PowerLinux 系统 [独立、逻辑分区 (LPAR) 或基于内核的虚拟机 (KVM) 来宾] 上安装上 Electronic Service Agent 3.0 或更高版本并激活该版本
  • 在 PowerKVM 主机上安装 IBM Serviceable Event Provider RPM
    备注:PowerKVM 2.1.1 默认情况下附带了 Serviceable Event Provider。PowerKVM 2.1.0 默认情况下不包含 Serviceable Event Provider。需要下载 Serviceable Event Provider 并将它安装在 PowerKVM 2.1.0 主机上。
  • PowerKVM 主机通过 WSA 发现

发现 PowerKVM 主机

为了成功发现该主机,必须在 KVM 主机上安装一个 Serviceable Event Provider RPM。IBM Serviceable Event Provider 检测 KVM 主机上发生的硬件问题,并向订阅的收听者发送 SNMP 警报。

执行最初的发现操作需要使用根凭据,但是作为发现过程的一部分,ESA 创建了一个特定的用户 esaadmin,它拥有运行 ESA 所需的所有命令的必要特权,并生成存储在 ESA 和 KVM 主机上的公钥-私钥对,以便 ESA 系统无需密码就可以登录。因此,在此过程中,不会存储或保存任何 KVM 主机系统的根凭据。

发现操作还会启动 Serviceable Event Provider,允许系统订阅它。

执行以下步骤来执行发现操作:

  1. 打开 ESA Web 控制台,单击左侧导航窗格上的 Discovery 并输入 PowerKVM 主机 IP 和凭据(需要根凭据)。
图 1. 打开 Discovery 面板
  1. 单击 Verify Connectivity 来验证 ESA 与 KVM 主机之间的连接。
图 2. 验证连接
  1. 单击 Add System 将 PowerKVM 系统添加到 ESA。
图 3. 添加系统
  1. 单击 Refresh Log 按钮获取最新的发现状态。
图 4. 刷新发现日志
  1. 单击 Main 选项卡下的 All Systems 并刷新屏幕。
图 5. 导航到 All Systems

类似地,可以发现多个主机。

  1. 单击 Refresh Log 获取最新的发现状态。
图 6. 发现多个系统

备注:ESA 每天都会调用后台作业,此活动会清除超过 24 小时的发现日志条目。

  1. 接下来,单击 All SystemsRefresh 来查看已发现的主机是否可见。

All Systems

All Systems 窗格上,可以看到已发现的所有 PowerKVM 系统的列表,以及安装了 ESA 的系统。该列表同时还显示了系统状态和 ESA 状态。

图 7. 包含多个 KVM 主机的 All Systems 窗格

系统健康

系统健康表示我们发现的 PowerKVM 主机的健康状态。

  • 勾号表示 ESA 没有在这个特定系统上检测到硬件问题。
  • 叉号表示 ESA 在这个特定系统上检测到了硬件问题。

ESA 每隔 24 小时将调用一个后台作业,该作业会根据服务请求状态来更新系统健康。

ESA 状态

ESA 状态表示 ESA 能否连接发现的系统。

  • 勾号表示 ESA 能够连接发现的系统。
  • 叉号表示 ESA 不能连接发现的系统。

ESA 每隔 24 小时调用一个后台作业,并更新所有发现的主机的 ESA 状态。

系统信息

用户可选择主机并查看系统信息、问题信息,还可删除 PowerKVM 主机。用户可采取的一种备用方法是直接单击 All Systems 页面上的相应主机名来查看系统信息,以及直接单击相应的系统健康符号来查看特定系统上报告的任何问题。

All Problems 窗格显示 ESA 发现的所有 KVM 主机报告的所有问题列表。

备注:默认情况下,System InfoView ProblemsDelete System 按钮是禁用的,直到选定了一个主机。

现在,选择主机后单击 System Info

图 8. 选择发现的系统
图 9. 查看系统信息

查看问题

选择任何一个已发现的主机并单击 View Problems

图 10. 查看问题

可以在这里找到问题的详细信息(例如描述、SRC 代码、服务请求编号等),也可以单击这个特定主机的 Send Test Problem 来创建测试问题。

我们可以将测试到的问题发送给 IBM Electronic Support 团队,查看问题报告功能是否在正常运行,并确定与 IBM 支持团队的连接是否正常。单击 Send Test Problem 后,ESA 检测到我们触发的测试问题并创建一个服务请求。

单击 Send Test Problem

图 11. 发送测试问题
图 12. 列出问题

接下来,单击 All Systems 并刷新屏幕。我们可以看到,系统的健康状态现在显示了叉号。

图 13. 具有未解决的问题的系统健康状态

在特定主机上报告的所有问题都解决时,系统健康将更改为勾号(表示它是健康的)。

图 14 和图 15 显示了这一变化

图 14. 检查问题状态
图 15. 包含已解决的问题或没有问题的系统健康

结束语

在当今世界,每个人都喜欢高度可用的系统。要在每个时刻保持系统的健康,必须在问题发生后尽快识别和解决问题。IBM Electronic Service Agent 能够在早期阶段识别硬件问题,收集更多的错误数据并将这些数据传输给 IBM。IBM 支持团队可以主动帮助客户解决问题,实现更高的可用性和更高的客户满意度。

基于 IBM POWER Hypervisor™ (PHYP) 的 Power 服务器的硬件问题检测已嵌入在管理软件 Hardware Management Console (HMC) 中。但 HMC 无法管理基于 KVM 的 Power 服务器。所以,要获得问题检测功能,拥有 IBM Electronic Service Agent 是让这些系统更加高度可用的关键一步。

参考资料

  • 要了解 ESA 的更多信息,请访问 ESA 概述 页面。
  • 要了解 IBM 支持的更多信息,请访问 IBM 支持门户
  • 访问 developerWorks Linux 专区,了解关于信息管理的更多信息,获取技术文档、how-to 文章、培训、下载、产品信息以及其他资源。
  • 加入 developerWorks 中文社区。查看开发人员推动的博客、论坛、组和维基,并与其他 developerWorks 用户交流。

评论

添加或订阅评论,请先登录注册

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=Linux
ArticleID=1011737
ArticleTitle=通过 IBM Electronic Service Agent for IBM PowerLinux 报告 IBM PowerKVM 主机的问题
publish-date=07162015