基于 IBM Systems Director 光通路的服务器硬件状态监控

IBM Systems Director(Director)是一款平台管理解决方案,可用来管理多种主流操作系统、 IBM 以及某些非 IBM 硬件平台。 光通路(即 LightPath)是 Director 一个重要的硬件状态监控组件。本文将介绍光通路组件的基本功能 ,并以图片和示例的方式向用户介绍如何通过光通路组件实现对硬件状态的监控。通过 Director 的光通路组件,系统管理员可以全方位、及时的了解各种硬件(包括 CPU、内存、 电源、风扇等)的当前状态, 也为 IT 人员快速定位到故障硬件提供了便利。

徐 从洋, 软件工程师, IBM

徐从洋,IBM CSTL 软件工程师,从事 IBM Systems Director 系统开发,主要负责 x86 架构服务器相关模块。他在 2007 年获得了计算机硕士学位,拥有 5 年以上的软件开发经验;同时还具有财务、零售、电信等多个领域的业务背景知识。



2013 年 1 月 10 日

光通路概述

什么是光通路 (LightPath) 呢?光通路是 IBM System Director 6.3.1(下文简称 Director)的一个硬件状态监控组件。系统管理员可以通过 Director 的光通路组件很方面的了解到当前各种硬件的运行状态,并及时发现硬件故障。

比如在一个大规模的硬件环境下,Director 需要管理上千台硬件设备,如果某时某刻某个 Power 服务器的某个 CPU 发生了错误。通过光通路,系统管理员可以及时发现这个问题,并可以准确定位到具体是哪个 Power 服务器,哪个 CPU 发生了错误。如有需要,系统管理员可以把这台 Power 服务器的系统标识灯 (Identification/Location LED) 点亮或者是闪烁,相关 IT 人员可以进入机房,迅速找到出现问题的硬件并进行相关维护。

基于本文背景需要,在此还会简单介绍一下硬件上的光通路以及其为何被称为做光通路。

硬件上的光通路

从硬件角度来说,光通路就是在硬件服务器上的一组发光二级管 (Light Emitting Diode, 缩写是 LED)。某个 LED 状态的开关、颜色等可以表明当前硬件的状态。

  • 硬件服务器包括 Power 服务器,刀片服务器,机架等;
  • 常见 LED 的指示主要有 Fault、Identification,、Info、CPU、Fan、DIMM、Power Supply 等。

光通路的缘由

一般来说,假如有一个 LED 被点亮了,一定是由某种原因触发的,这个原因可能是这个 LED 自身,也可能是其它的 LED 等。

举个例子来说,如果 Fault LED 被点亮了,它被点亮的原因是因为 CPU1 LED 被点亮了。当然 CPU1 LED 被点亮也是有原因的,原来是 CPU1 的 sensor number 改变了导致的。这样一级一级的被触发:Fault LED -> CPU1 LED -> CPU1 的 sensor number,是不是很像一个 Tree 结构呢?这也就是为什么被称为光通路的原因。通过这个 LightPath Tree,我们也就可以找到最终出错的是哪个硬件了。

支持光通路的管理对象

在 Director 平台上,有哪些可管理的资源支持光通路呢? 主要包括以下几大类:

  • 支持安装 IBM System Director Agent 的各种操作系统,如:AIX、Linux、Windows;
  • Power 服务器;
  • 刀片服务器;
  • 系统机架 (Chassis);
  • 其它可管理模块等。

光通路面板

光通路面板是一个集所有 LED 的名称、状态、颜色、指示的情况、位置于一体的一个表视图。同时我们也可以通过光通路面板对 LED 状态进行验证。

本文将主要用操作系统来举例,这是因为操作系统更具有通用性。不管是安装在 Power 服务器的操作系统还是安装在刀片服务器的操作系统,只要支持 Agent(Director 的代理程序),都可以通过 Agent 对这些服务器进行访问和管理。

任务 (Task)

通过单击光通路 Task, 您就可以打开光通路面板了。具体步骤如下:

  1. 打开 Director 资源浏览器
  2. 右击您期望查看光通路的操作系统;
  3. 从右键菜单中选择 系统状态和运行状况- >光通路 ,如图 1 所示。
图 1. 光通路 Task
图 1. 光通路 Task

光通路面板

单击 光通路 Task,光通路面板就呈现在您面前了, 如图 2 所示。

图 2. 光通路面板
图 2. 光通路面板

光通路面板视图非常简洁,验证 LED 状态 按钮就是重新获取当前的 LED 状态,也就是我们所谓的刷新,获取实时的 LED 状态。视图里 LED 名称、状态、颜色等都是 LED 的属性。 这里对它们一一解释:

  • LED 名称 (name) :LED 的标识;
  • LED 状态 (state) :标示当前 LED 活动情况。常见有三种 LED 状态:
    • :表明当前 LED 持续不断的发光,并且没有颜色和发光强度变化;
    • 闪烁 :表明当前 LED 以一种规律的、没有颜色和发光强度变化的、发光与不发光之间交替变化;
    • :表明当前 LED 不发光。
  • LED 颜色 (color) :标示 LED 当前显示的颜色;
  • 指示的情况 (Indicated Conditions): 指明 LED 呈现当前状态的原因;
  • LED 位置 (Location) :指明物理的 LED 在相关联的管理元素上的位置。

CLI 命令

Director 提供了 systems management command-line interface (smcli) 客户端命令,以帮助我们通过命令行执行系统管理任务。smcli 是一个比较复杂的命令,这里只介绍如果通过 smcli 命令来获取和光通路面板同样的信息。

清单 1. smcli lsled 命令用法
 smcli lsled [-v] {-p | {-s state_list} 
         {-f file_name | -i ip_address_list | -N group_list | [-n] system_list}

给出一个具体命令实例:

清单 2. 通过 smcli lsled 发现所有 LED 列表
# smcli lsled -s all -i 192.168.1.11

下图是给出执行此命令返回的结果部分截图。

图 3. 通过 smcli lsled 命令发现所有 LED 列表
图 3. 通过 smcli lsled 命令发现所有 LED 列表

搜索、排序与过滤器

某些服务器上可能有多达几十个 LED,如何才能迅速定位到您所需要的某个或者某些 LED,这里为您提供一些实用技巧。

搜索

搜索,顾名思义就是通过关键字去查找相关的 LED 信息。关键字可以是 LED 名称、状态等任何您想查找的字段。图 4 是我们搜索 “cpu” 关键字的结果截图。截图中并有提示您:总计有 44 个 LED,已经为您过滤出 2 个 LED。

图 4. 在光通路面板上执行搜索
图 4. 在光通路面板上执行搜索

排序

排序,顾名思义是对某关键字按照升序或者降序排列。

比如我们想对 LED 状态进行降序排列,只需点击下图中红色框标注的地方即可。 结果截图如图 5 所示。

图 5. 在光通路面板上执行排序
图 5. 在光通路面板上执行排序

过滤

过滤,就是用指定的关键字对 LED 信息的某一列进行搜索并返回结果。

如何使用过滤器呢?此处以在 LED 状态 列上用“闪烁”关键字进行过滤为例,详细步骤如下:

  1. 点击 操作
  2. 在弹出菜单中点击 显示过滤器行
  3. 点击 过滤器, 如图 6;
  4. 在弹出的过滤器窗口的文本框内输入“闪烁”关键字;
  5. 点击 正常
  6. 这时过滤器就会为您找出所有 LED 状态是闪烁的 LED 了,如图 7 所示。
图 6. 光通路面板上的过滤器
图 6. 光通路面板上的过滤器
图 7. 在光通路面板上执行过滤
图 7. 在光通路面板上执行过滤

CLI 命令

我们可以通过强大 smcli lsled 命令设置参数“ – s ”来获得和过滤器同样的功能。参数可以是 -s on / off / flash,分别代表 LED 状态是开 / 关 / 闪烁。

清单 3. smcli lsled 发现所有闪烁的 LED
# smcli lsled -s flash -i 192.168.1.11

图 8 是给出执行此命令返回的结果截图。

图 8. 通过 smcli lsled 命令发现所有发现所有闪烁的 LED
图 8. 通过 smcli lsled 命令发现所有发现所有闪烁的 LED

LED 状态 (status)

LED 状态是表明当前服务器所有 LED 紧急状态的级别。只有在当前资源是支持光通路的情况下,资源浏览器视图中 LED 状态 这一列的才是可用的。LED 状态也是系统当前运行状态一个重要参考。

提示:

此处 LED 状态 (Status) 不同于光通路面板中的 LED 状态 (State).

默认情况下,资源浏览器视图是没有显示 LED 状态这一列的。如何才能显示出来呢?具体步骤如下:

  1. 点击 操作
  2. 在弹出菜单中点击 列…
  3. 在弹出窗口中选中 LED 状态- > 添加- > 确定 , 如图 9;
  4. 这时 LED 状态 就成功显示在资源浏览器视图中了,如图 10。
图 9. 添加 LED 状态窗口
图 9. 添加 LED 状态窗口
图 10. 资源浏览器视图中的 LED 状态 (status) 列
图 10. 资源浏览器视图中的 LED 状态 (status) 列

LED 状态有四种,分别代表当前硬件状态的紧急级别。这里对它们一一解释:

  • 确定 (OK) :表明当前 LED 是关闭状态;
  • 参考 (Information) :表明当前 LED 是非紧急状态,但是可能需要注意;
  • 紧急 (Critical) :表明当前处理于紧急状态的设备的 LED 已经亮了;
  • 未知 (Unknow) :表明由于某种原因不能与资源通讯,从而导致 Director 不能获取当前 LED 状态 (state)。

发现问题

好了,到目前为止,我们已经了解了光通路的基本概念及其基本操作。下边将介绍如何更好使用光通路,以及光通路如何与其它模块的结合起来工作,以帮助我们发现 Director 系统所管理的资源发生的故障。

记分板

记分板是运行状况摘要视图中的一个小窗口,它可以显示当前 Director 系统管理的所有资源的运行状况概要。其中有一个重要参考指标— LED 状态。如图 11,表明当前 Director 中有 4 个资源的 LED 状态为 紧急状态。

图 11. 运行状况摘要视图中的记分板
图 11. 运行状况摘要视图中的记分板

单击图 11 红色框中的 “4”,就会跳转到一个新的视图,此视图会列出所有 LED 状态为 紧急的资源,如图 12 所示。

图 12. 具有严重问题的资源视图
图 12. 具有严重问题的资源视图

点击图 12 红色框中的 “紧急”,就会跳转到图 2 所示的光通路控制面板视图了,在光通路面板上,可以参考图 6 所介绍的如何使用过滤器,就可以过滤出所有 LED 状态 (State) 为 的 LED 了。是什么硬件发生错误了,一目了然的列出在您的面前。是不是很方面呢?

事件日志

到此,我们已经能方便的监视并查看是哪些硬件(如 CPU、内存、 电源等)出了问题了。但是,这些 LED 是因为什么原因而被点亮的呢?我们还可以结合事件日志视图,了解更多的相关信息。如何打开事件日志视图的具体步骤如下:

  1. 打开 Director 资源浏览器
  2. 右击您期望查看事件日志的资源;
  3. 从右键菜单中选择 系统状态和运行状况-> 事件日志
  4. 事件日志视图就会呈现在您的面前了,如图 13 所示。
图 13. 事件日志视图
图 13. 事件日志视图

此时,点击图 13 红色框中的 “CPU 1 LED on”,您就会看到此事件的更详细的信息了。

问题

问题 (Problems) 是从另一角度来表述当前 Director 所管理的资源的一种状态。LED 状态为 紧急的时候 Problems 的严重性一般也是 紧急的。结合问题视图,可以了解更多硬件发生故障的原因。通过点单图 10 的 问题 这一列的“紧急”,您就会看到如图 14 了。

图 14. 问题视图
图 14. 问题视图

此时,点击图 14 红色框中的 “The Processor CPU 1 has …”,您会看到此问题的更详细的信息。


系统标识灯(Identification/Location LED)

  1. 现在,我们已经清楚了具体是哪台服务器,哪个 CPU 出现了问题,那接下来就是进入机房,找到出现问题的服务器并进行相关维护吧。
  2. 通常机房里都有许多硬件,一排一排机柜里放着机架,机架里是服务器、交换机等。虽然每个硬件都应该贴有相应标签,但如果我们要找的硬件资源上有一盏正在一闪一闪的灯,那无疑是个好消息。系统标识灯就可以帮我们实现这个愿望!

打开系统标识灯的具体步骤如下:

  1. 打开 Director 资源浏览器
  2. 右击您期望管理的资源;
  3. 从右键菜单中选择 系统状态和运行状况-> 系统标识 -> 指示灯闪烁 ,如图 15。
  4. 在弹出的窗口中直接点击 确定 就可以把系统标识灯的状态改变为 闪烁状态了。
图 15. 系统标识灯
图 15. 系统标识灯

总结

本文先是介绍光通路的背景与其基本概念,然后详细解释了光通路面板上各个属性含义,光通路面板的使用技巧,并结合介绍了 smcli 命令的使用。然后又介绍了 LED 状态 (status) 的级别,再然后介绍光通路与 Director 其它视图的结合以发现问题。最后介绍了系统标识灯的作用与其使用方法。通过本文,您可以对 Director 光通路概念,使用技巧等有个全面了解,这对于 Director 系统管理员的您会有很大帮助。

参考资料

学习

  • 参考 DMTF - CIM_IndicatorLED 描述,详细描述了 CIM_IndicatorLED 的每个属性。
  • 查看“IBM Systems Director 6.3.1 Information Center”,了解更多 Lightpath, LED status,Problems 等相关信息。
  • AIX and UNIX 专区:developerWorks 的“AIX and UNIX 专区”提供了大量与 AIX 系统管理的所有方面相关的信息,您可以利用它们来扩展自己的 UNIX 技能。
  • AIX and UNIX 新手入门:访问“AIX and UNIX 新手入门”页面可了解更多关于 AIX 和 UNIX 的内容。
  • AIX and UNIX 专题汇总:AIX and UNIX 专区已经为您推出了很多的技术专题,为您总结了很多热门的知识点。我们在后面还会继续推出很多相关的热门专题给您,为了方便您的访问,我们在这里为您把本专区的所有专题进行汇总,让您更方便的找到您需要的内容。
  • AIX and UNIX 下载中心:在这里您可以下载到可以运行在 AIX 或者是 UNIX 系统上的 IBM 服务器软件以及工具,让您可以提前免费试用他们的强大功能。
  • IBM Systems Magazine for AIX 中文版:本杂志的内容更加关注于趋势和企业级架构应用方面的内容,同时对于新兴的技术、产品、应用方式等也有很深入的探讨。IBM Systems Magazine 的内容都是由十分资深的业内人士撰写的,包括 IBM 的合作伙伴、IBM 的主机工程师以及高级管理人员。所以,从这些内容中,您可以了解到更高层次的应用理念,让您在选择和应用 IBM 系统时有一个更好的认识。

讨论

  • 加入 developerWorks 中文社区。查看开发人员推动的博客、论坛、组和维基,并与其他 developerWorks 用户交流。

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=AIX and UNIX
ArticleID=854117
ArticleTitle=基于 IBM Systems Director 光通路的服务器硬件状态监控
publish-date=01102013