使用 SAN 服务提高 AIX 的可用性

了解一些允许和支持重新映射、复制和重用 SAN 磁盘的场景。更轻松地把 AIX® 环境从一个系统切换到另一个系统,帮助提高可用性和减少停机时间。这些场景可以通过克隆快速部署新系统。

Julie Craft, 架构师, IBM  

/developerworks/i/p-jcraft.jpgJulie Craft 是一位从事 AIX 产品开发的架构师。他擅长的领域包括 AIX 安装、维护和系统管理。



Sanket Rathi, AIX 存储设备驱动程序系统程序员, IBM  

/developerworks/i/p-srathi.jpgSanket Rathi 是 AIX 存储设备驱动程序团队的开发人员。他擅长的领域包括 Fibre Channel、SCSI、MPIO 和 Virtual I/O Server。



Anbazhagan Mani, AIX 存储设备驱动程序系统程序员, IBM  

Anbazhagan Mani 是印度 AIX 产品开发团队的顾问软件工程师。他擅长的领域包括 AIX 系统管理和解决方案开发。



Chris Schwendiman, AIX 存储设备驱动程序系统程序员, IBM  

/developerworks/i/p-cschwendiman.jpgChris Schwendiman 是一位从事 AIX 产品开发的架构师。他擅长的领域包括 Object Data Manager (ODM) 和 AIX 设备配置。



Jim Pafumi, 资深工程师, IBM  

Jim Pafumi 是一位资深工程师。他擅长的领域是跨功能性接口的 PowerVM。



Gero Schmidt, 资深工程师, IBM  

Gero Schmidt 是德国 IBM ATS 技术销售支持组织中的 IT 专家。在他从事 IBM 存储产品的 8 年里,他参与了 ESS 800 的多个 beta 测试项目,尤其是 DS6000/DS8000 系列的产品交付和 beta 测试项目。



2009 年 10 月 19 日

在正式文档中,没有记录允许和支持重新映射、复制和重用 SAN 磁盘的场景。有一些文档和 IBM® Redbooks® 声明支持某些场景,但是没有提供具体步骤或限制。

本文描述的场景指导系统管理员通过适当的步骤实现所需的环境。还解释必须采用某些设置的原因。如果不采取适当的步骤,在某些情况下系统可能无法引导。

如果以后支持更多场景,本文也会相应地更新。

简介

IBM® System p® 系统的设计目的是提供业内最出色的单机可用性。有时候,企业必须调整基础结构以满足新的 IT 需求和处理计划内的中断(比如停电)。目前,即使是最小的 IBM System p 也运行逻辑分区,需要把逻辑分区转移到可用的其他系统以避免应用程序停止运行。

IBM System p 不断通过引入创新技术处理这些场景和减少停机时间。Live Partition Mobility 允许转移逻辑分区,这样就可以在最合适的时候执行以前具有破坏性的操作。Live Partition Mobility 允许按照计划在服务器之间转移正在运行的分区和应用程序,有助于满足日益严格的服务水平协议 (SLA)。Live Partition Mobility 需要一种特殊的硬件和微代码配置,当前只在基于 POWER6® 的系统上可用。

但是,一些使用基于 POWER5® 的系统的客户也希望有相似的解决方案,可以把 AIX 环境从一个 System p 服务器转移到另一个服务器。在本文解释的场景中,在使用 PowerVM™ Virtual I/O Server 环境时,可以切换存储子系统中的 SAN 磁盘(包括操作系统)。本文还讨论如何使用 'flash-copy' 服务创建用于系统恢复的备份磁盘。

一定要注意一点:Live Partition Mobility 支持动态地转移逻辑分区,而本文解释的场景只支持在关机之后转移或备份 AIX 环境,因此涉及一定的停机时间。在不允许停机的环境中,应该小心。在这些情况下,应该考虑使用 IBM High Availability Cluster Multiprocessing (HACMP) 等技术处理计划外中断,通过提供故障转移提高系统可用性。


场景 1. 用 SAN 引导设备和 VIOS 切换 AIX LPAR

图 1. 测试场景设置
测试场景设置

图 1 给出使用一个 Power5 系统 (CEC1) 的测试场景设置。

  • 在 Virtual I/O Server (VIOS) 分区 vios_cec1 上,有两个光纤通道适配器。
  • SAN 存储中的两个 LUN 映射到 VIOS 分区上的两个光纤通道适配器。
  • LUN1 映射到 fcs0,LUN2 映射到 fcs1。
  • 在 VIOS 上,LUN1 作为 hdisk0 使用,LUN2 作为 hdisk1 使用。
  • 在 VIOS LPAR 上创建两个虚拟 SCSI 服务器适配器(vhost0 和 vhost1)。
  • hdisk0 作为 vhost0 的后端设备,hdisk1 作为 vhost1 的后端设备。因此,可以在 VIOS 上使用 vtscsi0 和 vtscsi1。

请不要使用这个设置作为例子。在真实的配置中,每个适配器差不多有 80 个 LUN。创建一个 AIX 分区,它有两个使用 VIOS 导出的硬盘,可以作为 hdisk0 和 hdisk1 使用。通过共享以太网适配器提供网络连接。使用物理以太网适配器 (ent0) 作为主干适配器,使用虚拟以太网适配器 (ent1) 创建共享以太网适配器 (ent2)。在 ent2 上配置接口 en2,给 en2 分配一个有效的 IP 地址。在 AIX 分区上,可以在虚拟以太网适配器 ent0 上创建接口 en0(上图中没有显示),可以给它分配一个有效的 IP 地址。

当需要关闭 POWER 系统 CEC1 时,会破坏应用程序可用性。希望把 AIX 分区转移到可用的另一个系统上,让在 AIX 分区上运行的应用程序对于最终用户仍然是可用的。

如图 2 所示,另一个系统 (CEC2) 连接相同的网络,它有一个 VIOS 分区 (vios_cec2),可以访问 VIOS 分区 vios_cec1 所访问的 SAN 磁盘。在这个场景中,可以关闭 CEC1 上的 AIX 分区并在 CEC2 上引导 AIX 分区。整个过程可以在几分钟内完成,因此可以简便地提高可用性。HACMP 支持声明特定的 VSCSI 配置。可能需要访问这些支持声明。

图 2. 使用 SAN 引导设备切换 LPAR
使用 SAN 引导设备切换 LPAR

前提条件和限制

把 AIX 环境(包括 rootvg 和其他卷组)从一个 CEC 转移到另一个必须满足以下条件:

  • 确保两个 CEC 上的系统处理器类型和型号是兼容的。例如,POWER5 和 POWER6 都可以采用 64 位模式,因此是兼容的。如果原系统上的 AIX 使用 64 位内核,那么目标系统也必须使用 64 位处理器。
  • 两个 CEC 连接同一网络或子网。这一点很重要,因为在把 rootvg 切换到另一个 CEC 时,要保留网络接口(IP 地址等),在引导 AIX 时(完成切换之后)恢复网络接口。如果采用不适当的配置,就会出现引导失败、挂起或系统访问失败等问题。
  • 在两个 CEC 上,AIX 客户机分区的虚拟以太网和虚拟 SCSI 客户机适配器的槽编号(在分区配置文件中)必须匹配。在两个 CEC 上,虚拟 SCSI 客户机和虚拟 SCSI 服务器适配器映射必须是相同的。
  • 两个 CEC 上的 Virtual I/O Server 版本必须相同。
  • 在 Virtual I/O Server 上运行的所有软件必须是相同级别的,例如 SDDPCM 或 Powerpath。
  • 在 AIX 客户机分区上可以看到的所有磁盘必须都是虚拟磁盘(使用虚拟 SCSI 从 VIOS 导出)。从 VIOS 导出到 AIX 客户机分区的所有磁盘必须都是 SAN 磁盘。不应该把内部磁盘导出到客户机分区。不应该把基于逻辑卷或文件系统的后端设备导出到客户机分区。
  • 导出到 AIX 客户机分区的 SAN 磁盘必须在两个 CEC 上的两个 VIOS 上都可用。需要在存储子系统上执行适当的 SAN zoning、LUN masking 或映射,让相同的 LUN 对于两个 VIOS 分区都可用。VIOS 本身可以安装在内部磁盘或 SAN 磁盘上。
  • VIOS 上所有磁盘的 reserve_policy 属性都应该设置为 no_reserve。如果不设置 ‘no_reserve’,那么在执行切换之前原 CEC 上的 VIOS 应该关闭。
  • 在 Virtual I/O Server 上,必须创建共享以太网适配器,让分配给 AIX 客户机分区的虚拟以太网可以使用 layer-2 桥接。
  • 确保对两个 CEC 上的 VIOS 分区做了适当的 VLAN 配置。
  • 两个 CEC 上的系统时钟应该是相同的日期/时间。

把 AIX 环境从一个 CEC 切换到另一个 CEC

把 AIX 环境从一个 CEC 切换到另一个的步骤如下:

  1. 确保满足所有 前提条件。如果有任何前提条件不满足,就不要执行切换。
  2. 在 CEC1 上,关闭 AIX 分区上的所有应用程序。这确保数据卷组和文件系统是一致的。
  3. 关闭 AIX 分区。
  4. 在 CEC2 上,确保 VIOS 分区正在运行。
  5. 在 CEC2 上,引导 AIX 分区。
  6. 在引导 AIX 分区时,固件可能无法识别引导磁盘。引导设备信息存储在 NVRAM 中,所以如果从还没有使用常规方法安装的磁盘引导新系统,用户就需要通过操作固件 System Management Services (SMS) 菜单选择引导设备。可以通过 HMC 上的虚拟终端访问 SMS 菜单。

与任何生产环境一样,建议对系统设置(包括切换过程)进行彻底的测试,然后再应用于生产环境。


场景 2. 用冗余的 VIOS 切换 AIX LPAR

图 3 说明使用单一 VIOS 切换 AIX 环境。但是,许多客户运行两个 VIOS,以便为 AIX 客户机分区提供冗余和故障转移。Multi-path I/O (MPIO) 为相同的资源(磁盘)提供冗余的路径,有助于提高虚拟 SCSI 资源的可用性。例如,图 3 突出显示了 AIX 分区 (aix_lpar1) 上虚拟磁盘 (hdisk0 和 hdisk1) 的 MPIO 配置。

图 3. 使用冗余 VIOS 的 AIX 客户机分区的 Multi-path I/O
使用冗余 VIOS 的 AIX 客户机分区的 Multi-path I/O

本文解释的切换过程适合这个场景,已经在实验室环境中测试过了。在执行切换之前,必须确保另一个 CEC 上有完全相同的设置(包括虚拟槽编号匹配的两个 VIOS 分区)。在 VIOS 分区上,还可以使用 Subsystem Device Driver Path Control Module (SDDPCM) 建立更多 MPIO 配置。SDDPCM 是一个可装载的路径控制模块,用于在 IBM TotalStorage® 系列产品上支持多路径配置环境。Virtual I/O Server 逻辑分区上的 MPIO 配置应该不会影响切换 AIX 环境。前面列出的所有 前提条件和限制 也适用于 MPIO 场景。最佳实践不建议在同一系统上同时配置 MPIO 和镜像。通常情况下,在导出 LV 而不是 LUN 时在虚拟客户机上使用镜像。

图 4. 使用冗余 VIOS 和 SDDPCM MPIO 的 AIX 客户机分区的 Multi-path I/O
使用冗余 VIOS 和 SDDPCM MPIO 的 AIX 客户机分区的 Multi-path I/O

场景 3. 使用 FlashCopy® 执行恢复

这个场景涉及创建 AIX 操作系统环境的拷贝,这个拷贝用于以后的恢复操作。

在使用基于 SAN 的引导设备时,一些环境要求执行 AIX 操作系统备份。尽管执行 AIX rootvg 的备份有许多方法(例如 mksysb),但是比较快地备份和恢复 rootvg 的方法是使用 SAN 设备。

图 5. 备份 rootvg
备份 rootvg
图 6. 恢复备份的 rootvg
恢复备份的 rootvg

使用 SAN 设备备份和恢复 AIX 环境

  1. 关闭 AIX LPAR 以确保文件系统没有操作。
  2. 使用 FlashCopy 把 rootvg LUN 复制到一个备份 LUN。不必等待 FlashCopy 完成。FlashCopy 在后台运行。
  3. 使用 HMC 重新引导 AIX LPAR。
  4. 在需要恢复备份的 rootvg 时,关闭 AIX LPAR。使用 FlashCopy 把备份的 rootvg LUN (LUN B) 复制到原来的 LUN (LUN A)。复制的磁盘用于系统恢复;因此,不需要删除或重新配置网络或设备配置信息。
  5. 引导 AIX LPAR。

这个场景不需要 Virtual I/O Server。但是,如果 AIX 客户机 LPAR 使用 Virtual I/O Server 上的 LUN 提供的虚拟磁盘,那么也可以采用这些备份和恢复过程。


物理设备的问题

您以前可能听说过,不支持把 SAN 存储从一个系统切换到另一个系统。这是因为在以前从新系统引导磁盘时,不保证配置是完全相同的,因此一些设备会变成不可用(处于 ‘defined’ 状态)并创建新设备。这会导致设备消失,甚至可能导致系统无法引导。

AIX 开发团队当前正在开发一个更灵活的设备配置设计,可以处理更多物理设备问题;但是到目前为止,这些场景还不允许使用物理设备,但是不包括处理相同系统的情况(比如场景 3)。


把 rootvg 从物理环境迁移到物理或虚拟环境的潜在问题

不建议把 rootvg 从一个物理环境迁移到另一个物理或虚拟环境,原因如下:

  1. 固件无法识别引导磁盘。引导设备信息存储在 NVRAM 中,所以如果从还没有使用常规方法安装的磁盘引导新系统,用户就需要通过操作固件 SMS 菜单选择引导设备。可以通过 HMC 上的虚拟终端访问 SMS 菜单。
  2. 控制台设备可能会丢失,需要重新选择。如果在引导时没人响应控制台选择提示,那么经过一段时间之后,系统会继续引导,但是没有控制台。对于用户来说,这就像是在引导时挂起了。
  3. rootvg 必须包含新系统所需的所有支持。这包括对新系统上所有新设备的设备支持,以及对机型本身的支持。如果 rootvg 上的 AIX 级别不支持此系统或其设备,就会出现引导失败或丢失设备支持等问题。
  4. 新系统必须能够运行 rootvg 中安装的 AIX。例如,如果 rootvg 使用 64 位内核,那么新系统也必须使用 64 位处理器。
  5. 设备名称可能改变。新系统上发现的总线和适配器设备集很可能与 rootvg 的 ODM 数据库中的设备不匹配。这会导致在 ODM 中创建新的设备实例,原系统中的设备以 “defined” 状态列出。例如,如果原系统有总线 pci0 和 pci1 以及 SCSI 适配器 scsi0,新系统会以 “defined” 状态列出它们,并为 PCI 总线和 SCSI 适配器创建新设备 pci2、pci3 和 scsi1。即使新系统看起来与原系统相同,也可能出现这种情况。常常会分配给磁盘设备(包括 rootvg 中的磁盘和外部 SAN 磁盘)与原系统上相同的名称。但是,如果磁盘没有惟一标识符支持,没有分配 PVID,就会分配新名称。几乎所有其他设备都会分配新名称。
  6. 错误日志可能出现不一致。包含转移之前的时间戳的错误日志项现在看起来不正确。这是由于前面提到的设备名称改变问题以及硬件消失问题。
  7. 可能对新系统应用不适当的系统配置信息,例如 TCP/IP 主机名和 IP 地址。inet0 设备的路由属性会应用于新系统,如果属性不合适,就会出现引导失败、挂起或无法访问系统等问题。
  8. 网络接口设备配置不应用于新系统。网络接口与特定的网络适配器相关联。如果适配器名称改变了(如前所述),那么会用默认的配置设置创建新的网络接口。这会导致引导失败、挂起或无法访问系统等问题。
  9. 可能出现磁盘保留冲突。当在另一个系统上引导 rootvg 时,现在的主机名与以前不同。这可能导致无法访问在原 LPAR 中可以访问的一些磁盘。如果 rootvg 受此影响,新系统就无法引导。但是,可以通过为磁盘子系统定义的过程纠正此问题。
  10. iSCSI 配置问题 - 如果使用 iSCSI 磁盘,那么在新系统上无法识别它们。如果使用 iSCSI TOE 适配器访问,可能需要使用原适配器的信息配置新的 iSCSI TOE 适配器实例。如果使用软件 iSCSI,那么可能需要先解决网络配置问题。
  11. 与 iSCSI 相关的引导问题 —— 如果 rootvg 驻留在 iSCSI 磁盘上,那么即使在使用固件 SMS 菜单选择正确的引导设备之后(如前所述),新系统仍然可能引导失败。这是由于相同的配置问题(如前所述)。但是,因为系统无法引导,所以无法解决配置问题。解决方案是引导到维护模式,然后纠正配置问题。
  12. 除了上面提到的之外,可能还有其他问题。有些问题可能无法解决。

结束语

本文解释了一些提高 AIX 逻辑分区可用性的简单方法:

  • 使用虚拟化设备切换 SAN 引导设备。
  • 使用 FlashCopy 备份和恢复 AIX 环境。

参考资料

学习

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=AIX and UNIX
ArticleID=438081
ArticleTitle=使用 SAN 服务提高 AIX 的可用性
publish-date=10192009