动态分区迁移(LPM)基础知识和故障诊断

本文介绍如何配置动态分区迁移(LPM)并对其进行故障诊断。本文还简要解释了一些 LPM 基础概念、故障诊断问题、以及各种问题的简单修复方法。

Raghavendra Prasannakumar, 系统软件工程师, IBM

http://www.ibm.com/developerworks/i/p-praghavendra.jpgRaghavendra Prasannakumar 目前是印度班加罗尔 IBM AIX UPT 发布团队的一名系统软件工程师,在该团队工作了 3 年时间。他此前从事 Power 系列产品上的 AIX 测试,并从事 VIOS、VIOSNextGen、AMS、NPIV、LPM 和 AIX-TCP 等 AIX 虚拟化特性的特性测试。他还从事过使用 AIX 和 Power 系列产品的客户配置设置工作。



Shashidhar Soppin, 客户解决方案指导, IBM

http://www.ibm.com/developerworks/i/p-ssoppin.jpgShashidhar Soppin 是印度班加罗尔的 IBM AIX UPT 发布团队的一名系统软件测试专家。Shashidhar 拥有 9 年多 RTOS、Windows 和 UNIX 平台开发经验,5 年 AIX 测试经验。目前,他的工作是测试各个软件供应商的应用程序和数据库在运行 AIX 的 pSeries 服务器上的运行情况。他的专长领域包括 Veritas 5.0 VxVM 和 VxFS 配置与安装,ITM 6.X 安装与配置,以及 AIX 上的工作负载开发任务。他是一名 IBM Certified Advanced Technical Expert (CATE)-IBM System p5 2006。他拥有多项专利,并发表了一些文章。



Shivendra Ashish, 软件工程师, IBM

http://www.ibm.com/developerworks/i/p-sashish.jpgShivendra Ashish 目前是印度班加罗尔 IBM AIX UPT 发布团队的一名软件工程师。最近两年,他在 IBM 印度软件实验室从事 pSeries 服务器上的 AIX、PowerHA、PowerVM 组件的开发工作。他此前还使用 pSeries 服务器上的 PowerHA、PowerVM 和 AIX 进行各种客户配置和管理工作。



2011 年 5 月 09 日

简介

Live Partition Mobility (LPM) 在 Power6 上引入,旨在在迁移到其他主机时在 VIOS 和固件升级过程中帮助避免停机。LPM 也减少了创建新 LPAR 和设置时所需的工作量,这对于应用程序而言是必要的。

大部分客户将 LPM 活动视为一种日常工作,但很多客户都不了解确切流程或正在发生的事情。本文将展示克服或修复 LPM 问题的步骤。

图 1. AIX I/O 堆栈
AIX I/O 堆栈

LPM 关键点

关于 LPM 务必记住:LPM 将正在运行的分区从一个物理服务器迁移到另一个,同时维护完整的事务完整性并转移整个环境:处理器状态、内存、虚拟设备和已连接的用户。分区在关闭时也可以进行迁移(消极迁移),操作系统和应用程序必须驻留在共享存储器上。


LPM 先决条件

您必须在启用了 Advanced Power Virtualization Feature 的 POWER6 (或更高版本)上至少拥有两台机器:一个源和一个目标。操作系统和应用程序必须驻留在一个共享外部存储器(Storage Area Network)上。除了这些硬件要求外,您还必须拥有:

  • 一个硬件管理控制台- HMC(可选)或 IVM。
  • 目标系统必须拥有足够的资源,比如 CPU 和内存。
  • LPAR 不应该拥有物理适配器。

您的虚拟 I/O 服务器(virtual I/O server,VIOS)必须拥有一个 Shared Ethernet Adapter (SEA) 并被配置为桥接到移动分区使用的那个 Ethernet 网。它必须能够提供对移动分区使用的所有磁盘资源的虚拟访问能力(NPIV 或 vSCSI)。如果使用 vSCSI,则虚拟目标设备必须是物理磁盘(而不是逻辑卷)。

必须使用 AIX 5.3J 版或更高版本,VIOS 1.4 版或更高版本,HMC V7R310 或更高版本,固件必须是 efw3.1 或更高版本。


LPM 过程中所发生的事

图 2. 普通 LPM 图示
普通 LPM 图示

下面的步骤描述了图 2 中的普通 LPM 图示:

  1. 分区配置文件(此时处于活动状态)从源复制到目标 FSP。
  2. 配置目标上的存储器。
  3. 移动程序服务分区(Mover Service Partition,MSP)被激活。
  4. 分区迁移开始。
    1. 大部分内存页面被移动。
    2. 所有线程转为闲置状态。
  5. 激活过程在目标上恢复。
    1. 最后的内存页面被移动。
    2. 清理存储器和网络流量。
  6. 取消源上的存储器资源配置。
  7. 从源 FSP(Flexible Service Processor)移除分区配置文件。

如何进行 LPM

进行 LPM 之前,需要验证源和目标两端的资源可用性。如果验证由于某种错误而失败,则需要修复错误才能继续下一步。有时,验证过程可能会出现一些警告消息,不用管它们。

使用 HMC GUI 进行 LPM

图 3 展示如何使用 HMC GUI 来验证 LPAR。

System management -> Servers -> Trim 屏幕中,选择 LPAR 名称: Operations -> Mobility -> Validate

图 3. 验证 LPAR
验证 LPAR

验证屏幕(如图 4 所示)显示,upt0052 LPAR 被验证,以便从 trsim 迁移到 dash,如果需要,必须指定目标 HMC。

图 4. Validation 窗口
Validation 窗口的屏幕快照

图 5 显示 LPM 出现了一条警告消息,忽略该消息,选择 Close 继续迁移。

图 5. 验证通过并出现一般警告消息
屏幕快照,显示验证通过并出现一般警告消息

Partition Migration Validation 屏幕(见图 6)显示信息被选中,以便设置到另一个托管系统的分区迁移。选择 Migrate 以验证信息。

图 6. 验证通过后迁移准备就绪
验证通过后迁移准备就绪

迁移结束后,如图 7 所示,选择 Close

图 7. 迁移进程
迁移进程

要验证本地 HMC 中的 LPM,输入以下代码:

migrlpar -o v -m [source cec] -t [target cec] -p [lpar to migrate]

要验证远程 HMC 中的 LPM,输入:

migrlpar -o v -m [source cec] -t [target cec] -p [lpar to migrate] \
> --ip [target hmc] -u [remote user]

注意,作为远程用户,您可能愿意使用 hscroot 命令。

使用以下迁移命令执行本地 HMC 中的 LPM:

migrlpar -o m -m [source cec] -t [target cec] -p [lpar to migrate]

使用以下迁移命令执行远程 HMC 中的 LPM:

migrlpar -o m -m [source cec] -t [target cec] -p [lpar to migrate] \
> --ip [target hmc] -u [remote user]

如果源和目标之间的配置问题导致 LPAR 发生 MPIO (Multipath IO) 失败,输入以下命令继续(如果适用的话):

migrlpar -o m -m wilma -t visa -p upt07 --redundantpgvios 0 -n upt07_n
oams_npiv -u hscroot --vlanbridge 2 --mpio 2 -w 60 -d 5 -v -i
"source_msp+name=wilmav2,dest_msp_name=visav2" --ip destiny4

故障诊断

本节介绍可能遇到的各种错误及其更正方法。

  • 如果需要跨两个不同的 HMC 进行 LPM,在迁移时,需要在两个 HMC 之间设置适当的授权。如果没有设置适当的授权,将显示以下 mkauthkey 错误:
    hscroot@destiny4:~> migrlpar -o v -m trim -p  UPT0052 --ip hmc-arizona -u
    hscroot -t arizona
    			        
    HSCL3653 The Secure Shell (SSH) communication configuration between the source
    and target Hardware Management Consoles has not been set up properly for user
    hscroot. Please run the mkauthkeys command to set up the SSH communication
    authentication keys.

    要克服这个错误,输入:

    hscroot@destiny4:~> mkauthkeys -g --ip hmc-arizona -u hscroot
    Enter the password for user hscroot on the remote host hmc-arizona
  • 如果正在迁移一个 POWER7 Advanced Memory Expansion (AME) 分区,那么对于任一 POWER6 机器,将显示以下错误:
    hscroot@destiny4:~> migrlpar -o v -m trim -p  
        UPT0052 --ip hmc-liken -u hscroot -t wilma
       
    HSCLA318 The migration command issued to the destination HMC failed with the 
    following error: HSCLA335 The Hardware Management Console for the destination 
    managed system does not support one or more capabilities required to perform 
    this operation. The unsupported capability codes are as follows: AME_capability
    hscroot@destiny4:~>

    要更正这个错误,要么迁移到 POWER7,要么移除这个 AME 然后再进行迁移。

  • 如果您正在迁移一个 Active Memory Sharing (AMS) 分区,但 AMS 设置不正确,或者目标上没有空闲的分页设备,将显示以下错误:
    hscroot@hmc-liken:~> migrlpar -o v -m wilma -t visa --ip destiny4 -u hscroot -p
    upt0060 --mpio 2
         
    Errors:
    HSCLA304 A suitable shared memory pool for the mobile partition was not found on the
    destination managed system. In order to support the mobile partitions, the
    destination managed system must have a shared memory pool that can accommodate the
    partition's entitled and maximum memory values, as well ad its redundant paging
    requirements. If the destination managed system has a shared memory pool, inability
    to support the mobile shared memory partition can be due to lack of sufficient memory
    in the pool, or lack of a paging space device in the pool that meets the mobile
    partition's redundancy and size requirements. 
         
    Details:
    HSCLA297 The DLPAR Resource Manager (DRM) capability bits )x) for mover service
    partition (MSP) visav2 indicate that partition mobility functions are not supported
    on the partition.
    HSCLA2FF An internal Hardware Management Console error has occurred. If this error
    persists, contact your service representative.

    要更正这个错误,执行下面一项操作,或者同时执行两项操作:

    • 由于这个问题与冗余 AMS 设置有关,因此目标 AMS 池应该拥有针对一个特定 AMS 池的冗余能力,这个 AMS 池定义为 Shared Memory Pool,包含两个只用于高可用性 HMC 的 Paging VIOS 分区。用户可以为每个 Shared Memory Partition 选择主要和替代分页 VIOS。要了解 AMS 的相关细节,请参阅 “一位客户配置 Active Memory Sharing 的经历”(developerWorks,2009 年 8 月)了解更多信息。
    • 目标 AMS 池中应该有足够的空间用于分页设备。
  • 如果试图将 LPAR 从 Power7 迁移到 Power6 CPU,将得到以下错误:
    hscroot@destiny4:~> migrlpar -o v -m dash -t arizona --ip hmc-arizona -u hscroot
    -p upt0053
            
    Errors:
    HSCLA224 The partition cannot be migrated because it has been designated to use a 
    processor compatibility level that is not supported by the destination managed 
    system. Use the HMC to configure a level that is compatible with the destination 
    managed system.

    上述错误的解决方案可是下列之一:

    • 迁移到 POWER7。
    • 将处理器模式更改为适当的模式(就像在目标托管系统中一样)。

      在 HMC GUI 中更改处理器模式的步骤如下:

      • 选择 LPAR 并取消其激活状态。
      • 转到 Configuration->Manage Profiles
      • 选择需要激活的配置文件。
      • 转到 Processors,将 Processor compatibility mode: 更改为需要的设置并使用相同的配置文件引导它。
    • LPAR 应该在源和目标 MSPs 上拥有相同的共享 vSCSI 磁盘:
      hscroot@destiny4:~> migrlpar -o v -m dash -t arizona --ip hmc-arizona -u hscroot
      -p upt0058
              
      Errors:
      The migrating partition's virtual SCSI adapter cannot be hosted by the existing 
      virtual I/O server (VIOS) partitions on the destination managed system. To 
      migrate the partition, set up the necessary VIOS hosts on the destination 
      managed system, then try the operation again. 
              
      Details:
      HSCLA356 The RMC command issued to partition arizona failed. This means that 
      destination VIOS partition arizona2 cannot host the virtual adapter 6 on the 
      migrating partition.
              
      HSCLA29A The RMC command issued to partition failed. 
      The partition command is:
      migmgr -f find_devices -t vscsi -C 0x3 -d 1
      The RMC return code is:
      0
      The OS command return code is:
      85
      The OS standard out is:
      Running method '/usr/lib.methods/mig_vscsi
      85
      The OS standard err is:
              
      The search was performed for the following device descriptions:
              <v-scsi-host>
                       <generalInfo>    
                          <version>2.0 </version>
                          <maxTransfer>262144</maxTransfer>
                          <minVIOSpatch>0</minVIOSpatch>
                          <minVIOScompatability>1</minVIOScompatability>
                          <effectiveVIOScompatability>1</effectiveVIOScompatability>
                        <generalInfo>
                        <ras>
                              <partitionID>2</partitionID>
                         </ras>
                         <virtDev>
                                  <vLUN>
                                              <LUA>0x81000000000000000</LUA>
                                              <LUNState>0</LUNState>
                                              <clientReserve>no</clientReserve>
                                              <AIX>
                                                      <type>vdasd</type>
                                                      <connWhere>1</connWhere>
                                              </AIX>
                                  </vLUN>
                                  <blockStirage>
                                              <reserveType>NI_RESERVE</reserveType>
                                              <AIX>
      
                                 <udid>261120017380003D30194072810XIV03IBMfcp</udid>
                                                      <type>UDID</type>
                                              </AIX>
                                  </blockStirage>
                          </virtDev>
           </v-scsi-host>

      解决方案如下:

      • 确保目标 MSP 能够访问源 MSP 访问的 vSCSI 磁盘。
      • 还要确保磁盘没有被预订。

    当映射正确时,如果您仍然得到相同的错误,可能是由于源和目标 MSP 之间的 FC 适配器的类型不同。对于映射方法,请参阅 “故障诊断” 部分的最后一个 Note 小节。

  • 在目标 CEC 中,如果 LPAR 没有足够的 CPUs,将得到以下错误:
    hscpe@destiny4:~> migrlpar -o v -m dash -t wilma -p upt0053 --ip defiant2 -u
    hscroothmc-arizona -u hscroot
    Errors:
    The partition cannot be migrated because the processing resources it requires 
    exceeds the available processing resources in the destination managed system's 
    shared processor pool. If possible, free up processing resources from that shared 
    processor pool and try the operation again.

    解决方案如下:

    • 我们需要通过 DLPAR 减少 LPAR 中的 CPU,或者更改配置文件。
    • 可以通过在目标机器的几个客户机上使用 DLPAR 操作(如果适用)来减少处理器单元数量,从而增加目标机器的处理器数量。
  • 如果目标 CEC 没有足够内存,则:
    hscpe@destiny4:~> migrlpar -o v -m extra5 -t dash -p upt0027
    Errors:
    There is not enough memory: Obtained: 2816, Required: 4608.  Check that there is 
    enough memory available to activate the partition. If not, create a new profile or 
    modify the existing profile with the available resources, then activate the 
    partition. If the partition must be activated with these resources, deactivate any 
    running partition or partitions using the resource, then activate this partition.

    可以采用如下任一解决方案:

    • 可以通过使用 DLPAR 操作或通过更改配置文件来减少 LPAR 中的内存量。
    • 可以通过使用 DLPAR 操作减少其他 LPARs 的内存来增加目标机器的内存。

    如果源、目标 VIOS 和 LPAR 之间没有建立 RMC (Resource Monitoring and Control) 连接,将得到以下错误:

    hscpe@destiny4:~> migrlpar -o v -m dash -t trim -p upt0053
    Errors: 
    The operation to check partition upt0053 for migration readiness has failed. 
    The partition command is:
    drmgr -m -c pmig -p check -d 1
    The partition standard error is:
              
    HSCLA257 The migrating partition has returned a failure response to the HMC's
    request to perform a check for migration readiness. The migrating partition in
    not ready for migration at this time. Try the operation again later.
              
    Details:
    HSCLA29A  The RMC command issued to partition upt0053 failed. \
    The partition commend is:
    drmgr -m -c pmig -p check -d 1
    The RMC return code is:
    1141
    The OS command return code is:
    0
    The OS standard out is:
    Network interruption occurs while RMC is waiting for the execution of the command
    on the partition to finish.
    Either the partition has crashed, the operation has caused CPU starvation, or
    IBM.DRM has crashed in the middle of the operation.
    The operation could have completed successfully. (40007) (null)
    The OS standard err is:

    要修复这个问题,请参阅 “Dynamic LPAR tips and checklists for RMC authentication and authorization”(developerWorks,2005 年 2 月)了解更多信息。

    • 如果正在试图迁移的分区拥有带有双 VIOS 设置的 MPIO,目标虽拥有双 VIOS 但没有针对 MPIO 正确设置,则可能会得到以下错误:
      hscroote@hmc-liken:~> migrlpar -o v -m wilma -t visa --ip destiny4 -u hscroot -p
      upt0060
      Errors:
      HSCLA340 The HMC may not be able to replicate the source multipath I/O
      configuration for the migrating partition's virtual I/O adapters on the 
      destination. This means one or both of the following: (1) Client adapters 
      that are assigned to different source VIOS hosts may be assigned to a single 
      VIOS host on the destination; (2) Client adapters that are assigned to a single 
      source VIOS host may be assigned to different VIOS hosts on the destination. 
      You can review the complete list of HMC-chosen mappings by issuing the command 
      to list the virtual I/O mappings for the migrating partition. 
      HSCLA304 A suitable shared memory pool for the mobile partition was not found 
      on the destination managed system. In order to support the mobile partition, 
      the destination managed system must have a shared memory pool that can 
      accommodate the partition's entitled and maximum memory values, as well as its 
      redundant paging requirements. If the destination managed system has a shared 
      memory pool, inability to support the mobile shared memory partition can be due 
      to lack of sufficient memory in the pool, or lack of a paging space device in 
      the pool that meets the mobile partition's redundancy and size requirements. 
      Details:
      HSCLA297 The DLPAR Resource Manager (DRM) capability bits 0x0 for mover service
      partition (MSP) visav2 indicate that partition mobility functions are not 
      supported on the partition.
      HSCLA2FF  An internal Hardware Management Console error has occurred. If this 
      error persists, contact your service representative. 
      Warning:
      HSCLA246  The HMC cannot communicate migration commands to the partition visav2.
      Either the network connection is not available or the partition does not have a 
      level of software that is capable of supporting partition migration. Verify the 
      correct network and migration setup of the partition, and try the operation 
      again.

      解决方案如下:

      • 检查双 VIOS 的正确性、适配器的可用性、以及 SAN 和交换机中的映射。

      如果上述解决方案无法实现,可以:

      • 执行带 --mpio 2migrlpar 命令。但是,这样做可能会失去 MPIO 磁盘的双 VIOS 设置。因此,这通常不 是 PowerVM 的推荐解决方案。
    • 如果 Source VIOS 拥有 “非推荐” NPIV,我们将得到以下错误:
      hscroote@hmc-liken:~> migrlpar -o v -m wilma -t visa --ip destiny4 -u hscroot -p
      upt0060
      Errors:
      HSCLA340 The HMC may not be able to replicate the source multipath I/O
      configuration for the migrating partition's virtual I/O adapters on the 
      destination. This means one or both of the following: (1) Client adapters 
      that are assigned to different source VIOS hosts may be assigned to a single 
      VIOS host on the destination; (2) Client adapters that are assigned to a single 
      source VIOS host may be assigned to different VIOS hosts on the destination. 
      You can review the complete list of HMC-chosen mappings by issuing the command 
      to list the virtual I/O mappings for the migrating partition. 
      HSCLA304 A suitable shared memory pool for the mobile partition was not found 
      on the destination managed system. In order to support the mobile partition, 
      the destination managed system must have a shared memory pool that can 
      accommodate the partition's entitled and maximum memory values, as well as its 
      redundant paging requirements. If the destination managed system has a shared 
      memory pool, inability to support the mobile shared memory partition can be due 
      to lack of sufficient memory in the pool, or lack of a paging space device in 
      the pool that meets the mobile partition's redundancy and size requirements. 
      Details:
      HSCLA297 The DLPAR Resource Manager (DRM) capability bits 0x0 for mover service
      partition (MSP) visav2 indicate that partition mobility functions are not 
      supported on the partition.
      HSCLA2FF  An internal Hardware Management Console error has occurred. If this 
      error persists, contact your service representative. 
      Warning:
      HSCLA246  The HMC cannot communicate migration commands to the partition visav2.
      Either the network connection is not available or the partition does not have a 
      level of software that is capable of supporting partition migration. Verify the 
      correct network and migration setup of the partition, and try the operation 
      again.

      当我们在 VIOS 中验证时:

      lsmap  	-all  	-npiv
      Name        Physloc                           ClntID  ClntName     ClntOS
      ----------- --------------------------------- ------- ------------ ------
      vfchost3    U9117.MMB.100302P-V1-C14             5      upt0052      AIX
      
      Status:LOGGED_IN
      FC name:fcs0                   FC  loc code:U78C0.001.DBJ0563-P2-C1-T1
      Ports logged in:35
      Flags:a<LOGGED_IN,STRIP_MERGE>
      VFC client name:fcs1            VFC client DRC:U8233.E8B.100244P-V5-C4-T1
      Name        Physloc                           ClntID  ClntName     ClntOS
      ----------- --------------------------------- ------- ------------ ------
      vfchost3    U9117.MMB.100302P-V1-C13
      
      Status:LOGGED_IN
      FC name:fcs0                   FC  loc code:U78C0.001.DBJ0563-P2-C1-T1
      Ports logged in:0
      Flags:4<NOT_LOGGED>
      VFC client name:                VFC client DRC

      这里的问题是 vfchost3 和 vfchost8 同时映射到同一个主机(upt0058)且同时映射到同一个物理 FC(fcs0)。这不是推荐的设置。要修复这个问题,采用以下任一解决方案:

      • 我们需要在连接到交换机的服务器上将其中一个 vfchost 映射到另一个 FC (fcs1)。
      • 可以通过 DLPAR 移除其中一个 vfchost。
    • 这个错误基本上代表了源和目标 FC 适配器之间的不兼容性。根据 FC 适配器的特征,这种不兼容性可能源自几个原因(因为对于多种不同的 FC 不兼容性问题或映射问题,我们都有可能得到 “return code of 69”)。
      hscroot@guandu5:~> migrlpar -o v -m flrx -t dash --ip destiny4  -u hscroot -p 
          upt0064
      HSCLA319 The migrating partition's virtual fibre channel client adapter 4 
      cannot be hosted by the existing Virtual I/O Server (VIOS) partitions on 
      the destination managed system. To migrate the partition, set up the 
      necessary VIOS host on the destination managed system, then try the 
      operation again. 
      HSCLA319 The migrating partition's virtual fibre channel client adapter 3 
      cannot be hosted by the existing Virtual I/O Server (VIOS) partitions on 
      the destination managed system. To migrate the partition, set up the 
      necessary VIOS host on the destination managed system, then try the 
      operation again. 
           
      Details:
      HSCLA356 The RMC command issued to partition dashv1 failed. This means that
      destination VIOS partition dashv1 cannot host the virtual adapter 4 on the 
      migrating partition. 
      HSCLA29A The RMC command issued to partition dashv1 failed. 
      The partition command is:
      migmgr -f find_devices -t vscsi -C 0x3 -d 1
      The RMC return code is:
      0
      The OS command return code is:
      69
      The OS standard out is:
      Running method '/usr/lib/methods/mig_vscsi'
      69
           
      The OS standard err is:
           
           
      The search was performed for the following device description:
            <vfc-server>
                     <generalInfo>    
                         <version>2.0 </version>
                         <maxTransfer>1048576</maxTransfer>
                         <minVIOSpatch>0</minVIOSpatch>
                         <minVIOScompatability>1</minVIOScompatability>
                         <effectiveVIOScompatability>-1</effectiveVIOScompatability>
                         <numPaths>1</numPaths>
                         <numPhysAdapPaths>1</numPhysAdapPaths>
                         <numWWPN>34</numWWPN>
                         <adpInterF>2</adpInterF>
                         <adpCap>5</adpCap>
                         <linkSpeed>400</linkSpeed>
                         <numIniat>6</numIniat>
                         <activeWWPN>0xc0507601a6730036</activeWWPN>
                         <inActiveWWPN>0xc0507601a6730037</inActiveWWPN>
                         <nodeName>0xc0507601a6730036</nodeName>
                         <streamID>0x0</streamID>
                      <generalInfo>
                        <ras>
                              <partitionID>1</partitionID>
                         </ras>
                        <wwpn_list>
                                      <wwpn>0x201600a0b84771ca</wwpn>
                                      <wwpn>0x201700a0b84771ca</wwpn>
                                      <wwpn>0x202400a0b824588d</wwpn>
                                      <wwpn>0x203400a0b824588d</wwpn>
                                      <wwpn>0x202500a0b824588d</wwpn>
                                      <wwpn>0x203500a0b824588d</wwpn>
                                      <wwpn>0x5005076303048053</wwpn>
                                      <wwpn>0x5005076303098053</wwpn>
                                      <wwpn>0x5005076303198053</wwpn>
                                      <wwpn>0x500507630319c053</wwpn>
                                      <wwpn>0x500507630600872d</wwpn>
                                      <wwpn>0x50050763060b872d</wwpn>
                                      <wwpn>0x500507630610872d</wwpn>
                                      <wwpn>0x5005076306ib872d</wwpn>
                                      <wwpn>0x500a098587e934b3</wwpn>
                                      <wwpn>0x500a098887e934b3</wwpn>
                                      <wwpn>0x20460080e517b812</wwpn>
                                      <wwpn>0x20470080e517b812</wwpn>
                                      <wwpn>0x201400a0b8476a74</wwpn>
                                      <wwpn>0x202400a0b8476a74</wwpn>
                                      <wwpn>0x201500a0b8476a74</wwpn>
                                      <wwpn>0x202500a0b8476a74</wwpn>
                                      <wwpn>0x5005076304108e9f</wwpn>
                                      <wwpn>0x500507630410ce9f</wwpn>
                                      <wwpn>0x50050763043b8e9f</wwpn>
                                      <wwpn>0x50050763043bce9f</wwpn>
                                      <wwpn>0x201e00a0b8119c78</wwpn>
                                      <wwpn>0x201f00a0b8119c78</wwpn>
                                      <wwpn>0x5001738003d30151</wwpn>
                                      <wwpn>0x5001738003d30181</wwpn>
                                      <wwpn>0x5005076801102be5</wwpn>
                                      <wwpn>0x5005076801102dab</wwpn>
                                      <wwpn>0x5005076801402be5</wwpn>
                                      <wwpn>0x5005076801402dab</wwpn>
                          </wwpn_list>
                          
         <vfc-server>

      可以采用以下任一解决方案(由于目标 FC 适配器的其他不匹配特征,这些解决方案也可能会失败):

      • 确保源和目标之间的 FC 适配器的特征一致。
      • 确保源和目标适配器达到同一组目标(检查分区)。
      • 确保 FC 适配器连接正确。

      有时,调试错误需要验证或迁移时的配置日志。要获取这个日志,从源 MSP 运行以下命令:

      alog -t cfg -o > cfglog

      LPM 的 NPIV 映射步骤如下:

      1. 将 NPIV WWN (World Wide Name) 和 SAN WWN 分区(zone)在一起。
      2. 将 LUN 的 WWN 和 NPIV 客户机 WWN 屏蔽在一起。
      3. 确保目标源和目标 VIOS 拥有一条道 SAN 子系统的路径。

      针对 LPM 的 vSCSI 映射步骤:

      1. 将源和目标 VIOS WWN 和 SAN WWN 分区在一起。
      2. 确保使用来自 SAN 子系统的源和目标 VIOS 来屏蔽 LUN。

POWER7 中的 LPM 增强

根据进行 LPM 的 “LPM 先决条件” 小节的要求,LPAR 不应该拥有任何物理适配器,但如果它是一个 POWER7,那么它可以连接 Host Ethernet Adapter (Integrated Virtualized Ethernet)。但是,对于一个您想迁移到其他 POWER7 的 POWER7 LPAR 而言,可以连接 HEA,但我们必须在一个新创建的虚拟适配器和处于聚合模式的 HEA 上创建以太网通道。当我们在目标上迁移时,我们只能看到配置了 IP 和以太网通道的虚拟适配器;HEA 将不被迁移。另外,确保将用于在虚拟适配器中 创建以太网通道的 VLANs 同时添加到源和目标 VIOS。

在 LPM 之前:

# lsdev -Cc adapter
ent0  Available       Logical Host Ethernet Port (lp-hea)
ent1  Available       Logical Host Ethernet Port (lp-hea)
ent2  Available       Logical Host Ethernet Port (lp-hea)
ent3  Available       Logical Host Ethernet Port (lp-hea)
ent4  Available       Virtual I/O Ethernet Port (l-lan)
ent7  Available       Virtual I/O Ethernet Port (l-lan)
ent6  Available       Virtual I/O Ethernet Port (l-lan)
ent7  Available       Virtual I/O Ethernet Port (l-lan)
ent8  Available       EtherChannel / 802.3ad Link Aggregation
ent9  Available       EtherChannel / 802.3ad Link Aggregation
ent10 Available       EtherChannel / 802.3ad Link Aggregation
ent11 Available       EtherChannel / 802.3ad Link Aggregation
fcs0  Available C3-T1 Virtual Fibre Channel Adapter
fcs1  Available C3-T1 Virtual Fibre Channel Adapter
lhea0 Available       Logical Host Ethernet Adapter (l-hea)
lhea1 Available       Logical Host Ethernet Adapter (l-hea)    
vsa0  Available       LPAR Virtual Serial Adapter
[root@upt0017] /

在本例中,进行 LPM 的方法也与以前有点不同;这种 LPM 必须使用 smitty 从 LPAR 进行(也称为客户端 LPM),而不是从 HMC 进行。但是,LPAR 必须使用 SSH 文件组安装,以便通过 smitty 进行 LPM。

openssh.base.client
openssh.base.server
openssh.license
openssh.man.en_US
openssl.base
openssl.license
openssl.man.en_US

使用 smitty 迁移一个带有 HEA 的 Power7 LPAR。Smit --> Applications 是通过 smitty 进行 LPM 的第一步。

# smit

System Management
Move cursor to desired item and press Enter
  
  Software Installation and Maintenance
  Software License Management
  Mange Edition
  Devices
  System Storage Management  *Physical & Logical Storage)
  Security & User
  Communication Applications and Services
  Workload Partition Administration
  Print Spooling
  Advanced Accounting
  Problem Determination
  Performance & Resource Scheduling
  System Environments
  Processes & Subsystems
  Applications
  Installation Assistant
  Electronic Service Agent
  Cluster Systems Management
  Using SMIT (information only)

选择 “Applications”,然后选择 “Live Partition Mobility with Host Ethernet Adapter (HEA)” 继续。

Move cursor to desired item and press Enter

Live Partition Mobility with Host Ethernet Adapter (HEA)

然后输入必要的字段,比如源和目标 HMC 和 HMC 用户、源和目标托管的系统名称、LPAR 名称。

                   Live Partition Mobility with Host Ethernet Adapter (HEA)    
 
Type or select values in the entry fields.
Press Enter AFTER making all desired changes

                                                     [Entry Fields]
* Source HMC Hostname or IP address                [destinty2]
* Source HMC Username             [hscroot]
* Migration between two HMCs                         no
        Remote HMC hostname or IP address          [ ]
        Remote HMC Username                        [ ]
*Source System                                     [link]
* Destination System                               [king]
* Migrating Partition Name                         [upt0017]
* Migration validation only                          yes

成功迁移后,smitty 命令输出显示 OK。

Command Status
                                           
Command: OK            stdout: yes           Stderr: no
Before command completion, additional instruction may appear below.

Setting up SSH credentials wit destinty2
If prompted for a password, please enter password for user hscroot on HMC destinty2
Verifying EtherChannel configuration ...
Modifying EtherChannel configuration for mobility ...
Starting partition mobility process. This process is complete.
DO NOT halt or kill the migration process. Unexpected results may occur if the migration
process is halted or killed.
Partition mobility process is complete. The partition has migrated.

LPM 成功后,所有 HEA 将处于已定义状态,但 HEA 和虚拟适配器之间的以太网通道仍然存在,以太网通道上仍然配置了 IP。

[root@upt0017] /
# lsdev -Cc adapter

ent0   Defined             Logical Host Ethernet Port  (lp-hea)
ent1   Defined             Logical Host Ethernet Port  (lp-hea)
ent2   Defined             Logical Host Ethernet Port  (lp-hea)
ent3   Defined             Logical Host Ethernet Port  (lp-hea)
ent4   Available           Virtual I/O Ethernet Adapter  (l-lan)
ent5   Available           Virtual I/O Ethernet Adapter  (l-lan)
ent6   Available           Virtual I/O Ethernet Adapter  (l-lan)
ent7   Available           Virtual I/O Ethernet Adapter  (l-lan)
ent8   Available           EtherChannel  /  IEEE 802.3ad Link Aggregation
ent9   Available           EtherChannel  /  IEEE 802.3ad Link Aggregation
ent10  Available           EtherChannel  /  IEEE 802.3ad Link Aggregation
ent11  Available           EtherChannel  /  IEEE 802.3ad Link Aggregation
fcs0   Available  C3-T1    Virtual Fibre Channel Client Adapter
fcs1   Available  C4-T1    Virtual Fibre Channel Client Adapter
lhea0  Defined             Logical Host Ethernet Adapter  (l-hea)
lhea1  Defined             Logical Host Ethernet Adapter  (l-hea)
vsa0   Available           LPAR Virtual Serial Adapter
[root@upt0017] /
# netstat -i
Name  Mtu    Network      Address            Ipkts   Ierrs        Opkts  Oerrs  Coll
en8   1500   link#2      0.21.5E.72.AE.40    9302210    0       819878     0       0
en8   1500   10.33       upt0017.upt.aust    9302210    0       819978     0       0
en9   1500   link#3      0.21.5e.72.ae.52      19667    0          314     2       0
en9   1500   192.168.17  upt0017e0.upt.au      19667    0          314     2       0
en10  1500   link#4      0.21.5e.72.ae.61      76881    0         1496     0       0
en10  1500   192.168.18  upt0017g0.upt.au      76881    0         1496     0       0
en11  1500   link#5      0.21.5e.72.ae.73       1665    0         2200     2       0
en11  1500   192.168.19  upt0017d0.upt.au       1665    0         2200     2       0
lo0   16896  link#1                          1660060    0       160060     0       0
lo0   16896  loopback    localhost ''        1660060    0       160060     0       0
lo0   16896  ::1%1                           1660060    0       160060     0       0
[root@upt0017] /
#

针对 POWER7 的其他增强

其他增强如下:

  • 用户定义的 Virtual Target Device 名称在 LPM (vSCSI) 过程中得到保留。
  • 支持一个正在迁移的分区(vSCSI)的 LUNs 上的共享持久(SCSI-3)预订。
  • 支持跨非对称 VIOS 配置进行客户机迁移。这种迁移会导致冗余性损失。它需要一个 HMC 级 V7r3.5.0 和 GUI “override errors” 选项或命令行 --force 标志。它还允许将一个客户机分区移动到一个 CEC,这个 CEC 的 VIO 配置不提供与源相同的冗余性级别。
  • CLI 接口支持配置 IPSEC 隧道,用于 MSPs 之间的数据连接。
  • 支持用户选择迁移过程中使用的 MSP IP 地址。

限制

  • LPM 不能在独立 LPAR 上进行;它必须是一个 VIOS 客户机。
  • 它必须拥有用于网络和存储器的虚拟适配器。
  • 它需要 PowerVM Enterprise Edition。
  • VIOS 不能被迁移。
  • 在系统之间迁移时,只有活动配置文件针对分区和 VIOS 更新。
  • 处于崩溃或失败状态的分区不能被迁移。
  • 不允许电池驱动的服务器作为迁移目标,但电池驱动的服务器可以作为正在迁移的分区的源。
  • 要进行迁移,目标服务器必须拥有一些可用资源(比如处理器和内存),这些资源是正在迁移的分区的当前配置。如果需要减少或增加资源,则需要独立于迁移执行 DLPAR 操作。
  • 这不是 PowerHA 解决方案或 Disaster Recovery Solution 的替代解决方案。
  • 在 MSPs 之间传输时,分区数据不加密。

结束语

本文向管理员、测试员和开发人员提供关于 LPM 配置和故障诊断的信息。本文逐步描述了进行 LPM 的一个命令行和 GUI 配置流程。本文还解释了进行 LPM 的先决条件和限制。

参考资料

学习

讨论

条评论

developerWorks: 登录

标有星(*)号的字段是必填字段。


需要一个 IBM ID?
忘记 IBM ID?


忘记密码?
更改您的密码

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件

 


在您首次登录 developerWorks 时,会为您创建一份个人概要。您的个人概要中的信息(您的姓名、国家/地区,以及公司名称)是公开显示的,而且会随着您发布的任何内容一起显示,除非您选择隐藏您的公司名称。您可以随时更新您的 IBM 帐户。

所有提交的信息确保安全。

选择您的昵称



当您初次登录到 developerWorks 时,将会为您创建一份概要信息,您需要指定一个昵称。您的昵称将和您在 developerWorks 发布的内容显示在一起。

昵称长度在 3 至 31 个字符之间。 您的昵称在 developerWorks 社区中必须是唯一的,并且出于隐私保护的原因,不能是您的电子邮件地址。

标有星(*)号的字段是必填字段。

(昵称长度在 3 至 31 个字符之间)

单击提交则表示您同意developerWorks 的条款和条件。 查看条款和条件.

 


所有提交的信息确保安全。


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=10
Zone=AIX and UNIX
ArticleID=657401
ArticleTitle=动态分区迁移(LPM)基础知识和故障诊断
publish-date=05092011