PowerHA SystemMirror 使用 Cluster Aware AIX
PowerHA® SystemMirror® 是在 AIX® 操作系统支持的核心集群功能之外构建的。 PowerHA SystemMirror 支持 Cluster Aware AIX (CAA) 功能的所有 AIX 版本。
CAA 和 PowerHA SystemMirror 使用通用 ID(UID 和 UUID)来跟踪磁盘和节点。 不支持动态更改 UID 和 UUID。 在大多数情况下,UID 和 UUID 通常是不变量。 但是,存在 UID 和 UUID 可以更改的已知情况,例如,重新安装操作系统。 如果对 UID 和 UUID 进行更改,那么必须移除并重新创建 CAA 集群,以确保更新所有 UID 和 UUID。
在 AIX Version 7.2 或更高版本中,或在 IBM® AIX 7.1 with Technology Level 4 或更高版本中,CAA 会在 20 秒(默认值)后检测并处理网络故障。 要将缺省值从 20 秒进行更改,请运行
clmgr modify cluster NETWORK_FAILURE_DETECTION_TIME=<xxx>
命令,其中 xxx 是秒数,在 5 - 590 范围内。
- 脉动信号管理
- 默认情况下, PowerHA SystemMirror 使用单播通信进行心跳。 另一种方法是可以配置多点广播通信,而不配置单点广播。 对于组播,您可以选择一个组播地址,或让 Cluster Aware AIX (CAA) 自动分配一个。 您可以在配置群集时指定组播地址,也可以在配置过程中根据网络环境通过 Cluster Aware AIX (CAA) 设置组播。 集群通信可通过在多个冗余的通信路径中通信来实现。 以下冗余的通信路径提供了不容易集群分区的强健的集群基础:
- TCP/IP 网络
- PowerHA SystemMirror 和 Cluster Aware AIX 使用可用于群集通信的所有网络接口。 缺省情况下所有这些接口都可被发现,且都可用于运行状况管理和其他集群通信。 您可以使用 PowerHA SystemMirror 管理接口,删除任何不想用于应用程序可用性的接口。 您也可以通过 PowerHA SystemMirror 将不想使用的接口定义为专用接口。
- 基于 SAN 的通信
- 对于有限数量的适配器,CAA 支持基于存储区域网络 (SAN) 光纤网的集群通信,其中包括脉动信号传递。 此类型的脉动信号传递是可选的,可能并不适用于大多数环境,这是因为需要进行网络分区,以允许使用小型计算机系统接口 (SCSI) 协议将包从一个客户机移动到另一个客户机。
- 基于中央集群存储库的通信
- 集群运行状况和其他集群通信通过中央存储库磁盘来实现。 PowerHA SystemMirror 7.2 或更高版本提供自动存储库磁盘替换 (ARR) 功能,可自动用备份存储库磁盘替换故障存储库磁盘。 只有在使用 PowerHA SystemMirror 配置和识别备份存储库磁盘时,ARR 功能才可用。
- 网络接口故障检测时间
- PowerHA SystemMirror 依靠 CAA 监控和检测网络接口故障和节点故障。 在 IBM AIX 7.1 with Technology Level 4 或更早的版本中,CAA 可在固定时间(5 秒)内检测网络故障。 如果这些版本的 AIX 操作系统出现硬件故障,会立即报告。 此类型的报告称为快速故障检测过程。 AIX 操作系统中的这一检测和报告过程与 PowerHA SystemMirror 6.1 版本报告和检测故障的方式不同。 在 PowerHA SystemMirror 6.1 中,在整个网络故障检测时间结束前不会宣布故障。 此过程称为基于放宽故障检测的完全等待时间。
在 AIX Version 7.2 或更高版本中,或在 IBM AIX 7.1 with Technology Level 4 或更高版本中,可以使用
NETWORK_FAILURE_DETECTION_TIME选项和 clmgr 命令来设置网络接口的故障检测时间。NETWORK_FAILURE_DETECTION_TIME选项的缺省值为 20 秒。 在 AIX Version 7.2 或更高版本中,或在 IBM AIX 7.1 with Technology Level 4 或更高版本中,故障检测过程在故障检测时间的整个等待期之后进行。 AIX 操作系统的这些版本不使用快速故障检测程序。要将NETWORK_FAILURE_DETECTION_TIME选项的缺省值更改为 20 秒,请运行 clmgr modify cluster NETWORK_FAILURE_DETECTION_TIME=<xxx> 命令,其中xxx是下列其中一个值:- 0
- 如果指定此值,并且集群已同步,那么在 5 秒之后进行网络故障检测,并且使用快速故障检测过程。 该选项在 IBM AIX 7.1 with Technology Level 4 或更早版本中使用。
- 5 - 590 秒
- 如果指定此范围内的值,并且集群已同步,那么将在指定的值之后进行网络故障检测,并且使用完全等待时间过程。
- 节点故障检测时间
- PowerHA SystemMirror 当网络通信和磁盘通信出现心跳缺失时,CAA 可以检测到集群中伙伴节点的故障。 当失去这些通信信道时,将在设置的时间段内启用监视。 此监视称为节点故障检测时间。要配置节点故障检测时间,可以使用下列其中一个选项:
- SMIT
- 要配置节点故障检测时间,请完成下列步骤:
- 从命令行输入 smit sysmirror。
- 在 SMIT 界面中,选择 ,按 Enter 键。
- 填写所有必填字段,然后按 Enter 键。
- 命令行
- 从命令行运行 clmgr modify cluster HEARTBEAT_FREQUENCY=<v1>
GRACE_PERIOD=<v2> 命令,其中
v1和v2是以秒计的值。HEARTBEAT_FREQUENCY选项是节点通信超时值。 此值是 CAA 接收来自合作伙伴节点的包将等待的秒数,然后完成该过程中的下一个步骤以确定合作伙伴节点是否发生了故障。HEARTBEAT_FREQUENCY选项的有效值为 20 - 600 秒。 缺省值是 30 秒。HEARTBEAT_FREQUENCY选项的值必须比用于NETWORK_FAILURE_DETECTION_TIME选项的值多 10 秒。GRACE_PERIOD选项是 CAA 在对HEARTBEAT_FREQUENCY选项指定的时间过去之后将额外等待的时间。GRACE_PERIOD选项的缺省值为 10 秒。
- 增强的事件管理
- CAA 生成细粒度的存储和网络事件, PowerHA SystemMirror ,为高可用性管理提供更好的决策能力。
- 在节点间管理存储
- PowerHA SystemMirror 使用 AIX 的存储围栏功能,可更好地管理集群中各节点的存储。 只有配置了本地 AIX Multipath I/O (MPIO) 的磁盘才支持围栏功能。 PowerHA SystemMirror 通过增强型并发卷管理方法管理共享磁盘。注意: PowerHA SystemMirror 会尝试使用 CAA 存储框架围栏功能,以防止无法访问所有共享卷组的节点访问共享磁盘。 此保护功能可防止由于从多个节点无意中访问共享磁盘而造成数据破坏。 不过,CAA 存储框架围栏功能仅支持本地 AIX MPIO。