通过影响 TCP/IP 工作负载连接和 IBM MQ 集群工作负载消息路由,IBM® Multi-site Workload Lifeline (Lifeline) 可以实现关键工作负载事务的智能负载均衡。路由是在两个站点之间完成的,从而提供近乎连续的可用性。
在发生中断时,与传统灾难恢复相比,IBM Multi-site Workload Lifeline 有助于将关键工作负载恢复时间从几小时缩短到几分钟。它检测工作负载故障并重新路由到另一个站点,以缩短计划外中断的恢复时间。它将工作负载切换到另一个站点以尽量减少中断,从而减轻计划内中断的影响。
新的工作负载连接将路由到处理能力最强的应用程序、服务器和系统,从而缩短事务响应时间。更高效地使用系统资源。
在应用程序、系统或站点发生中断时,将新的工作负载连接路由到其他可用的应用程序。可以最大限度减少维护更新或其他计划内事件造成的中断。
按需添加应用程序实例。自动监控添加的实例,并将其包括在工作负载路由决策中。
将新的工作负载连接与最强大的应用程序和系统相结合,从而缩短响应时间。可以将发生工作负载故障后的恢复时间从几小时缩短到几分钟。
将工作负载从一个站点路由到另一个站点,以尽量减少中断。可以同时将查询工作负载连接分配给两个站点。
添加更简单的非中断性灾难恢复过程测试,以验证是否仍然可以在恢复站点上访问工作负载,而无需中断生产站点。
对于针对 TCP/IP 应用程序的工作负载,Lifeline 使用两层负载均衡。Lifeline 指示第一层负载均衡器将工作负载连接路由到所选站点中的第二层负载均衡器,然后第二层负载均衡器将连接路由到该站点中的应用程序。Lifeline 依靠 IBM MQ 集群处理使用消息传送的工作负载。Lifeline 指示集群将工作负载消息路由到所选站点中的 IBM MQ 队列管理器,然后队列管理器将消息提供给应用程序。
对于使用两层负载均衡器的工作负载,Lifeline 根据两个站点中的工作负载应用程序、z/OS 系统和 Linux® on IBM Z® Systems(如果适用)的可用性和运行状况,为第一层负载均衡器提供站点连接路由建议。对于使用 IBM MQ 集群的工作负载,Lifeline 根据两个站点中的 IBM MQ 队列管理器和 z/OS 系统的可用性和运行状况,为集群提供站点消息路由建议。
Lifeline 代理是在两个站点中存在工作负载的每个 z/OS 系统和 Linux on Z Management Guest 上启动的。代理负责监控位于其系统上的工作负载应用程序,并向 Lifeline 顾问报告该信息。z/OS 上的代理还负责与 MQ 队列管理器通信,以监控和影响 MQ 集群中的 MQ 消息路由。
Lifeline 顾问是在 z/OS 系统上启动的,可以作为主顾问或辅助顾问启动。主顾问与所有 Lifeline 代理通信,以确定工作负载可用性。顾问向 MQ 集群代理提供 MQ 消息分发规则,并为这些工作负载的 TCP 连接负载均衡器提供路由建议。辅助顾问监控主顾问的可用性,并在主顾问发生故障时接替主顾问以履行其职责。
为 Multi-site Workload Lifeline 配置的每个工作负载划分为“活动/备用”工作负载或“活动/查询”工作负载。
Lifeline 可以支持位于 z/OS 或 Linux on Z 上的很多类型的工作负载:
软件要求
硬件要求
了解 IBM Multi-site Workload Lifeline 如何在解决企业的重大问题中发挥重要作用。
了解如何实现 TCP/IP 工作负载智能负载均衡,同时仍具有近乎连续的可用性。
用于开发和共享大型机工作负载的安全平台。
自动执行大型机任务和灾难恢复,以实现弹性目标。
通过基于日志的变更数据捕获和事务完整性,支持大规模的大数据集成和整合、仓储和分析计划。
Lifeline 可跨两个综合系统或运行这些系统的站点来监控工作负载应用程序,以及这些应用程序所在的系统。Lifeline 可控制针对这些工作负载应用程序的连接和 MQ 消息的路由,从而确保将这些连接和 MQ 消息发送到活动站点中的最佳工作负载应用程序。
如果 Lifeline 检测到活动站点中的工作负载故障,Lifeline 可在几秒钟内自动将工作负载切换到备用站点中的工作负载应用程序。或者,Lifeline 可生成警报消息,而自动化产品可捕获这些消息以执行自己的工作负载切换操作。
如果您的企业符合以下情况之一,则需要具有连续的工作负载可用性。
现有的灾难恢复解决方案利用基于磁盘的复制,将本地站点中的系统使用的所有磁盘镜像复制到远程站点。在进行磁盘复制时,不能使用这些磁盘副本。如果在本地站点中发生故障,则需要在远程站点中重新启动系统和工作负载应用程序,然后才能重新访问工作负载。通常,这可能需要一小时或更长时间才能完成。
借助启用了 Lifeline 的连续可用性解决方案,可以使用软件数据复制(例如 InfoSphere Data Replication for Db2)在本地站点和远程站点之间保持数据同步。主要区别在于,两个站点中的系统均处于活动状态,并使用 Lifeline 监控两个站点中的工作负载。如果在本地站点中发生故障,Lifeline 将检测工作负载故障,并将所有新的工作负载连接路由到备用站点。因此,可以在几秒钟内重新访问工作负载,而灾难恢复解决方案需要一小时或更长的时间。
Lifeline 通过其监控和工作负载路由功能在 GDPS 持续可用性解决方案中发挥不可或缺的作用,同时提供以下优势:
不。虽然 Lifeline 通常被用作 GDPS 连续可用性解决方案的其中一部分,但也可部署在该解决方案之外。
如果您的企业拥有自己的自动化功能,则可使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步。
在其他情况下,如果您的企业拥有未启用综合系统的工作负载应用程序,则无法使用 GDPS 连续可用性解决方案。通过使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步,可为这些工作负载类型提供“类似综合系统”的恢复功能。
Lifeline 提供了在计划内中断期间正常切换应用程序及其数据源(Lifeline 称为工作负载)的功能。通过使用简单的 Lifeline 命令,可以轻松执行从一个站点到另一个站点的工作负载迁移,从而最大限度减少计划内事件(例如定期维护活动)的中断时间。
Lifeline 可提高可用性,因为新的连接和消息可从发生故障的工作负载应用程序和系统中路由出去。Lifeline 可通过将连接和消息路由到可处理额外工作的工作负载应用程序和系统来缩短响应时间,并将恢复时间从几小时缩短为几分钟。
不需要。Lifeline 的众多好处之一是,它不像灾难恢复解决方案那样是一个全有或全无的解决方案。仅需要为 Lifeline 配置最关键的工作负载以提供连续可用性,而所有其他工作负载(包括批处理)使用现有的灾难恢复过程进行恢复。可以随时在 Lifeline 中添加其他工作负载。
工作负载的特征取决于工作负载类型。对于基于 TCP 的工作负载,它是 TCP 应用程序的 IP 地址和端口号。对于基于 SNA 的工作负载,它是 SNA 应用程序的 SNA 应用程序名称。对于基于 MQ 的工作负载,它是发送工作负载 MQ 消息的 MQ 集群队列和 MQ 队列管理器。对于基于 Db2 DRDA 的工作负载,它是 Db2 别名和 Db2 子系统的 IP 地址和端口号。对于 Linux on Z 工作负载,它是 zVM 上运行的 Linux on Z 客户机。
Lifeline 依靠支持服务器/应用程序状态协议 (SASP) 的负载均衡器;在 RFC 4678 中介绍了该协议。该协议允许 Lifeline 定期向启用了 SASP 的负载均衡器发送路由建议,以指示负载均衡器如何在一组可能跨两个站点的工作负载应用程序之间路由工作负载连接。F5 Big-IP Switch Local Traffic Manager 是建议与 Lifeline 一起使用的负载均衡器。
Lifeline 与管理工作负载使用的队列的 MQ 队列管理器通信,并指示 MQ 队列管理器有资格在其中接收 MQ 消息的 MQ 集群。在站点中发生工作负载故障后,Lifeline 还确保在工作负载切换期间将任何搁置的 MQ 消息传输到备用站点中的 MQ 管理器。