IBM Multi-site Workload Lifeline

在 z/OS 上运行的业务关键型工作负载在中断期间实现连续可用性

体验交互式演示 预约实时演示

通过影响 TCP/IP 工作负载连接和 IBM MQ 集群工作负载消息路由,IBM® Multi-site Workload Lifeline (Lifeline) 可以实现关键工作负载事务的智能负载均衡。路由是在两个站点之间完成的,从而提供近乎连续的可用性。

在发生中断时,与传统灾难恢复相比,IBM Multi-site Workload Lifeline 有助于将关键工作负载恢复时间从几小时缩短到几分钟。它检测工作负载故障并重新路由到另一个站点,以缩短计划外中断的恢复时间。它将工作负载切换到另一个站点以尽量减少中断,从而减轻计划内中断的影响。

优势 提高性能

新的工作负载连接将路由到处理能力最强的应用程序、服务器和系统,从而缩短事务响应时间。更高效地使用系统资源。

实现更高可用性

在应用程序、系统或站点发生中断时,将新的工作负载连接路由到其他可用的应用程序。可以最大限度减少维护更新或其他计划内事件造成的中断。

提高可扩展性

按需添加应用程序实例。自动监控添加的实例,并将其包括在工作负载路由决策中。

缩短恢复时间

将新的工作负载连接与最强大的应用程序和系统相结合,从而缩短响应时间。可以将发生工作负载故障后的恢复时间从几小时缩短到几分钟。

改进工作负载迁移和利用率

将工作负载从一个站点路由到另一个站点,以尽量减少中断。可以同时将查询工作负载连接分配给两个站点。

简化灾难恢复程序

添加更简单的非中断性灾难恢复过程测试,以验证是否仍然可以在恢复站点上访问工作负载,而无需中断生产站点。

IBM Multi-site Workload Lifeline 可帮助我们了解某个站点是否正常,以及数据是否已同步。仅当部署 IBM Multi-site Workload Lifeline 后,IBM GDPS Continuous Availability (GDPS AA) 才能完成工作负载切换,从而实现持续可用性。 数据中心高级经理 一家大型亚洲银行
功能
对工作负载应用负载均衡

对于针对 TCP/IP 应用程序的工作负载,Lifeline 使用两层负载均衡。Lifeline 指示第一层负载均衡器将工作负载连接路由到所选站点中的第二层负载均衡器,然后第二层负载均衡器将连接路由到该站点中的应用程序。Lifeline 依靠 IBM MQ 集群处理使用消息传送的工作负载。Lifeline 指示集群将工作负载消息路由到所选站点中的 IBM MQ 队列管理器,然后队列管理器将消息提供给应用程序。

站点路由建议

对于使用两层负载均衡器的工作负载,Lifeline 根据两个站点中的工作负载应用程序、z/OS 系统和 Linux® on IBM Z® Systems(如果适用)的可用性和运行状况,为第一层负载均衡器提供站点连接路由建议。对于使用 IBM MQ 集群的工作负载,Lifeline 根据两个站点中的 IBM MQ 队列管理器和 z/OS 系统的可用性和运行状况,为集群提供站点消息路由建议。

Lifeline 代理

Lifeline 代理是在两个站点中存在工作负载的每个 z/OS 系统和 Linux on Z Management Guest 上启动的。代理负责监控位于其系统上的工作负载应用程序,并向 Lifeline 顾问报告该信息。z/OS 上的代理还负责与 MQ 队列管理器通信,以监控和影响 MQ 集群中的 MQ 消息路由。

Lifeline 顾问

Lifeline 顾问是在 z/OS 系统上启动的,可以作为主顾问或辅助顾问启动。主顾问与所有 Lifeline 代理通信,以确定工作负载可用性。顾问向 MQ 集群代理提供 MQ 消息分发规则,并为这些工作负载的 TCP 连接负载均衡器提供路由建议。辅助顾问监控主顾问的可用性,并在主顾问发生故障时接替主顾问以履行其职责。

工作负载配置

为 Multi-site Workload Lifeline 配置的每个工作负载划分为“活动/备用”工作负载或“活动/查询”工作负载。

  • 活动/备用工作负载在一个站点中处于活动状态。Lifeline 指示负载均衡器将传入的连接路由到活动站点。在进行数据库更新时,数据库软件复制功能将这些更改从活动工作负载实例异步传输到备用工作负载实例。在备用站点中,备用工作负载实例处于活动状态并准备好接收工作。来自活动站点的更新数据近乎实时地应用于备用站点中运行的数据库子系统。

  • 活动/查询工作负载可在一个或两个站点中处于活动状态。Lifeline 可向负载均衡器提供路由建议,从而智能地平衡两个站点之间的连接。当关联的活动/备用工作负载进行数据库更新时,Lifeline 会监控数据库复制延迟,以确保当某一站点上的复制数据库所含数据与活动站点数据库中的数据相比处于严重过时状态时,则不将连接路由到该站点。
工作负载类型

Lifeline 可以支持位于 z/OS 或 Linux on Z 上的很多类型的工作负载:

  • 基于 TCP 的应用程序,例如 CICS 套接字或 HTTP 服务器

  • 可以从基于 TCP 的服务器中访问的 SNA 应用程序,例如 TN3270

  • 从 z/OS 上定义的 MQ 集群接收消息的 MQ 应用程序

  • 通过 DRDA 消息传递功能访问 Db2 子系统

  • 在 Linux on Z 客户机上运行的基于 TCP 的应用程序,例如 WebSphere Application Server
系统要求

软件要求

  • z/VM 上的虚拟化需要使用 V5R3 或更高版本。
  • z/OS 上的虚拟化需要使用运行 Communications Server for z/OS 的 z/OS V2R1 或更高版本。

硬件要求

  • 任何可以运行 z/OS V2R1 或更高版本并使用来自 Communications Server for z/OS 的 TCP/IP 堆栈的 System z。
资源 IBM Multi-site Workload Lifeline

了解 IBM Multi-site Workload Lifeline 如何在解决企业的重大问题中发挥重要作用。

使用 IBM Multi-site Workload Lifeline 进行负载均衡

了解如何实现 TCP/IP 工作负载智能负载均衡,同时仍具有近乎连续的可用性。

相关产品 IBM z/OS Communications Server

用于开发和共享大型机工作负载的安全平台。

IBM GDPS

自动执行大型机任务和灾难恢复,以实现弹性目标。

IBM Infosphere Data Replication

通过基于日志的变更数据捕获和事务完整性,支持大规模的大数据集成和整合、仓储和分析计划。

常见问题解答

IBM Multi-site Workload Lifeline 如何实现连续可用性?

Lifeline 可跨两个综合系统或运行这些系统的站点来监控工作负载应用程序,以及这些应用程序所在的系统。Lifeline 可控制针对这些工作负载应用程序的连接和 MQ 消息的路由,从而确保将这些连接和 MQ 消息发送到活动站点中的最佳工作负载应用程序。
如果 Lifeline 检测到活动站点中的工作负载故障,Lifeline 可在几秒钟内自动将工作负载切换到备用站点中的工作负载应用程序。或者,Lifeline 可生成警报消息,而自动化产品可捕获这些消息以执行自己的工作负载切换操作。

我的企业是否需要连续的工作负载可用性?

如果您的企业符合以下情况之一,则需要具有连续的工作负载可用性。

  • 根据行业法规,您的企业必须 24x7 全天候运营。
  • 其他企业依赖于您企业的始终在线可用性,例如,如果您的企业属于金融和保险行业。
  • 您的企业没有实施恢复过程,例如,在非综合系统环境中,并且没有磁盘复制功能
持续可用性与灾难恢复有何不同?

现有的灾难恢复解决方案利用基于磁盘的复制,将本地站点中的系统使用的所有磁盘镜像复制到远程站点。在进行磁盘复制时,不能使用这些磁盘副本。如果在本地站点中发生故障,则需要在远程站点中重新启动系统和工作负载应用程序,然后才能重新访问工作负载。通常,这可能需要一小时或更长时间才能完成。
借助启用了 Lifeline 的连续可用性解决方案,可以使用软件数据复制(例如 InfoSphere Data Replication for Db2)在本地站点和远程站点之间保持数据同步。主要区别在于,两个站点中的系统均处于活动状态,并使用 Lifeline 监控两个站点中的工作负载。如果在本地站点中发生故障,Lifeline 将检测工作负载故障,并将所有新的工作负载连接路由到备用站点。因此,可以在几秒钟内重新访问工作负载,而灾难恢复解决方案需要一小时或更长的时间。

Lifeline 如何充当 GDPS® Continuous Availability 解决方案的重要组成部分?

Lifeline 通过其监控和工作负载路由功能在 GDPS 持续可用性解决方案中发挥不可或缺的作用,同时提供以下优势:

  • 提高性能:新的工作负载连接将路由到最有能力处理它们的应用程序、服务器和系统中,从而缩短事务响应时间。系统资源可更有效地进行使用。
  • 提高可用性:在一些应用程序和系统发生故障时,可以将新的工作负载连接路由到可用的应用程序和系统。可以最大限度减少维护更新或其他计划内事件造成的中断。
  • 缩短恢复时间:将恢复时间目标从几小时缩短到几分钟。通过磁盘复制,传统灾难恢复解决方案重新启动系统或应用程序以在备用站点上进行恢复。这通常需要几小时的时间,并且 IT 服务在此期间中断。通过在 GDPS Continuous Availability 解决方案中使用 Lifeline,可以在几分钟内将工作负载切换到备用站点。
了解更多信息
Lifeline 是否仅作为 GDPS Continuous Availability 解决方案的一部分提供?

不。虽然 Lifeline 通常被用作 GDPS 连续可用性解决方案的其中一部分,但也可部署在该解决方案之外。
如果您的企业拥有自己的自动化功能,则可使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步。
在其他情况下,如果您的企业拥有未启用综合系统的工作负载应用程序,则无法使用 GDPS 连续可用性解决方案。通过使用 Lifeline 和软件数据复制产品在两个站点中保持数据同步,可为这些工作负载类型提供“类似综合系统”的恢复功能。

了解更多信息
Lifeline 如何缩短计划内中断的维护窗口?

Lifeline 提供了在计划内中断期间正常切换应用程序及其数据源(Lifeline 称为工作负载)的功能。通过使用简单的 Lifeline 命令,可以轻松执行从一个站点到另一个站点的工作负载迁移,从而最大限度减少计划内事件(例如定期维护活动)的中断时间。

了解更多信息
Lifeline 如何在计划外中断期间为关键工作负载提供近乎连续的可用性?

Lifeline 可提高可用性,因为新的连接和消息可从发生故障的工作负载应用程序和系统中路由出去。Lifeline 可通过将连接和消息路由到可处理额外工作的工作负载应用程序和系统来缩短响应时间,并将恢复时间从几小时缩短为几分钟。

是否最初需要为 Lifeline 配置站点中运行的所有工作负载?

不需要。Lifeline 的众多好处之一是,它不像灾难恢复解决方案那样是一个全有或全无的解决方案。仅需要为 Lifeline 配置最关键的工作负载以提供连续可用性,而所有其他工作负载(包括批处理)使用现有的灾难恢复过程进行恢复。可以随时在 Lifeline 中添加其他工作负载。

在为 Lifeline 定义工作负载时,工作负载的特征是什么?

工作负载的特征取决于工作负载类型。对于基于 TCP 的工作负载,它是 TCP 应用程序的 IP 地址和端口号。对于基于 SNA 的工作负载,它是 SNA 应用程序的 SNA 应用程序名称。对于基于 MQ 的工作负载,它是发送工作负载 MQ 消息的 MQ 集群队列和 MQ 队列管理器。对于基于 Db2 DRDA 的工作负载,它是 Db2 别名和 Db2 子系统的 IP 地址和端口号。对于 Linux on Z 工作负载,它是 zVM 上运行的 Linux on Z 客户机。

Lifeline 如何控制工作负载应用程序连接路由?

Lifeline 依靠支持服务器/应用程序状态协议 (SASP) 的负载均衡器;在 RFC 4678 中介绍了该协议。该协议允许 Lifeline 定期向启用了 SASP 的负载均衡器发送路由建议,以指示负载均衡器如何在一组可能跨两个站点的工作负载应用程序之间路由工作负载连接。F5 Big-IP Switch Local Traffic Manager 是建议与 Lifeline 一起使用的负载均衡器。

Lifeline 如何控制工作负载 MQ 消息路由?

Lifeline 与管理工作负载使用的队列的 MQ 队列管理器通信,并指示 MQ 队列管理器有资格在其中接收 MQ 消息的 MQ 集群。在站点中发生工作负载故障后,Lifeline 还确保在工作负载切换期间将任何搁置的 MQ 消息传输到备用站点中的 MQ 管理器。

后续步骤

Multi-site Workload Lifeline 有助于在发生中断时减少关键工作负载恢复时间。

更多探索方式 文档 支持 全球融资