2020 年 4 月,T-Mobile 以大手笔的竞争举措,颠覆了美国的电信市场。 该公司收购了 Sprint,通过合并,建立美国最大的 5G 网络。

当然,扩张也带来了重大风险。 在竞争异常激烈的电信市场,客户可不会给并购宽限期。 T-Mobile 需要整合两个大型网络,同时继续提供一致的服务可靠性和服务质量。

要做到这一点,取决于网络管理。 T-Mobile 使用来自 IBM Cloud Pak® for Watson AIOps 的工具整合管理,将两个庞大的网络合二为一,并使用 AI 驱动的自动化,最大程度提高其可靠性和效率。

T-Mobile 收购 Sprint 时,它必须每天关联大约

300 万

个额外的故障

借助 IBM Cloud Pak for Watson AIOps,故障平均处理时间缩短到

19 秒

-原来需要 5 分钟

尽管复杂性提高了两倍,但最大程度提高了质量

“网络管理是我们向使用 T-Mobile 网络的用户和企业提供的服务质量的主要组成部分。”T-Mobile 的首席事件管理架构师 Tom Higdon 说道,“网络管理就是如何确保所有优质服务确实可供客户使用,并达到应有的服务水平。”

在运行世界上最大的通信网络之一时,网络管理也极其复杂。 正如 Higdon 所解释的那样,“这不仅仅涉及无线网络,因为无线网络依赖于其他支持网络和基础设施: 这包括数据中心、基于 IP 的设备和服务、蜂窝基站、交换机基站以及涉及的所有设备。”

当 T-Mobile 收购 Sprint 时,网络管理的范围和复杂性基本上都翻了一倍。“在合并的第一天,”,Higdon 说道,“我们需要提供网络管理的范围一下子扩大到要监控将近 50 万台设备,每天要关联大约 300 万个新产生的故障。”

此外,这两个网络具有完全不同而且非常成熟的管理系统。“这加剧了整合的复杂性,因为我们的系统存在都超过 10 年。”Higdon 解释道。 这些系统涉及两个单独的核心管理平台 — 一个基于 IBM® Netcool® 解决方案(现在内置到 IBM Cloud Pak for Watson AIOps 中),另一个基于第三方管理解决方案 — 此外还有一系列多厂商监控工具,为核心平台提供监控数据。

随着 T-Mobil 将主要精力集中在提供最高的网络性能,他们希望最有效地确定每天数百万个故障中可处理的事项。 该公司还希望内置更多的自动化功能,以提高网络管理的效率和网络本身的可靠性。

T-Mobile 店面门窗展示

网络管理中的灵活性和效率

“几乎就是在合并后,”Higdon 说道,“我们立即看到 IBM 对产品套件进行投资,IBM 希望与我们建立真正的合作关系,携手发展,共创辉煌。 一些技术和非技术的差异化优势开始崭露头角。 这促使我们决定采用 Watson AIOps 解决方案。”

迫在眉睫的优先任务是整合不同的故障管理平台。 这是一项艰巨的任务,但需要迅速完成。 幸运的是,Higdon 和他的同事发现,IBM 解决方案足够灵活,可将来自其他管理和监控工具的数据有效整合起来。“我们迅速而且成功地完成了整合。 这是我们作为新企业完成的第一项工作。” Higdon 这样说,“IBM 产品套件中的连接器和适配器可快速部署和配置,只需进行最低程度的定制,就可以开始获取数据,扩充我们的故障和事件信息。 这使我们能够从容地整合网络运营团队。”

在将合并的网络管理平台过渡到生产发布时,T-Mobile 实现了显著的效率收益。“我们采用目标生产系统十分之一的规模,就处理了 90% 的警报总量。 所有 SNMP 警报都通过单个 SNMP 探测器获得,没有延迟或故障;而网络中存在的另一个管理系统则需要 10 个 SNMP 网关才能获得相同数量的警报,还要经历多次故障和/或处理延迟。”

夕阳背景下的通讯塔

大幅加速获得切实可行的洞察

在被收购的平台和原始平台合并后,Higdon 和他的团队现在集中精力进一步简化管理,减少日常网络运营中的“噪声”,创建最快的问题检测和解决途径,最好是防患于未然。Higdon 表示:“我们创建并实施性质上通用的框架,帮助解决多种类型的问题,获得正确的结果。” 例如,Higdon 描述了一个最近实施的无线核心警报关联框架。“关联可以几乎即时执行。 这就是差异化优势。 我们说的并不是每分钟回头扫描数以千计的故障。 它可以即时执行。”

根据 Higdon 的说法,创建这样的框架相对容易。“Watson AIOps 中的工具也非常灵活,可借助适配器创建这些框架。 这是最大的优势之一。 不需要大量的编码。 只需要进行一些修改,但通常非常简单。 该解决方案提供了与许多不同平台进行通信的通用方法。 它提供了能够轻松修改以满足我们需求的内部能力。”

Higdon 和他的团队看到,为用户提供切实可行洞察的速度显著提高:“我们设计了自己的 Watson AIOps 部署,以在所有层级提供全面的本地和地理区域冗余性。 此外,我们扩展了目标系统,使其能够以最低的延迟处理所需的故障量。 当使用最少的 AIOps 组件处理 90% 的故障总量时,我们看到,故障平均处理时间 — 从故障发生,到系统执行所有的信息扩充、故障关联和/或问题消除,直到向用户显示信息 — 只用了 19 秒。 而原有系统需要将近五分钟。”

T-Mobile 代表在店内与客户交谈

后续措施: 使用 AI 形成闭环的自动化

现在,T-Mobile 正在测试 IBM Watson AIOps 的 AI 和机器学习能力如何帮助实现更出色的响应能力,进一步增强网络可靠性。

“我们希望 AI 提供智能支持。 智能的形式可以多种多样,比如关联计数的阈值是多少,以及是否存在隐藏的关系? AI 的智能就是我们人类不通过大量的时间和精力无法获得的东西。”

网络管理的目标是从被动转向主动,最终实现预测性管理。 Higdon 希望使用 AIOps 更进一步,实现闭环的自动化。“这是我们的终极目标。 让这些工具带来海量的数据,理解这些数据,提出建议,甚至基于意向进行统筹或实现自动化。”

在竞争如此激烈的行业中,对于具有如此规模的网络而言,这将是非常有价值的优势。“我需要增加容量。 我可以采用工具将这些信息传递给智能自动化平台,从而带来变化。 无需人为干预。 这就是我们的计划,形成闭环,为此我们仍需努力。”

T-Mobile 徽标

关于 T-Mobile

T-Mobile(外部链接)是全球领先而且发展最快的移动通信提供商之一。 T-Mobile 是总部位于德国波恩的 Deutsche Telekom AG 的子公司,为欧洲、美国和加勒比地区的消费者和企业客户提供服务。 在 2020 年,它的客户数净增 550 万,收入达到 684 亿美元。

解决方案组件
IBM Cloud Pak® for Watson AIOps

© Copyright IBM Corporation 2021. IBM Corporation, IBM Cloud, New Orchard Road, Armonk, NY 10504

美国出品,2021 年 11 月。

IBM、IBM 徽标、ibm.com、IBM Cloud Pak 和 Netcool 是 International Business Machines Corp. 在全球许多司法辖区注册的商标。 其他产品和服务可能是 IBM 或其他公司的商标。Web 站点 www.ibm.com/legal/copytrade 上提供了 IBM 商标的最新列表。

本文档为自最初公布日期起的最新版本,IBM 可随时对其进行修改。IBM 并不一定在开展业务的所有国家或地区提供所有这些产品或服务。

引用的性能数据和客户示例仅用于演示目的。实际性能结果可能因具体配置和运行条件而异。本文档中的信息“按现状”提供,不附有任何种类的(无论是明示的还是默示的)保证,不包含任何有关适销、适用于某种特定用途的保证以及有关非侵权的任何保证或条件。IBM 产品是根据产品提供时所依据的协议条款和条件提供保证的。