全美最大的 5G 网络采用 AI 驱动式自动化
T-Mobile 如何使用 AIOps 来最大程度提高效率和可靠性

2020 年 4 月,T-Mobile 实现了竞争飞跃,从而颠覆美国电信市场。该公司收购了 Sprint 并着手合并,从而组建起全美最大的 5G 网络。

当然,此次扩张也带来了巨大风险。在竞争激烈的电信市场,客户并不会因企业合并而降低期望。T-Mobile 需要整合两个大型网络,同时继续保持协同一致的可靠性和全面的服务质量。

能否实现此目标取决于网络管理。T-Mobile 正在使用 IBM® Cloud Pak for Watson AIOps 中的工具来集成管理功能,从而将两个庞大网络合而为一,并使用 AI 驱动式自动化来最大限度提高可靠性和效率。

大量故障

 

当 T-Mobile 收购 Sprint 时,前者每天须关联处理约 300 万个额外故障

缩短处理时间

 

IBM® Cloud Pak for Watson AIOps 将平均故障处理时间从 5 分钟缩短为 19 秒

“我们仅需采用目标生产系统的十分之一,即可处理总报警量的 90%。所有 SNMP 警报均通过单个 SNMP 探测发出,且不存在延迟或故障;而网络中存在的其他管理系统则需十个 SNMP 网关来处理同一警报量,且会出现多次故障和/或处理延迟。 Tom Higdon Principal Event Management Architect T-Mobile
尽管复杂性增加了一倍,但仍能最大限度提高质量

“网络管理是我们向使用 T-Mobile 网络的人员和公司所提供服务质量的一大重要组成部分”,T-Mobile 首席事件管理架构设计师 Tom Higdon 说道。“网络管理的核心在于如何确保您拥有的所有优质服务均可供客户实际使用,并可按其应有方式执行。”

当您在运营全球最大规模的通信网络之一时,网络管理也变得极其复杂。正如 Higdon 解释的那样,“它不仅仅是个无线网络,因为无线网络还依赖于其他支持网络和基础设施;像是您的数据中心和基于 IP 的设备,还有应用程序和服务、蜂窝基站和切换站点,以及所有相关设备。”

当 T-Mobile 收购 Sprint 时,其范围和复杂性基本上翻了一番。“在合并的第一天”,Higdon 说道,“我们需要提供网络管理的范围扩大了近 50 万台受监控设备,而这每天会产生约 300 万个需关联处理的新故障。”

此外,这两个网络采用了截然不同的成熟管理系统。“这增加了集成复杂性,因为我们的每个系统都已存在了 10 年以上”,Higdon 解释道。这些系统涉及两个独立的核心管理平台:一个是基于 IBM® Netcool 解决方案(现已内置于 IBM® Cloud Pak for Watson AIOps 中),而另一个则基于第三方管理解决方案,外加一系列会送入到核心平台的多供应商监控工具。

T-Mobile 专注于提供最高网络性能,并寻求最佳途径以从数百万个日常故障中识别出可对其采取措施的项目。此外,该公司还希望内置更多自动化功能,从而使网络管理更为高效,网络自身也更为可靠。

网络管理的灵活性和效率

“几乎一完成合并”,Higdon 回忆道,“我们便注意到 IBM 正对其产品套件进行投资,同时 IBM 也希望与我们建立真正的合作伙伴关系,以便共同发展、共同取得成功。于是,某些技术和非技术优势逐渐开始显现。这促使我们决定继续使用 Watson AIOps 解决方案。”

当务之急是对不同故障管理平台进行整合。这是一项急需快速完成的艰巨任务。幸运的是,Higdon 和他的同事们发现,IBM 解决方案异常灵活,可将其他管理和监控工具的数据纳入其中。“我们很快就成功完成了整合。这是我们作为一家新公司完成的第一件事”,Higdon 说道。“IBM 产品套件中的连接器和适配器可快速进行部署和配置,且只需极少定制即可开始获取该数据,从而丰富我们的故障和事件信息。这样,我们便可合并我们的网络运营团队。”

在将合并后的网络管理平台投入生产时,T-Mobile 实现了巨大效率提升。“我们仅需采用目标生产系统的十分之一,即可处理总报警量的 90%。所有 SNMP 警报均通过单个 SNMP 探测发出,且不存在延迟或故障;而网络中存在的其他管理系统则需十个 SNMP 网关来处理同一警报量,且会出现多次故障和/或处理延迟。”

 

大幅加快实现切实可行的洞察

随着所收购平台与原始平台之间的运营合并,Higdon 和他的团队如今专注于进一步简化管理,减少常规网络运营的“噪音”,并创建最快的路径来检测和解决问题,或在理想情况下预防问题出现。“我们创建并实施了我所说的通用框架,从而帮助我们解决多种类型的问题并带来正确的结果”,Higdon 说道。例如,Higdon 描述了最近实现的一个无线核心警报关联框架。“我们几乎可以即时完成关联。这是一大优势。因为我们不必再返回去每分钟扫描成千上万个故障。它可瞬间完成。”

根据 Higdon 的说法,创建此类框架相对容易。“同样,Watson AIOps 中的工具非常灵活,且提供适配器来帮助创建这些框架。这是其中的最大优势之一。它不要求进行大量编码。虽然也需进行一些调整,但往往都非常简单。该解决方案提供了与大量不同对象进行常规交互的途径。它提供的内部功能可轻松进行调整,从而满足我们的需求。”

Higdon 和他的团队已经发现在向用户提供切实可行的洞察方面,速度实现了明显加速:“我们通过设计 Watson AIOps 部署,从而在各个级别提供本地和地理性全冗余功能。此外,我们还对目标系统进行了调整,使其能以最低的延迟处理所需的故障量。使用最少的 AIOps 组件处理 90% 的总故障量时,我们发现从故障发生(通过具备所有丰富、关联和/或抑制功能的系统)到用户显示的平均时间为 19 秒。而原有系统的用时接近五分钟。”

后续步骤:利用 AI 实现闭环自动化

如今,T-Mobile 正在测试 IBM Watson AIOps 的 AI 和机器学习功能如何帮助实现更高的响应速度,从而进一步增强网络可靠性。

“我们希望 AI 能为我们提供情报。它可能是某种形式的情报,比如“我的关联计数阈值该是多少”,或是此处是否存在对我们来说不太明显的某种关系?总之就是,我们人类如果没有投入大量时间和精力就可能无法获取的信息。

网络管理的目标是从被动管理变为主动管理,并最终实现预测管理。Higdon 希望利用 AIOps 更进一步,从而实现闭环自动化。“这就是我们的终极目标。让这些工具引入大量数据,搞懂这些数据,提出建议,甚至还可能实现基于意图的编排或自动化。”

在竞争如此激烈的行业中,对于如此规模的网络来说,这将是一项宝贵的优势。“我需要增加容量。我有工具可将这些信息传递给某个可影响此变化的智能自动化平台。所有这些都无需人为干预。这就是我们的计划,形成闭环,这就是我们如今仍在努力的方向。”

T-Mobile 徽标
关于 T-Mobile

T-Mobile (链接位于 ibm.com 外部)是全球领先且发展速度最快的移动通信提供商之一。T-Mobile 是总部位于德国波恩的德国电信公司的子公司,并为位于欧洲、美国和加勒比地区的消费者和企业客户提供服务。2020 年,该公司新增净客户 550 万人,同时实现收入 684 亿美元。

采取下一步行动

要详细了解本案例中介绍的 IBM 解决方案,请联系您的 IBM 代表或 IBM 业务合作伙伴。

阅读 PDF 查看更多案例 打造可实现经济飞速发展的引擎

打造可实现经济飞速发展的引擎

阅读成功案例
法律

© Copyright IBM Corporation 2021. IBM Corporation, IBM Cloud, New Orchard Road, Armonk, NY 10504

2021 年 11 月在美国制作。

IBM、IBM 徽标、ibm.com、IBM Cloud Pak 和 Netcool 是 International Business Machines Corp. 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的商标。有关 IBM 商标的最新清单,请访问网站 ibm.com/trademark

本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

文中引用的性能数据和客户实例仅作说明之用。实际性能结果可能因具体配置和操作条件而异。本文档内的信息“按现状”提供,不附有任何种类的(无论是明示的还是默示的)保证,包括不附有关于适销性、适用于某种特定用途的任何保证以及非侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。