加快研究与创新
NCHC 如何使用 AIOps 改善公共网络服务并主动防止中断
在会议室,首席工程师向科学家委员会介绍开发人工智能和神经网络的革命性新方法。墙壁上的电视正在展示他们的成果。

研究的速度很重要。在新冠疫情期间,这关系着数百万人的生命。

在中国台湾地区,新冠疫情期间的应对措施在限制疫情爆发和降低死亡率方面成效显著,国家高性能计算中心 (NCHC) 通过提供超级计算机和分析方法,以及促进全台湾范围的数据共享和协作网络,帮助加快台湾地区的研究和创新。

尽管 NCHC 支持所有学科的研究,但这一传染性疾病的肆虐促使它连续推出了“科技抗病毒”计划,呼吁大学、研究机构、企业和初创公司寻找抗击 SARS-CoV-2 冠状病毒传播的新方法。迄今为止,一项备受瞩目的突破是一种听诊器,它能显示患者的呼吸,帮助医生和护士减少与可能受感染患者的密切接触,从而降低传播风险。另一个是 COVID-19 基因的进化图,有助于预测传播途径。

为了支持诸如此类的工作,以及所有领域中的数百项其他工作,NCHC 希望确保研究工作能够尽快取得进展。这也是它不断发展 Taiwania 系列超级计算机的原因,其中包括世界上功能最强大的 50 台计算机之一。这就是它提供 AI 服务的原因,包括基于 IBM® Cloud Pak for Data 的工具。这就是为什么 NCHC 最近与 IBM® Garage 合作实施 IBM Cloud Pak for Watson AIOps 解决方案,应用基于 AI 的自动化来最大限度地提高弹性和性能。

缩短了 MTTD

 

对于影响服务的问题,平均检测时间 (MTTD) 缩短了 55%

可预测性

 

识别潜在的中断比之前提早 25 小时

通过将结构化和非结构化数据输入解决方案的 AI Manager 组件,NCHC 和 IBM Garage 团队能够训练人工智能模型,以自动、主动地管理问题和事件。
降低 IT 运营复杂性

台湾地区拥有多个大型公共计算网络,这些网络纵横交错,使研究人员能够共享信息并开展合作。有些网络专门面向学术界,有些面向政府,有些面向工业界。但是,越来越多的研究计划,尤其是针对新冠疫情的研究计划,要求跨学科的努力和跨网络的合作。公共网络之间的快速信息共享至关重要。

于是,NCHC 开始了一项新举措:建立中央网络交换中心。但将网络整合在一起带来了新的挑战。不同的网络配备了不同的监控工具和数据日志源及格式。这种复杂性使管理变得复杂,NCHC 无法快速过滤警报,以发现重大问题并防止中断。反过来,中断会阻碍跨网络的数据共享和协作。

为了实现中央交换中心的目标,加速全台湾地区内的研究合作,NCHC 需要一种方法来打破 IT 运营管理的复杂性。它转而采用了 AIOps。

使用 AIOps 进行预测性维护

在寻找解决方案的过程中,NCHC 与 IBM Garage 合作,在 IBM Cloud Pak for Watson AIOps 软件的基础上进行了概念验证 (POC)。

POC 的目标是评估潜在解决方案在现实世界中的影响。NCHC 提供了实际场景中的运行数据和网络日志数据,例如,某些网络设备发生故障,会造成中断。

随后,NCHC 和 IBM 团队使用 IBM Cloud Pak for Watson AIOps 作为网络交换中心各种 IT 运营工具的中央集成器,对整个基础架构进行全面了解。通过将结构化和非结构化数据输入解决方案的 AI Manager 组件,NCHC 和 IBM Garage 团队能够训练人工智能模型,以自动、主动地管理问题和事件。

结果非常理想。团队将影响服务的问题平均检测时间 (MTTD) 缩短了 55%。

基于 POC 的成功,NCHC 和 IBM® Customer Success Manager 团队将 IBM Cloud Pak for Watson AIOps 部署到交换中心生产环境中。NCHC 现在使用 IBM Cloud Pak for Watson AIOps 的以下组件:

  • AI Manager:采集结构化和非结构化数据并训练人工智能模型以主动管理问题和事件。AI Manager 生成的所有警报都会呈现具体情节的形式发布在 ChatOps 界面上,NCHC 员工将其作为监控交换中心的唯一真相来源。
  • Event Manager:通过预定义的批处理程序导入所有网络设备日志,并通过事件分组减少网络噪音,从而大幅降低运营成本。
  • Metric Manager:采集所有网络设备指标数据,如 CPU、内存和磁盘使用情况,并提供设备状态的整体视图。

 

 

推动持续的发现和创新

MTTD 减少意味着 NCHC 可以比以前提前 25 小时检测到潜在的中断,从而帮助 NCHC 在中断发生之前发现并解决问题。

到目前为止,这些令人印象深刻的成果都是针对常见的已知问题取得的。NCHC 知道,可能还会出现独特的、意想不到的问题,这个解决方案将会面临新的考验,但是 NCHC 同样期待着类似的解决效果。最终,NCHC 预计 AIOps 的采用将有助于保持信息渠道的开放,以便台湾各地的研究项目拥有所需的关键数据,以在发现和创新方面不断取得进展。

NCHC 徽标
关于国家高性能计算中心 (NCHC)

台湾地区 NCHC 外部链接(ibm.com 外部链接)以促进科学发现和技术创新为使命,为台湾地区政府机构、高等教育机构和行业提供超级计算服务、高质量网络、高效存储、大数据分析和科学工程模拟。NCHC 总部位于新竹市。

采取后续步骤

如需详细了解本案例中介绍的 IBM 解决方案,请联系您的 IBM 代表或 IBM 合作伙伴。

查看更多案例研究 联系 IBM TIME dotCom

打造可实现经济飞速发展的引擎

 

阅读成功案例
T-Mobile

全美最大的 5G 网络采用 AI 驱动式自动化

阅读成功案例
Electrolux

一家鼎鼎有名的创新公司在其全球企业范围内部署 AIOps

阅读成功案例
法律

© Copyright IBM Corporation 2022。IBM Corporation, New Orchard Road, Armonk, NY 10504

美国出品,2022 年 3 月。

IBM、IBM 徽标、ibm.com、IBM Cloud Pak 以及 IBM Garage 是 International Business Machines Corp. 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的商标。有关 IBM 商标的最新清单,请访问网站  ibm.com/legal/copyright-trademark

本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

文中引用的性能数据和客户示例仅作演示说明之用。实际性能结果可能因具体配置和操作条件而异。本文档中的信息均“按原样”提供,不涉及任何明示或暗示的保证,包括适销性、特定用途适用性的任何保证,以及不侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。