AIOps 与 MLOps:利用大数据实现“更智能”的 IT 运维

一名男性 IT 工程师在数据中心操作笔记本电脑,背景可见成排的机架服务器

近几十年来,数字数据爆炸式增长。得益于计算技术的重大进步,从移动手机到智能家电再到公共交通系统,所有设备都能生成和处理数据,从而形成了一种大数据环境,让富有前瞻性思维的企业可以充分利用大数据推动创新。

然而,大数据环境的特点就是:数据规模大。事实上,是规模巨大。2020 年,可穿戴设备(如健身追踪器、智能手表和智能戒指)每天就会产生约 28 PB(280 亿兆字节)的数据。2024 年,全球每天产生的数据量超过 4.02 亿太字节(即 402 万亿兆字节)。

随着云服务、混合环境、微服务架构、日益集成的系统、DevOps 实践和其他数字化转型技术的使用,IT 环境变得越来越复杂,传统的 IT 运维 (ITOps) 管理工具往往难以满足不断增长的数据生成需求。

相反,企业倾向于依靠先进的工具和战略,即面向 IT 运维的人工智能 (AIOps) 和机器学习运维 (MLOps),将大量数据转化为实用的洞察分析,从而改进 IT 决策,并最终改善盈利能力。

AIOps 与 MLOps:二者有什么区别?

AIOps 指应用人工智能 (AI) 与机器学习 (ML) 技术来增强并自动化 IT 运维 (ITOps) 的各个环节。

AI 技术使计算设备能够模仿通常与人类思维相关的认知功能(例如学习、感知、推理和解决问题等)。机器学习作为 AI 的一个分支,是指使用现有数据和一种或多种“训练”方法训练计算机的一系列技术,目的是让计算机从输入信息中自主学习,而不依赖明确的编程指令。机器学习 (ML) 技术能够帮助计算机实现人工智能。

因此,AIOps 旨在利用数据分析和洞察生成功能,帮助组织管理日益复杂的 IT 堆栈。

MLOps 是一套将机器学习与传统数据工程及开发运维相结合的实践体系,旨在构建用于创建和运行可靠、可扩展、高效机器学习模型的流水线。它帮助企业简化和自动化端到端的 ML 生命周期,涵盖数据收集、模型创建(基于软件开发生命周期中的数据源)、模型部署、模型编排、运行状况监控及数据治理流程。

MLOps 有助于确保所有相关人员(从数据科学家到软件工程师和 IT 人员)都能协作并持续监控和改进模型,从而最大限度地提高模型的准确性和性能。

AIOps 与 MLOps 均是当今企业不可或缺的关键实践,各自应对 ITOps 中不同但互补的需求。然而,它们在 AI 与 ML 环境中的目标定位及专业专注度上存在根本差异。

AIOps 是一个综合性学科,包含旨在优化 IT 运维的各种分析与AI举措;而 MLOps 则专门关注机器学习模型的运营层面,推动高效部署、监控与维护。

在本文中,我们将讨论 AIOps 与 MLOps 之间的主要区别,以及它们如何帮助团队和企业应对不同的 IT 和数据科学挑战。

MLOps 和 AIOps 的实际应用

由于同根植于 AI 领域,AIOps 与 MLOps 方法论存在某些共通之处,但二者目标不同、应用场景各异,并在多个关键方面有所区别。

1. 范围和重点

从本质上来说,AIOps 方法旨在优化和自动化 IT 运维。它们的主要目标是利用 AI 分析和解释来自各种 IT 系统的大量数据,从而优化和简化运营运维工作流。AIOps 流程利用大数据来促进预测性分析、自动生成响应和洞察分析,最终优化企业 IT 环境的运行表现。

相比之下,MLOps 聚焦 ML 模型的生命周期管理,包括从模型开发和训练到部署、监控和维护的所有方面。MLOps 旨在打通数据科学与运营团队之间的协作壁垒,以便他们能够可靠高效地将 ML 模型从开发环境转移到生产环境,同时保持模型的高性能和准确性。

2. 数据特征和预处理

AIOps 工具处理多种数据源与数据类型,包括系统日志、性能指标、网络数据与应用事件。但 AIOps 数据预处理过程通常较为复杂,涉及:

  • 先进的数据清洗流程, 以处理含噪声、不完整及非结构化数据
  • 数据转换技术, 将异构数据格式转化为统一结构,确保数据规范并适于分析
  • 集成方法用于整合来自不同 IT 系统和应用程序的数据,便于了解整体状况

MLOps 则专注于结构化与半结构化数据(特征集与标注数据集),并采用与 ML 任务直接相关的预处理方法,包括:

  • 特征工程旨在从原始数据中提取有意义的输入变量
  • 归一化和缩放技术用于为模型训练准备数据
  • 数据增强方法用于增强训练数据集,尤其适用于图像处理等任务

3. 主要活动

AIOps 依靠大数据驱动分析、ML 算法及其他 AI 技术来持续跟踪和分析 ITOps 数据。该过程包括一系列活动,例如异常检测、事件关联、预测性分析、自动化根本原因分析自然语言处理 (NLP) 等。AIOps 还可与 IT 服务管理 (ITSM) 工具集成,以提供主动和被动运维洞察分析。

MLOps 流程涉及一系列步骤,旨在帮助确保 ML 模型的无缝部署性、可复现性、可扩展性和可观测性。MLOps 涵盖多种技术,包括机器学习框架、数据流水线、持续集成/持续部署 (CI/CD) 系统、性能监控工具、版本控制系统,有时还包括容器化工具(如 Kubernetes),可帮助优化机器学习生命周期。

4. 模型开发与部署

AIOps 平台可开发多种分析模型,包括但不限于机器学习模型。这些模型包括统计模型(例如回归分析)、基于规则的系统和复杂事件处理模型等。AIOps 可将这些模型集成到现有的 IT 系统中,以增强其功能和性能。

MLOps 以机器学习模型的端到端管理为核心,涵盖数据准备、模型训练、超参数调优和验证等环节。它会使用 CI/CD 管道来自动执行预测性维护和模型部署流程,并侧重于在新数据可用时更新和重新训练模型。

5. 主要用户和利益相关者

AIOps 技术的主要使用者包括 IT 运维团队、网络管理员、开发运维与 数据运营  (DataOps) 专业人员以及 IT 服务管理团队。这些团队都能从 AIOps 提供的增强可视化能力、主动问题检测及快速事件响应中获益。

MLOps 平台主要服务于数据科学家、ML 工程师、开发运维(DevOps) 团队和 ITOps 人员,助力他们自动部署和优化 ML 模型,并更快地从 AI 计划中创造价值。

6. 监控和反馈回路

AIOps 解决方案侧重于监控 IT 运维中的关键绩效指标 (KPI),例如系统正常运行时间、响应时间和错误率,并结合用户反馈来迭代和完善分析模型和服务。借助 AIOps 的实时监控和警报系统,IT 团队能够快速识别和解决 IT 问题。

MLOps 监控要求团队持续跟踪多项指标,例如模型准确率(正确性)、精确率(一致性)、召回率(记忆)和数据漂移(随着时间推移导致模型性能下降的外部因素)。基于这些指标,MLOps 技术会不断更新 ML 模型,以纠正性能问题并适应数据模式变化。

7. 用例和优势

AIOps 通过自动化那些通常需要人工完成的例行任务,帮助企业提升运营效率并降低运营成本。这种 自动化 使 IT 人员能腾出精力专注于更具战略意义的 AI 计划(而非重复性维护工作)。借助 预测分析 和自动化修复流程,AIOps 还能加速 事件管理 ,使其系统能够在问题引发意外停机或影响用户体验前就发现并解决故障。

鉴于 AIOps 解决方案具备打破数据孤岛、促进不同团队与系统间协作的能力,IT 部门常用其管理企业的数据中心和 云端 环境。AIOps 使 ITOPs 人员能够实施预测性警报处理、加强 数据安全 并支持开发运维流程。

MLOps 技术可帮助企业缩短 ML 模型的上市时间,增强数据科学与运营团队之间的协作,并在整个组织内大规模推进 AI 计划。MLOps 还可以确保 ML 模型按照行业最佳实践进行部署和管理,从而帮助组织维持数据合规和治理标准。

MLOps 在各个行业都得到了广泛应用。在金融领域,MLOps 可用于促进欺诈检测和风险评估;在医疗保健领域,MLOps 可帮助创建诊断模型并改善患者监测;在零售和电子商务领域,可使用 MLOps 服务创建推荐系统(例如,在线购物平台中显示的“您可能还喜欢......”提示)并优化库存管理。

借助 IBM Turbonomic 实现高质量的 AIOps 和 MLOps

AIOps 和 MLOps 对于在大数据时代保持竞争优势至关重要。借助 IBM Turbonomic 平台,具有前瞻性思维的企业可以通过智能自动化技术管理并持续优化混合云环境,包括 Amazon Web Services (AWS)、Azure、Google Cloud、Kubernetes、数据中心等。

IBM® Turbonomic 是一个软件平台,可帮助组织提升 IT 基础设施(包括公有云私有云混合云环境)的性能并降低成本。通过 Turbonomic,团队能够在不需人工干预的情况下实时自动执行优化任务,主动跨 IT 架构分发网络资源,并预防云端环境中的资源过度配置。

 
一名男子坐在长椅上使用手机的俯视图

不容错过的洞察分析。订阅我们的时事通讯。

借助有关 AI、量子计算、云技术、安全等方面的专家新闻进行宣传。

立即订阅