AIOps

menu icon

AIOps

在复杂的现代 IT 环境中,AIOps 利用人工智能简化 IT 运营管理并加速和自动完成问题解决过程。

什么是 AIOps?

AIOps(即人工智能 IT 运营)是应用人工智能 (AI) 来改进 IT 运营的方法。 具体而言,AIOps 使用大数据、分析和机器学习功能来执行以下操作:

  • 收集并汇总由多个 IT 基础架构组件、应用程序和性能监视工具生成的、不断增加的海量运营数据
  • 智能地从“噪声”中筛选出“信号”,以识别与系统性能和可用性问题相关的重要事件和模式。
  • 诊断根本原因并将其报告给 IT 部门以便他们快速响应和补救,或在某些情况下自动解决这些问题而无需人工干涉。

通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台,AIOps 使 IT 运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。

它可以缩小下面两大对立面之间的差距:一方面是日益多样化、动态且难以监控的 IT 环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 大多数专家都认为 AIOps 是 IT 运营管理的未来。

详细了解 AIOps

为何需要 AIOps?

如今,大多数组织都在经历转型,从包含独立静态物理系统的传统基础架构转向包含本地环境、托管云环境、私有云环境和公有云环境的动态组合基础架构,后者是在虚拟化或软件定义的资源(用于不断扩展和重新配置)上运行。

这些环境中的应用程序和系统将会产生海量的数据,而且数据量还在不断增长。 事实上,Gartner 估计,与原有基础架构相比,一般企业 IT 基础架构每年会产生 2 至 3 倍的 IT 运营数据。

基于领域的传统 IT 管理解决方案无法跟上数据量增长的步伐。 它们无法智能地从如此大量的相关数据中筛选出重要事件。 它们也无法将来自不同但相互依赖的环境的数据关联。 它们无法提供实时洞察和预测性分析,以便让 IT 运营团队快速响应问题,满足用户和客户对服务级别的期望。

走进 AIOps,它可以直观呈现所有环境的性能数据和依赖关系,分析数据以提取与慢速或中断情况相关的重要事件,并自动提醒 IT 人员关注问题、根本原因及建议的解决方案。

AIOps 如何工作?

了解 AIOps 工作方式的最简便方法是查看每一种 AIOps 组件技术(包括大数据、机器学习和自动化)在这个流程中起到的作用。

AIOps 利用大数据平台将孤岛式 IT 运营数据汇总在一处。 这些数据包含:

  • 历史性能和事件数据
  • 流式实时运营事件
  • 系统日志和指标
  • 网络数据,包括包数据
  • 事故相关数据和工单
  • 基于文档的相关数据

然后,AIOps 会应用重点分析和机器学习功能:

  • 从“噪声”中分离重要事件警报:AIOps 利用规则应用和模式匹配等分析功能来梳理 IT 运营数据,并将信号(即重要的异常事件警报)与噪声(其他数据)分离。
  • 确定根本原因并提出解决方案:借助特定于行业或环境的算法,AIOps 可将异常事件与环境中的其他事件数据相关联,以确定中断或性能问题的原因,并建议补救措施。
  • 自动响应,包括实时主动解决:AIOps 至少可以自动将警报和建议的解决方案传送给相应的 IT 团队,甚至可以根据问题的性质和解决方案来组建响应团队。 在许多情况下,它可以处理机器学习的结果,触发自动系统响应,甚至是在用户意识到问题之前实时解决问题。
  • 不断学习,改进未来问题的处理:根据分析结果,机器学习功能可更改算法或创建新算法,以尽早识别问题并推荐更有效的解决方案。 AI 模型还可帮助系统了解和适应环境的变化,例如 DevOps 团队提供或重新配置的新基础架构。

AIOps 优势

AIOps 的关键优势在于,它可以让 IT 运营人员识别、处理和解决慢速和中断事件,而且速度比在多个 IT 运营工具提供的警报中手动筛选更快。因此,它具有以下几个特定优势:

  • 缩短了平均解决时间 (MTTR):通过消除 IT 运营中的噪声并将多个 IT 环境中的运营数据相关联,AIOps 可以比人工操作更快、更准确地确定根本原因并提出解决方案。 因此,组织可以设立并实现以前无法想象的 MTTR 目标。 例如,电信运营商 Nextel Brazil 可以使用 AIOps 将事件响应时间从 30 分钟减少到 5 分钟以内。
  • 从被动管理到主动管理再到预测管理:由于不断学习,AIOps 更加擅长识别与较紧急情况相关的不太紧急的警报或信号。 换言之,它可以提供预测性警报,让 IT 团队提前解决潜在问题,从而避免导致慢速或中断事件。
  • 实现 IT 运营和 IT 运营团队现代化:AIOps 运营团队仅接收满足特定服务级别阈值或参数的警报,从而免受每个环境所产生的大量警报的轰炸,同时还会补全必要的背景信息,以便做出最佳诊断并采取最快且最佳的补救措施。 AIOps 学习越多且自动化程度越高,越能帮助在减少人力投入的情况下“保持警戒”,从而让 IT 运营团队集中精力完成能为企业创造更大战略价值的任务。

AIOps 用例

除了优化 IT 运营外,AIOps 可视性和自动化功能还可以支持和帮助推动其他重要业务和 IT 计划:

  • 数字化转型:数字化转型是导致 IT 复杂性(如多个环境、虚拟化资源、动态基础架构)的原因,而 AIOps 则是专门为此而生。 采用合适的 AIOps 解决方案,组织便可以更灵活地根据战略业务目标实现转型,而不必担心 IT 运营负担。
  • 云应用/迁移:对于大多数组织而言,云应用是一个循序渐进的过程,而不是一蹴而就,这会导致混合多云环境(私有云、公有云、多个提供商),并且存在多种相互依赖关系,而这些关系变换得太快太频繁,难以记录。 通过直观呈现此类相互依赖关系,AIOps 可以大幅降低云迁移混合云方法的运营风险。
  • DevOps 应用:DevOps 赋能开发团队提供和重新配置基础架构以便加速开发,但 IT 部门仍需要管理该基础架构。 AIOps 提供了 IT 部门支持 DevOps 所需的可视性和自动化功能,而无需完成大量额外的管理工作。

AIOps 和 IBM Cloud

IBM Cloud  允许您跨多云架构和现有 IT 进行构建和部署。IBM 的  AIOps  解决方案提供了所有环境的集中式可视性,使 IT 运营效率迈上新的台阶,从而让您的运营团队能更快诊断问题并解决事件。

IBM Cloud Pak for Watson AIOps  利用机器学习和自然语言理解,实时关联运营工具链中的结构化和非结构化数据,从而发掘隐藏的洞察并帮助更快识别根本原因。 无需使用多个仪表板,Watson AIOps 可以将洞察和建议直接反馈到团队工作流程,从而加快了事件解决速度。

要开始操作,请注册 一个 IBMid 并创建 IBM Cloud 帐户