面向 IT 运营的智能运维 AIOps一词由 Gartner 创造,是指应用人工智能 (AI) 技术,例如自然语言处理和机器学习模型,自动执行和简化运营工作流程。
具体而言,智能运维 AIOps 使用大数据、分析技术和机器学习能力执行以下操作:
通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台,智能运维 AIOps 使 IT 运营团队能够更快地作出响应,甚至主动处理慢速和中断事件,从而大幅减少工作量。
智能运维 AIOps可以缩小下面两大对立面之间的差距:一方面是日益多样化、动态且难以监控的 IT 环境,另一方面是用户对应用程序性能和可用性几乎或根本无中断的期望。 大多数专家都认为智能运维 AIOps 是 IT 运营管理的未来形式,而且随着企业日益关注数字化转型计划,这种需求会只增不减。
每个组织的智能运维 AIOps 旅程不同。 贵组织在评估自己在智能运维旅程中所处的位置后,可以开始整合工具,帮助团队观察和预测 IT 运营问题并快速采取行动。 当考虑在组织内采用哪些工具来帮助改进智能运维 AIOps 时,必须确保这些工具具有以下功能:
可观测性:可观测性是指一些软件工具和实践,它们可用于采集、汇总和分析分布式应用以及运行应用的硬件和网络所产生的持续性能数据流,能够更高效地监控、诊断和调试应用,满足客户对产品或服务体验的期望、服务级别协议 (SLA) 和其他业务需求。 这些解决方案通过数据汇总与整合,提供有关应用、基础架构和网络的整体视图,但并不采取纠正措施来解决 IT 问题。 虽然这些解决方案不会采取纠正措施来解决 IT 问题,但会跨 IT 领域的多种数据源收集和汇总 IT 数据,向最终用户发出潜在问题提醒,之后由 IT 服务团队实施必要的补救措施。 这些工具提供的数据和相应的可视化效果非常有价值,IT 组织需要基于它们来做出决策并恰当解决技术问题。 若需要运营人员手动更新运营系统才能实现资源优化,那么这种优化在需求动态变化的情况下可能无法展现优势。
预测性分析:智能运维 AIOps解决方案可以分析和关联数据,从而获得更好的洞察和自动化操作,帮助 IT 团队始终掌控日益复杂的 IT 环境,确保应用的性能。 对于任何 IT 运营团队来说,能够关联和隔离问题无疑是一大进步。 它有助于减少组织检测尚未发现的问题的时间。 组织将受益于自动异常检测、警报和解决方案建议,从而降低总体停机时间以及事件和凭单的数量。 动态资源优化可以使用预测分析进行自动化,确保应用程序的性能,即使在高需求变化时期也可以安全地降低资源成本。
主动响应:一些智能运维 AIOps解决方案可主动响应意外事件,例如性能下降和运营中断,实时地将应用性能和资源管理结合在一起。 通过将应用性能指标输入到预测性算法中,就可以发现与各种 IT 问题相关的模式和趋势。 智能运维 AIOps 工具能够提前预测 IT 问题,因此可以启动相关的自动化流程进行响应,快速纠正问题。 组织可从智能自动化中受益,例如缩短平均检测时间 (MTTD)。
这种技术是 IT 运营管理的未来,有助于企业改善员工体验和客户体验。 智能运维 AIOps 系统不仅可以确保及时解决 IT 服务问题,还可以为 IT 运营团队提供安全网,解决由于人为监督疏忽而可能导致的问题,例如组织孤岛、团队资源不足等。
智能运维 AIOps 的主要优势在于,它可以帮助 IT 运营人员发现、处理和解决性能下降和运营中断事件,而且速度比手动筛选多个 IT 运营工具发出的警报更快。 因此,智能运维 AIOps 具有以下几大优势:
从被动管理转变为主动管理,再升级为预测性管理:借助内置的预测性分析功能,智能运维 AIOps 不断学习,以发现最紧急的警报并确定其优先级,使 IT 团队能够在潜在问题引起性能下降或运营中断事件之前解决它们。 Electrolux 通过缩短平均检测时间 (MTTD),将 IT 问题的解决周期从 3 周缩短到一小时,并通过自动执行维修任务,每年节省 1,000 多个小时。
智能运维 AIOps 结合大数据、高级分析和机器学习能力,适用于以下用例:
了解智能运维 AIOps 工作方式的最简便方法是查看每一种 AIOps 组件技术(包括大数据、机器学习和自动化)在这个流程中起到的作用。
智能运维 AIOps 利用大数据平台将孤岛式 IT 运营数据、团队和工具 汇总在一处。 这些数据包含:
然后,智能运维 AIOps 会应用重点分析和机器学习功能:
在不进行人工干预的情况下持续且实时地执行自动关键操作,从而主动将计算、存储和网络资源最高效的使用方式提供给堆栈的每一层应用。
增强应用性能监控功能,提供更快速解决事件所需的上下文信息
AIOps Insights 是一种早期产品体验,用于验证和解决中心 IT 运营团队在通过事件和事故管理能力来管理企业 IT 资源可用性时所面临的问题。 ITOps 领导受邀试用 测试版,并获得 AIOps Insights 的专属访问权。
通过大型机上的人工智能改善系统管理、IT 运营、应用性能和运营安全永续性。