什么是 IT 运营分析?

IT 专业人员在数据中心的服务器上工作时看着笔记本电脑

近年来,IT 系统的复杂性显著增加,这使得 IT 团队更迫切需要掌握运营的健康状况。连接各个应用程序的设备数量增加、云计算的兴起以及新产品的开发促使企业投资数字服务,以满足客户需求。

例如,在参与麦肯锡调查的组织中,99% 的组织表示,他们自 2020 年以来一直在追求大规模的技术转型。然而,根据 2023 年 Gartner 的一项调查,CIO 表示,他们的高管认为 59% 的数字计划需要很长时间才能完成,52% 的数字计划需要很长时间才能实现价值。

日益增长的复杂性使得任何组织的 IT 服务都需要系统化的方法来确保健康运行和优化。这导致 IT 运营分析 (ITOA) 的重要性上升。ITOA 是一种数据驱动的流程,组织通过它收集、存储并分析 IT 服务产生的数据。

ITOA 可将运营数据转化为实时洞察分析。它通常是 AIOps 的一部分,AIOps 利用 AI机器学习来提升组织的整体 DevOps,从而提供更好的服务。使用自动化和机器学习能力加快运营工作流,立即获得洞察分析,并从中消除潜在的人为错误。

ITOA 通过利用技术分析大型数据集并确定正确的 IT 战略,帮助 ITOps 简化决策过程。

IT 系统日益复杂,使得各组织需要更好地监控和分析数据,以便做出更明智的决策。每个组织都有独特的技术堆栈,通常由本机软件和云平台组成。现代组织的 IT 基础设施由一个庞大的、相互依存的生态系统构成,其中一个事件或错误可能会危及整个系统。

由软件、基础设施和网络服务组成的组织技术堆栈使企业能够向客户提供更多服务,但日益增长的复杂性意味着更多事情可能会出错,而这些错误可能会产生指数级的影响。各组织都力求最大限度地减少停机时间,因为停机会中断服务,并损害其在客户和合作伙伴中的声誉。IT 部门需要了解如何分配资源,以解决任何新出现的问题、增加正常运行时间并保持组织的 IT 运营管理 (ITOM) 平稳运行。

值得庆幸的是,IT 系统可以生成自己的数据,并从客户、合作伙伴和员工那里收集更多数据。组织可利用所有这些数据,通过 IT 运营分析来了解系统的整体运行状况。

IT 运营分析 (ITOA) 与可观测性

ITOA 和可观测性有着共同的目标,即使用 IT 运营数据来跟踪和分析系统的运行情况,以提高运营效率和有效性。它们都通过使组织能够更快地解决 IT 运营问题、为未来问题的分类战略提供信息并协助部署新技术来帮助实现商业智能

可观测性是指仅根据复杂系统外部输出的知识来理解其内部状态或条件。它跟踪四个重要支柱:指标、事件、日志和跟踪 (MELT),以了解云基础设施和应用程序的行为、性能和其他方面。其目的是通过研究外部数据来了解系统内部发生了什么。ITOA 利用数据挖掘和大数据原理分析系统中的噪声数据集,并创建框架,利用这些有意义的洞察分析使整个系统运行得更顺畅。它关注 IT 运营中事件的根本原因分析,以便 IT 团队能够修复可能再次发生的问题。其目标是解决根本问题,同时确定其他软件或系统是否也面临故障风险。

IT 运维分析技术

IT 运营分析 (ITOA) 包含多种关键工具、流程和技术,所有这些共同作用,为组织创造价值。以下是一些最常见的技术和用例:

  • 应用性能管理 (APM):应用性能管理是 ITOA 的重要组成部分,麦肯锡估计其业务价值达 118 亿美元。它涉及使用遥测数据和监控工具来跟踪软件应用性能指标,确定资源分配和程序使用情况,并帮助解决瓶颈和检测异常。APM 的示例包括识别加载缓慢的网页、事务处理时间和延迟问题。
  • 事件管理:组织必须识别事件并采用简化方法来解决这些事件。事件管理使 DevOps 团队能够尽快处理计划外事件,例如服务器崩溃或其他服务质量问题。
  • 工作流自动化:工作流自动化涉及协调人工执行的任务和自动化任务,例如电子邮件通知以及自动数据输入和存档。
  • 预测性分析:预测性分析解决方案使用历史和实时数据来预测软件和 IT 服务是否可能遇到未来问题,从而使组织能够在错误发生之前进行改进或修复错误。预测性分析有助于在事件发生前进行干预,从而优化 IT 运营。预测性分析可以帮助识别服务器问题或流量激增,从而帮助组织准备防御措施或主动修复问题。
  • 事件相关性和警报:该功能会分析应用程序或主机日志数据以进行检测,更好地了解一个应用程序或系统如何影响彼此,并提醒 DevOps 工程师注意可能影响多个系统的潜在问题。事件相关性对于检测异常流量模式或多次登录失败等问题是否属于更大的安全隐患尤为重要。
  • 云监控和维护:无论使用公有云、多云环境还是本地方法,组织都需要了解数据中心的可靠性。如果云出现故障,组织需要了解这对其提供服务的能力有何影响。

IT 运营分析的各个阶段

IT 运营分析 (ITOA) 可以帮助组织通过三个关键阶段跨系统解析大量结构化和非结构化运营数据

  1. 搜索:IT 运营系统捕获并存储由业务运营、客户交互和日志文件生成的大数据,组织可以使用这些数据更好地了解和管理系统的整体运行状况。ITOA 涉及搜索数据,以评估当前状态、识别任何现有或未来潜在的问题,并向 IT 运营团队提醒任何问题。
  2. 可视化:这通过提供系统运行方式的一站式界面视图,帮助组织做出业务决策。IT 运营分析使用大数据并将其转化为可用的图形、图表和电子表格。可视化可以通过交互式仪表板或其他管理面板来实现。它帮助组织了解需要投资哪些方面,例如许可、安全应用程序或购买新设备或软件。
  3. 分析:组织可以使用可视化数据分析来识别系统性能并检测 IT 环境中的任何异常活动,并提出解决这些问题的措施。

IT 运营分析 KPI

组织可以通过多个关键绩效指标 (KPI) 来评判 IT 运营分析 (ITOA) 计划是否成功:

  • 平均修复时间 (MTTR):IT 运营分析可以帮助 IT 团队修复该学科发现的问题,从而改善 MTTR。具有无缝 ITOA 和事件管理计划的组织可以快速解决问题。
  • 误报率:ITOA 越来越依赖自动化,有时会产生误报,这可能会导致不必要的分类,并使站点可靠性工程师和其他 IT 员工感到疲劳。误报数量不断增加可能表明 ITOA 流程或 IT 运营未按预期运行。
  • 服务可用性:指服务正常运行时间(即服务按预期运行且最终用户可以访问的时间)的百分比。组织跟踪服务可用性至关重要,以确保其满足客户期望,并且在服务水平协议 (SLA) 相关方面保持良好状态。
  • 容量利用率:ITOA 还可以帮助组织了解 IT 系统是满负荷运行还是未充分利用。对于使用云建立使用基线以消除不必要成本的组织而言,了解后者变得越来越重要。

IT 运营分析的关键优点

拥有强大的 IT 运营分析 (ITOA) 实践的组织具有以下几个优点:

  • 节省成本:使用 ITOA 的组织可以体验多种成本优势,包括运营效率、减少停机时间和中断,以及最大限度地减少代价高昂的数据泄露和其他外部威胁。
  • 提升客户体验:客户期望他们购买的服务和产品能够在他们需要的时候发挥作用。计划提供卓越客户服务的组织依赖 ITOA 避免不必要的中断,使客户能够按需访问这些组织的产品和解决方案。
  • 增强安全性和合规性:ITOA 在检测由易受攻击的端点和终端设备引起的潜在安全问题方面发挥着至关重要的作用。ITOA 还可以检测合规性问题,例如不合规的系统配置和无法正常工作的审计日志。
  • 数据驱动的决策:ITOA 通常是组织更加重视数据和分析工具的一部分。ITOA 可帮助组织进行更明智的 IT 投资、更好地分配资源并为任何未来的挑战做好准备。

采用 IT 自动化

IBM 的 IT 自动化工具(包括 IBM® AIOps InsightsIBM® Cloud Pak for AIOpsIBM Turbonomic 和 IBM Instana)通过为企业提供可观测性和资源管理功能,让企业能够更快、更经济地预测、检测和修复事件,从而帮助保持所有系统正常运行。它们还可以帮助实现 IT 团队内部及跨团队的创新和管理自动化。

 

作者

Keith O'Brien

Writer

IBM Consulting