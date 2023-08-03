标签
组织如何成功衡量应用程序健康监控流程

当今组织需要每位员工、每个应用程序及每项流程协同工作以创造价值。组织日益依赖其技术栈来向终端用户提供一致的服务，该技术栈包含其全部网络接口、CPU、虚拟机、操作系统信息及已安装应用程序。这意味着企业尤其需要其软件应用程序保持最佳性能，因为它们往往是竞争优势的来源

什么是应用程序健康监控？

这也正是应用程序健康监控对现代组织如此关键的原因。应用程序健康监控是一项诊断流程，涉及识别应用程序健康问题，并在其演变为更严重问题前制定解决方案。

组织无法承受因应用程序故障或性能不佳导致的非计划停机或延迟增加。应用程序的固有依赖性意味着单一故障可能对整个服务产品产生连锁影响。因此，投资应用程序健康监控并确保应用能满足组织日常需求至关重要。鉴于对此流程的任何中断都可能对企业利润和客户关系产生重大影响，在现代组织内优先推进应用程序监控显得尤为重要。

应用程序健康监控与应用程序性能监控存在部分相似性，后者监控数字体验如加载时间、响应时间及运行时间与可用性。虽然两者均致力于改进应用程序对终端用户的服务效果，但应用程序健康监控主要关注应用程序能否正常工作，而应用程序性能监控还侧重于提升用户体验

标识应用程序健康监控流程相对成功度的七项指标

组织需制定全面计划以确保其应用程序健康，但任何应用程序健康监控流程的关键组成部分均是数据收集。应用程序故障或性能不佳可能由多种不同原因导致。因此，跟踪若干关键健康状态与性能指标至关重要，以避免过晚发现性能问题。为此，许多组织尝试通过高级健康报告来管理其应用程序健康状态并跟踪关键指标。

以下为标识应用程序健康监控流程相对成功度的七项重要指标：

  1. 应用程序可用性与运行时间：指终端（如移动设备、计算机或虚拟机）能够访问并使用应用程序的时间长度。软件停机是组织的重大风险，因其会降低客户满意度并可能违反与终端用户的服务水平协议。由于多个应用程序相互连接，且许多应用通过提供商 API 拉取外部资源，维持应用程序运行时间近年来变得愈发困难。组织必须知晓性能问题发生的时间点及其排查方法。
  2. 应用启动时间与响应时间：涉及应用程序初始加载时间及对请求或用户查询的响应时间。例如，用户打开应用程序，该程序向服务器发起查询以显示其主屏幕。启动耗时过长的应用程序会降低客户满意度，并可能是更大问题的征兆。因此，组织需要对应用执行耗时进行自动化实时健康检查，以便在应用响应阈值低于可接受速率时对功能进行适当调整。了解其响应时间的组织更有可能在应用程序故障前制定主动修复策略。
  3. 资源使用率：衡量应用程序在任意特定时刻所使用的可用资源百分比。某些资源密集型应用程序可能影响其他方面的性能。您可能曾经历过类似情况——例如，当计算机因打开多个应用程序或某个过载应用程序（如打开了数十个标签页的浏览器）而运行缓慢。
  4. 实例与问题的数量及严重性：识别每个事件的严重程度及其故障或性能不佳对整体系统的影响同样重要。应用程序健康监控常影响事件管理与问题管理，后者涉及修复通过应用程序健康监控所发现的问题。
  5. 平均检测时间：判断应用程序发生故障或开始出现超可接受范围性能下降所需时间，可能从毫秒到数天不等。平均检测时间（MTTD）用于衡量识别应用程序或部分 IT 系统发生故障所需的平均时间。理想情况下，组织应建立自动化通知机制、数据可视化图表及工作流程，以便通过人工干预快速识别问题。
  6. 平均修复时间（MTTR）：该指标衡量系统或设备发生故障后修复所需的平均时间。平均修复时间追踪从故障发生到应用程序恢复正常功能之间的时间间隔。这是一个需要监控的关键指标，因为它能追踪修复工作的效能，而修复效能是应用程序运行时间或可用性的核心组成部分。
  7. 网络安全事件数量：IBM 研究发现，2023 年全球数据泄露的平均成本为 445 万美元，三年内增长 15%。自疫情开始以来，"鱼叉式网络钓鱼攻击数量增长近七倍"。应用程序故障或性能不佳的原因众多，但最令人担忧的原因之一是外部网络安全威胁导致的故障。使用监控工具检测恶意软件注入、分布式拒绝服务等潜在安全问题，可提升应用程序的整体健康度。

组织依赖其应用程序的正常运行来提升运营效率并向客户提供服务。改善应用程序健康度的最佳途径，是建立一套规范化流程，该流程能识别并追踪关键指标，从而揭示单个应用的运行状况，并提供整个系统的全景视图。

