根本原因分析

Instana 可管理事故并加快找出根本原因。 Instana 将自动检测更改、问题和事件,以帮助您检测,了解和调查应用程序的服务质量问题。

DevOps 从业者在当今由成百上千个组件组成的动态应用程序世界中面临重大问题。 当出现故障时,他们需要能够尽快发现并了解问题,甚至在用户开始感受到服务影响之前。 DevOps 尽快恢复服务后,他们需要修复确切的根本原因,并确保问题不会再次发生。 DevOps 可能需要数小时或数天的时间才能确定问题的根本原因,而且往往无法查明原因。

更改

更改 "是一个表示更改的事件,如系统上的服务器启动/停止、部署和配置更改。 此外,还分为

  • 更改 - 更改组件的配置,例如版本、环境变量值和其他组件
  • 离线/在线 - 跟踪管理组件的存在情况

更改事件是重要的信息,与动态图表一起使用可自动检测配置更改与事件的关系。

问题

问题是在应用程序、服务或其任何部分出现性能降低时创建的事件。 Instana 附带数百个开箱即用的健康状况签名,可检测从服务质量下降到复杂的基础设施问题,再到磁盘饱和等各种问题。 一旦度量值、事件或元数据返回到预期值,问题就会自动解决。

除了内置问题,您还可以定义定制事件以检测特定于您的系统的问题。

要查看 Instana 检测到的所有问题 (内置问题和定制问题) ,请转至 " 事件 " 视图,然后单击 问题 选项卡。 您可以使用 动态焦点 来过滤问题。

每期 Instana 杂志都包含以下信息:

  • 严重性:该信息可以是 "危急"(CRITICAL)或 "警告"(WARNING)。 CRITICAL 意味着直接或间接存在数据丢失或服务中断的风险。 警告指可能影响用户体验或导致长期问题的任何其他性能问题
  • 问题的开始、结束时间和持续时间
  • 受影响实体:受问题影响的一个或多个实体
  • 细节:补充说明,提供更多背景信息和解决问题的措施
  • 指标:指标图表,显示问题发生时与问题相关的指标值
  • 在适用的情况下,您可以转到 未绑定分析,以调查受问题影响的跟踪、调用或页面加载情况

在此示例中,一个 Linux 机器上的 CPU 耗用时间可疑,因此被标记为问题。 问题本身并不会触发警报,Instana 会记录问题的发生。 如果该系统所连接的服务出现问题,则该问题就是事件的一部分。 这种方法是 Instana 的主要优势之一,因为您无需手动关联事件和性能问题。 有一段时间 CPU 占用过高并不意味着存在问题。 只有当服务受到影响时,这才是相关信息。

有关管理内置问题和定制问题的更多信息,请参阅管理内置事件

由于 Instana 知道受监控服务之间的所有依赖关系,因此当事件影响到用户时,它会触发所有服务质量问题的事件。 此外,一些关键的基础架构问题(如磁盘饱和和 Elasticsearch 集群分脑情况)也会引发事件,因为其结果很可能是数据丢失。

接收不频繁流量(例如,每 15 分钟一次调用)的应用程序,服务或端点不被视为具有足够的基础进行问题检测。 问题的严重性在其生存期内可能会更改。 它表示此特定问题所达到的最高严重性。

突发事件

事件产生最高严重性级别。 当用户访问的边缘服务受到影响或存在迫在眉睫的影响风险时,就会创建这些服务。 使用动态图,针对每个突发事件关联所有相关事件,以提供上下文和根本原因分析假设。

服务的响应速度突然比平时慢,我们将其称为平均等待时间突然增加。 该事件会自动标记为黄色作为警告。颜色会一直显示到该事件激活为止。 解决后,颜色会变为灰色,但仍可用于下拉菜单。 请参阅以下事件示例。

事件详细信息视图组织为三个部分:

  1. 该头包含有关事件的关键事实的基本信息。

    • 开始时间;
    • 结束时间(如果仍在进行中,那么为当前时间);
    • 仍处于活动状态的事件数;
    • 所涉及的更改数;
    • 受影响实体的数量。

    您可以查看事件开始日期,结束日期(如果可用),仍处于活动状态的事件数,属于此事件的更改数以及受影响的实体数:

  2. 第二部分提供了随时间变化的事件发展的直观表示。 图表显示了从开始到结束的整个时间范围和所有事件,并按开始时间排序。 该视图在折叠时限制为 7 个事件。 如果您的事件一次包含超过 7 个事件,请按展开按钮以查看完整视图。 单击任何一个条形将打开该问题的详细信息视图:

  3. 第三部分包含第 2 部分中图形视图的详细信息。 按开始时间排序的所有事件列表可让用户查看每个事件的所有可用信息。 要查看每个事件的所有可用信息,请单击事件展开:

详细信息帮助您了解事件,然后是多个图表,其中绘制了相应的度量值以进行可视化。 如果某个事件仍处于活动状态,那么图表将继续呈现新的传入度量值。 有两种旗帜可供选择。 一个标志是强调事件影响了服务,另一个标志是事件引发了事件。 如果有,旗帜会放在列表中每个事件的顶部。

当您关注一个事件时,详细信息部分提供的信息与第 3 点事件列表中描述的信息相同。

自动可能的根本原因(公开预览)

为了减轻 DevOps 从业者的平均修复时间 (MTTR) , Instana 会自动执行可能的根本原因,这是一种使用因果 AI 动态分析跟踪统计信息和拓扑的算法。 此算法识别故障的可能根本原因实体,这使 DevOps 执行人员能够快速确定应用程序故障的可能原因。

您可以在以下实体类型的智能警报创建的任何事件上访问 可能的根本原因 部分:

  • 应用程序透视图
  • 服务
  • 端点
  • 应用角度的服务水平目标

可能的根本原因部分包括以下主要部分:

  1. 可能的根本原因实体及相关基础设施或应用程序信息
  2. 帮助 DevOps 实践者查看特定实体被识别为可能根本原因的原因的证据。
  3. 与 "可能的根本原因 "实体相关的事件,以及表示故障可能性的概率级别

因果人工智能算法可识别可能是问题根源的一个实体(或多个实体)。 该实体可以是 Instana 监控的任何物理或逻辑实体,并显示为可能的根本原因实体。 所显示的实体链接到实体页面,该页面描述了发生事件时实体的状态。 相关事件是最近在可能的根源实体上发生的所有事件。 有了详细的相关事件,DevOps 实践者就能快速识别导致问题的问题、事件或变更事件。 指向无界分析页面的链接被预过滤为已识别的 "可能的根本原因 "实体,这有助于 DevOps 实践者快速、轻松地识别与 "可能的根本原因 "实体相关的跟踪和错误。

Probable Root Cause 部分面板中,Instana 最多会显示三个最有可能发生故障的实体。 要查看可能的根本原因的其他候选实体,请单击最可能的原因潜在原因选项卡。 这些实体按发生故障的可能性进行排序,因此最可能的根本原因是所显示的第一个原因。 概率级别显示在右上方,标题为概率级别,可标注为lowmediumhigh,其中high表示故障概率高。 当您将光标悬停在 "概率" 级别上时,将显示工具提示,这将进一步说明每个标签的含义。

"事件" 视图

要查看 Instana 检测到的所有事件,请进入 "事件 "视图,选择 "事件"、"问题"、"更改 "或 "全部 "选项卡,查看相应的事件类型。 通过 Instana 发现的事件进行搜索需要依赖 Dynamic Focus 功能。 在顶部的 "事件 "条形图中选择一个或多个多个条形,事件表就会只列出所选条形中包含的事件。 通过选择事件条形图中的条形,可以在不改变当前时间间隔的情况下对事件进行详细检查。

此外,您还可以使用搜索框通过概述表中的“标题”或“ON”列(发生事件的服务的名称)中显示的数据查找特定项。 在此示例中,搜索查询为event.text:"Error rate"。 结果是标题中包含 "错误率 "短语的所有事件列表: