根本原因分析
概念
DevOps 从业者在当今由成百上千个组件组成的动态应用程序世界中面临重大问题。 首先,当事情发生中断时,即使在用户开始感受到服务影响之前,他们也需要能够尽快检测到并了解问题。 其次,在尽可能快地恢复服务后,他们需要弄清楚并修正确切的根本原因,并确保问题不再发生。 从业人员在日志文件中拖网、查看指标、梳理事件、咨询水晶球,并不惜一切代价找到答案。 可能需要几个小时或几天才能识别出问题的根本原因,并且通常会将原因保留在未识别位置并潜伏在后台等待重新出现。 幸运的是,Instana 在管理事件和加速识别根本原因方面取得了长足进展。 Instana 将自动检测更改、问题和事件,以帮助您检测,了解和调查应用程序的服务质量问题。
更改
"更改" 是表示来自系统上的服务器启动/停止,部署和配置更改的任何内容的事件,您可以将其命名为 "更改"。 进一步分为:
- 更改 - 组件的已更改配置,例如版本,环境变量值等。
- 离线/在线 - 跟踪管理中的组件是否存在。
更改事件是与动态图一起使用的重要信息,用于自动检测配置中的更改与事件之间的关系。
问题
"问题" 是在应用程序,服务或其任何部分变得不正常时创建的事件。 Instana 提供了数百个现成可用的运行状况特征,用于检测各种问题,包括服务质量下降,复杂基础结构问题以及磁盘饱和。 一旦度量值、事件或元数据返回到预期值,问题就会自动解决。
除了内置问题,您还可以定义定制事件以检测特定于您的系统的问题。
要查看 Instana 检测到的所有问题 (内置问题和定制问题) ,请转至 " 事件 " 视图,然后单击 问题 选项卡。 您可以使用 动态焦点 来过滤问题。
每个 Instana 问题都包含以下信息:
- 严重性 - 可以是“临界”或“警告”,其中“临界”表示存在数据丢失或服务不可用的直接或间接风险,而“警告”表示可能影响用户体验或导致长期问题的任何其他性能问题
- 问题的开始,结束时间和持续时间
- 受影响的实体 - 受问题影响的一个或多个实体
- 详细信息 - 提供用于解决问题的其他上下文和措施的其他描述
- 度量值 - 度量值图表,显示与问题发生的时间相关的度量值
- 在适用的情况下,用户可以浏览至无界分析以调查受问题影响的跟踪,调用或页面装入。
在此示例中,一个 Linux 机器上的 CPU 耗用时间可疑,因此被标记为问题。 某个问题本身不会触发警报,Instana 只是指出发生了这种情况。 如果此系统连接到的服务行为不正常,那么此问题是事件的一部分。 此方法是 Instana 的主要优点之一,因为它可以使您免于手动关联事件和性能问题。 只是因为某事物在一段时间内使用过多的 CPU 并不意味着就存在这样的问题。 仅当服务受影响时,这才是相关信息。
有关管理内置问题和定制问题的更多信息,请参阅管理内置事件。
由于 Instana 知道受监视服务之间的所有依赖关系,因此会在事件影响用户时触发所有服务质量问题的事件。 此外,一些关键基础架构问题(例如磁盘饱和以及 Elasticsearch 集群裂脑情境)将触发事件,因为其最终结果很可能是数据丢失。
注: 接收不频繁流量的应用程序,服务或端点 (例如,每 15 分钟一次调用) 被视为没有足够的基础来检测问题。 问题的严重性在其生存期内可能会更改。 它表示此特定问题所达到的最高严重性。
突发事件
事件产生最高严重性级别。 它们是在用户访问的边缘服务受到影响或存在迫在眉睫的影响风险时创建的。 使用动态图,针对每个突发事件关联所有相关事件,以提供上下文和根本原因分析假设。
下面是一个事件的示例。 服务的响应速度突然比平时慢,我们将其称为平均等待时间突然增加。 该事件会自动标记为黄色作为警告。只要此事件仍处于活动状态,就会显示颜色。 解决后,颜色会更改为灰色,并且仍可用于向下钻取菜单。
事件详细信息视图组织为三个部分:
该头包含有关事件的关键事实的基本信息。
- 开始时间;
- 结束时间(如果仍在进行中,那么为当前时间);
- 仍处于活动状态的事件数;
- 所涉及的更改数;
- 受影响实体的数量。
您可以查看事件开始日期,结束日期(如果可用),仍处于活动状态的事件数,属于此事件的更改数以及受影响的实体数:
第二部分提供了随时间变化的事件发展的直观表示。 图表显示从开始到结束的完整时间范围以及所有事件(按开始时间排序)。 该视图在折叠时限制为 7 个事件。 如果您的事件一次包含超过 7 个事件,请按展开按钮以查看完整视图。 单击任何一个条形将打开该问题的详细信息视图:
第三部分包含第 2 部分中图形视图的详细信息。 按开始时间排序所有事件的列表,使用户能够查看每个事件的所有可用信息。 要执行此操作,请单击以将其展开:
详细信息帮助您了解事件,然后是多个图表,其中绘制了相应的度量值以进行可视化。 如果某个事件仍处于活动状态,那么图表将继续呈现新的传入度量值。 有两个标志可用,强调此事件会影响服务和/或此事件已触发该事件。 如果可用,那么会将这些标志放置在列表中每个事件的顶部。
当关注某个事件时,详细信息部分提供了点 3 上的事件列表中描述的相同信息。
"事件" 视图
要查看 Instana 检测到的所有事件,请转至 "事件" 视图,并在 "事件" , "问题" , "更改" 或 "所有" 选项卡之间进行选择,以查看相应的事件类型。 通过 Instana 发现的事件进行搜索依赖于动态焦点功能部件。 通过在顶部的事件条形图中单击一个或选择多个条形,事件表将仅列出所选条形中包含的事件。 这允许在不更改当前时间间隔的情况下详细检查事件。
此外,您还可以使用搜索框通过概述表中的“标题”或“ON”列(发生事件的服务的名称)中显示的数据查找特定项。 在此示例中,搜索查询为event.text:"Error rate"
。 结果是标题中包含短语 "Error rate" 的所有事件的列表: