自我监视快速入门指南

关于

自我监视涉及通过 SevOne NMS 监视 SevOne 设备,就像监视任何其他 设备一样。 监视设备可帮助您检测潜在问题并立即解决这些问题。 它对于现有的问题也确实有用,尤其是当你不知道来源的时候。 有时候还不清楚你在处理什么样的问题 -- 可以是硬件,软件,也可以是网络层面的问题。 通过自我监视,您可以快速确定原因并解决问题,防止停机。

注: 自我监控是一系列 SevOne 创建的应用程序接口脚本,可以监控 SevOne 的核心功能,如
函数 描述
MySQLMon 监视 MySQL 数据库性能。 缺省情况下,将为此配置 configdata 数据库。
SevOneMon 监视 SevOne 内部数据,例如利用率,流负载等。
PolldMon 监视 SevOne 轮询守护程序性能。

这些函数中的度量可用于在自我监视指示符的状态更改时创建报告和警报,并且可能指示其中一个 SevOne 同级存在问题。

重要信息: 启动 SevOne NMS 6.7.0, MySQL 已移至 MariaDB 10.6.12
注: 术语用法...

在本指南中,如果有

  • [对 master的任何引用] 或
  • [如果 CLI 命令(用于 NMSKubernetesRedis )包含主站 ]和/或
  • [其输出包含 master ]],它表示领导者控制平面

如果提到奴隶工人 ,则是指追随者代理人

先决条件

  • root 用户使用 ssh 访问 SevOne NMS 设备
  • SevOne NMS 设备的 IP 地址
  • SSH 客户机,例如 PuTTY

准备设备进行自我监测

要准备设备以进行自我监视,请执行以下部分中的步骤。

将 SevOne 设备添加到设备管理器

要监视 SevOne 设备或任何其他设备,需要将其添加到设备管理器

  1. 选择要从中监视设备的设备。 您将从该设备工作。 例如,假设您要设置要监视的设备 A ,并且您已决定由设备 B 执行监视。 这意味着您需要从设备 B 工作。
  2. 既然选择了将执行监视的设备 (即,设备 B) ,请登录到该设备上的 SevOne NMS。
  3. 在导航栏中,单击 “设备” ,然后选择 “设备管理器”

    devMgr

  4. 在右侧 " 设备 "下单击 " 添加设备 "。

    newDevice

  5. 在 " 新建设备 " 页面顶部的 名称 字段中,输入要监视的设备的名称。
  6. 备用名 字段中,输入设备的备用名。 用户可以按此名称搜索设备。
  7. 描述 字段中,输入设备的描述。 您可以使用此信息来提供有关设备的其他信息,例如位置等。
  8. IP 地址 字段中,输入设备的 IP 地址。
  9. 允许删除 复选框仅向 admin 用户显示,并且在缺省情况下处于选中状态。 选中此选项时,将使用户能够删除 设备。 如果要阻止用户将设备作为 设备删除,请清除该复选框。
  10. 在下面,单击 设备组 下拉列表,然后选择 所有设备组
  11. 根据需要配置其他设置。 有关其他详细信息,请参阅 SevOne NMS 用户指南 > New Device / Edit Device 部分以分别添加/编辑设备。
    重要信息: 如果在 SevOne NMS 中手动添加设备之前安装了自我监视,那么将由于安装自我监视而自动添加这些设备。
  12. 单击 另存为新内容
  13. 您将在页面顶部看到一条消息,通知您 设备 正在排队等待发现。

创建对象规则

通过创建 对象 规则,可以确保您正在监视要在 SevOne 设备上监视的 对象 。 您还可以使用 对象 规则来排除您不想监视的 对象 。 请参阅 SevOne NMS System Administration Guide > Object Rules 一节,以获取有关创建对象规则的详细信息。

监测什么

在此部分中,将监视各种组件,例如, CPU ,磁盘等。 此外,还将关注理想范围,故障迹象以及一些可用的 指示器

CPU

主要关注总聚集 CPU 使用率。 查看 CPU 核心 (而不是单个核心) 的总和可提供 CPU 活动的概述。 如果总聚集使用率存在问题,那么最好开始查看各个核心,以确定它是与特定核心还是所有核心相关。 这有助于确定问题是与特定进程相关还是与整个系统相关。

理想情况下, CPU 使用率将在以下范围内。

  • 空闲时间> = 50% -在大多数情况下, CPU 不应该执行大量操作。
  • Waiting time <= 10% -如果等待时间一致为 10% 或更高,那么系统处于等待方式过多,必须进行查看。

磁盘

在查看磁盘时,两个主要关注区域是可用磁盘空间和输入/输出 (I/O)。 典型的 SevOne 设备具有三个主磁盘组件。

  • SDA
    • / -包含整个操作系统,包括库,可执行文件等。
    • /index -由数据库用于对活动建立索引。 允许在另一磁盘上分发读/写请求以提高性能。
  • SDB
    • /data -包含大量数据 (涵盖长时间跨度) ,流数据等。
  • fioa
    • /ioDrive - 可选的 Fusion-io SSD,包含在更大容量的设备中。

以下是理想的可用磁盘空间量。

  • /, /ioDrive >= 20% 免费
  • /data > = 10% 可用 -如果这太满,那么数据库可能会冻结。

SNMP 报告整个磁盘以及每个磁盘的各个分区的 I/O 统计信息。 出于自我监控目的,整个磁盘都很感兴趣。 以下是三种 I/O 状态。

  • I/O 很低 -这意味着目前没有太多活动,因此,无需担心。
  • I/O 启动和关闭 -这意味着正在进行一些读/写操作-这是通常的工作,没有引起关注。
  • I/O 高 -如果 I/O 始终高,那么这意味着磁盘在不断读写。 这是一面红旗,需要仔细观察。

    注: 高 I/O 的一个可能原因是热备用同步,这涉及将大量数据从一个设备复制到另一个设备。 但是,检查高 I/O 的确切原因总是好的。

内存

内存适用于 SevOne 设备。 您将注意到内存使用率较高。 根据设备具有的 RAM 量,它可能接近 100% 内存使用率。 对于具有较大 RAM 的设备,内存使用率将很高 (由于 Linux 内核高速缓存) ,但不会接近 100% 的使用率。 例如,如果写入文件并且 RAM 中有可用空间,那么内核会将整个文件存储在 RAM 中。 所以,当你读/写从/到文件时,你是读/写从/到内存; 使过程快速。 然后,内核将文件高速缓存到磁盘。

SevOne 设备随附大量内存。 正因如此,几乎从来不需要做交换。 但是,如果需要交换,那么它不应超过 1 GB。 在交换之前,要知道为什么需要交换内存。 可能的原因可能包括:

  • 内存泄漏
  • 设计不好的脚本

已用内存

SNMP 统计信息可用于确定已用内存量。 与指示符 已用内存一起,您还可以包含 高速缓存 指示符和 缓冲区 指示符,以确定更准确的内存使用情况,因为某些内存将进行高速缓存。

已用内存

selfMonUsedMemory

已用内存 + 缓冲区 + 已高速缓存

selfMonUsedMemoryAndBuffersAndCached

流程

必须监视其名称中包含 SevOne 的所有进程。 可以使用 Process Poller 和 SNMP 来完成进程监视。

进程轮询器

"进程轮询器" 提供与以下内容相关的进程的统计信息。

  • Apache
  • Bash
  • CRON 调度程序
  • MySQL
  • PHP
  • xStats
  • 等等

请参阅 SevOne NMS 中的 "进程轮询器" 监视信息,以获取标识和监视的进程列表,以获取以下信息。

  • 可用性
  • CPU 时间
  • 流程实例
  • 使用的系统内存-这是指实际内存,不包括虚拟内存。

SNMP

所有主要 SevOne NMS 进程都连接到数据库并发出查询。 每个 SevOne 守护程序导出有关其数据库使用的 SNMP 信息。 您可以查看以下具有 SNMP 的守护程序。

  • SevOne–datad
  • SevOne-dispatchd
  • SevOne-polld
  • SevOne–requestd - 提供每个对等点的 requestd 可用性百分比。 当可用性小于 100% 时,将发出警报。
  • SevOne-trapd
  • 还有其他人
注: 确切的进程列表取决于受监视的设备类型。 例如, PAS , HSA 或 DNC。

SNMP 指示符 为进程提供多个数据库统计信息。 以下是几个要留个观察的。

  • 查询计数-查询计数中的任何突然更改都可能指示存在问题。
  • 查询错误-查询错误可能是模式或代码问题的结果。
  • 连接数。
  • 重新连接数。
  • 接收和处理的陷阱数量等(适用于 SevOne-trapd)。 请确保接收到的陷阱数与处理的陷阱数没有太大不同。 这些数字应该彼此接近 (例如,在 100 之内)。 如果接收到的陷阱与处理的陷阱之间的差异很大,那么您接收到的陷阱可能多于可以处理的数量。

热备用设备

热备用设备 (HSA) 由主动同级和被动同级组成。 活动同级从集群引导者 (对于集群) 拉取配置数据,并从分配给它的 设备 上的 对象指示符 轮询数据。 被动同级维护所有配置数据和轮询数据的冗余副本。 如果您有 HSA ,请确保:

  • MySQL 复制正在工作。 如果 可用性 下降到 0% ,那么 MySQL 守护程序 mysqld可能存在问题。
  • 轮询器正在主动设备而不是被动设备上运行。
  • 主动设备上存在大量数据库活动,但不存在被动设备。

对于 HSA 监视, SevOne 建议使用 Deferred Data 插件。 选择 SevOne 统计 对象 (例如,使用即时图表时)和以下指标

  • 是主节点 -指示同级是否为引导者。
  • 是主项 -指示同级是否为主项。

如果 HSA 的被动同级正在报告 Is master 1,那么这指示发生了转换。 如果主动同级和被动同级都在报告 Is master 1,那么存在裂脑情况。

接口

由于 SevOne NMS 监视网络 设备,因此 SevOne 设备需要一些带宽,但不需要太多带宽。 单个设备的正常范围在 1 到 3% 之间。 对于 HSA ,您将看到的带宽是所使用带宽的 2 到 4 倍。 如果使用的带宽量始终很高,那么这可能指示存在问题,您将需要研究导致高带宽的原因。

通过 HSA ,您将看到每两个小时的流量峰值。 发生这种情况的原因是正在将数据从短期存储器传输到长期存储器,这将导致额外的 MySQL 复制。

下图显示了使用 指示符 HC in OctetsHC Out Octets的带宽信息。

selfMonInterface

为自我监测做好准备

创建策略

策略允许您在触发策略中指定的条件时接收警报。 通过策略,您可以定义 设备对象 组的阈值。 请参阅 SevOne NMS 用户指南 > 策略浏览器 部分,以获取有关创建/编辑策略的详细信息。

在 " 推荐策略和阈值 "部分,您可以找到 SevOne 自我监控的推荐策略。 创建策略。

创建阈值

策略适用于整个 设备组 对象组。 阈值可用于在针对特定 设备触发条件时接收警报。 请参阅 SevOne NMS 用户指南 > 阈值浏览器 部分,以获取有关创建/编辑阈值的详细信息。

在 " 推荐策略和阈值 " 部分,您将看到推荐的阈值。 创建阈值。

警报

要从导航栏访问 "警报" 页面,请单击 事件 ,然后选择 警报。 "警报" 页面允许您查看系统中当前处于活动状态的警报。 其中包括在策略浏览器或阈值浏览器中定义的阈值违例,陷阱通知和 Web 站点错误。

注: "警报" 页面允许您添加过滤器以关注显示结果。 添加筛选器后,单击应用筛选即可应用筛选器。

过滤器为可选项。

请参阅 SevOne NMS 用户指南 > 警报 部分以获取详细信息。

即时图表

要从导航栏访问 "即时图形" 页面,请单击 报告 ,然后选择 即时图形。 您可以在 设备上为 对象 指示符 创建统计图。 即时图形易于快速设置,允许您立即查看潜在的问题区域。

故障诊断

启用自我监控后更改了 SevOneStats 密码。 现在不行了

SevOne 强烈建议在启用自我监控后不要更改 API 用户 SevOneStats 的密码。 但是,如果在进行自我监视后更改了密码,并且迂到问题,请与 SevOne 支持 团队联系以获取帮助。