自我监视快速入门指南
关于
自我监视涉及通过 SevOne NMS 监视 SevOne 设备,就像监视任何其他 设备一样。 监视设备可帮助您检测潜在问题并立即解决这些问题。 它对于现有的问题也确实有用,尤其是当你不知道来源的时候。 有时候还不清楚你在处理什么样的问题 -- 可以是硬件,软件,也可以是网络层面的问题。 通过自我监视,您可以快速确定原因并解决问题,防止停机。
| 函数 | 描述 |
|---|---|
| MySQLMon | 监视 MySQL 数据库性能。 缺省情况下,将为此配置 config 和 data 数据库。 |
| SevOneMon | 监视 SevOne 内部数据,例如利用率,流负载等。 |
| PolldMon | 监视 SevOne 轮询守护程序性能。 |
这些函数中的度量可用于在自我监视指示符的状态更改时创建报告和警报,并且可能指示其中一个 SevOne 同级存在问题。
在本指南中,如果有
- [对 master的任何引用] 或
- [如果 CLI 命令(用于 NMS 或 Kubernetes 或 Redis )包含主站 ]和/或
- [其输出包含 master ]],它表示领导者或控制平面。
如果提到奴隶或工人 ,则是指追随者或代理人。
先决条件
- root 用户使用 ssh 访问 SevOne NMS 设备
- SevOne NMS 设备的 IP 地址
- SSH 客户机,例如 PuTTY
准备设备进行自我监测
要准备设备以进行自我监视,请执行以下部分中的步骤。
将 SevOne 设备添加到设备管理器
要监视 SevOne 设备或任何其他设备,需要将其添加到设备管理器
- 选择要从中监视设备的设备。 您将从该设备工作。 例如,假设您要设置要监视的设备 A ,并且您已决定由设备 B 执行监视。 这意味着您需要从设备 B 工作。
- 既然选择了将执行监视的设备 (即,设备 B) ,请登录到该设备上的 SevOne NMS。
- 在导航栏中,单击 “设备” ,然后选择 “设备管理器”。

- 在右侧 " 设备 "下单击 " 添加设备 "。

- 在 " 新建设备 " 页面顶部的 名称 字段中,输入要监视的设备的名称。
- 在 备用名 字段中,输入设备的备用名。 用户可以按此名称搜索设备。
- 在 描述 字段中,输入设备的描述。 您可以使用此信息来提供有关设备的其他信息,例如位置等。
- 在 IP 地址 字段中,输入设备的 IP 地址。
- 允许删除 复选框仅向 admin 用户显示,并且在缺省情况下处于选中状态。 选中此选项时,将使用户能够删除 设备。 如果要阻止用户将设备作为 设备删除,请清除该复选框。
- 在下面,单击 设备组 下拉列表,然后选择 所有设备组。
- 根据需要配置其他设置。 有关其他详细信息,请参阅 SevOne NMS 用户指南 > New Device / Edit Device 部分以分别添加/编辑设备。重要信息: 如果在 SevOne NMS 中手动添加设备之前安装了自我监视,那么将由于安装自我监视而自动添加这些设备。
- 单击 另存为新内容。
- 您将在页面顶部看到一条消息,通知您 设备 正在排队等待发现。
创建对象规则
通过创建 对象 规则,可以确保您正在监视要在 SevOne 设备上监视的 对象 。 您还可以使用 对象 规则来排除您不想监视的 对象 。 请参阅 SevOne NMS System Administration Guide > Object Rules 一节,以获取有关创建对象规则的详细信息。
监测什么
在此部分中,将监视各种组件,例如, CPU ,磁盘等。 此外,还将关注理想范围,故障迹象以及一些可用的 指示器。
CPU
主要关注总聚集 CPU 使用率。 查看 CPU 核心 (而不是单个核心) 的总和可提供 CPU 活动的概述。 如果总聚集使用率存在问题,那么最好开始查看各个核心,以确定它是与特定核心还是所有核心相关。 这有助于确定问题是与特定进程相关还是与整个系统相关。
理想情况下, CPU 使用率将在以下范围内。
- 空闲时间> = 50% -在大多数情况下, CPU 不应该执行大量操作。
- Waiting time <= 10% -如果等待时间一致为 10% 或更高,那么系统处于等待方式过多,必须进行查看。
磁盘
在查看磁盘时,两个主要关注区域是可用磁盘空间和输入/输出 (I/O)。 典型的 SevOne 设备具有三个主磁盘组件。
- SDA
- / -包含整个操作系统,包括库,可执行文件等。
- /index -由数据库用于对活动建立索引。 允许在另一磁盘上分发读/写请求以提高性能。
- SDB
- /data -包含大量数据 (涵盖长时间跨度) ,流数据等。
- fioa
/ioDrive - 可选的 Fusion-io SSD,包含在更大容量的设备中。
以下是理想的可用磁盘空间量。
- /, /ioDrive >= 20% 免费
/data > = 10% 可用 -如果这太满,那么数据库可能会冻结。
SNMP 报告整个磁盘以及每个磁盘的各个分区的 I/O 统计信息。 出于自我监控目的,整个磁盘都很感兴趣。 以下是三种 I/O 状态。
- I/O 很低 -这意味着目前没有太多活动,因此,无需担心。
- I/O 启动和关闭 -这意味着正在进行一些读/写操作-这是通常的工作,没有引起关注。
I/O 高 -如果 I/O 始终高,那么这意味着磁盘在不断读写。 这是一面红旗,需要仔细观察。
注: 高 I/O 的一个可能原因是热备用同步,这涉及将大量数据从一个设备复制到另一个设备。 但是,检查高 I/O 的确切原因总是好的。
内存
内存适用于 SevOne 设备。 您将注意到内存使用率较高。 根据设备具有的 RAM 量,它可能接近 100% 内存使用率。 对于具有较大 RAM 的设备,内存使用率将很高 (由于 Linux 内核高速缓存) ,但不会接近 100% 的使用率。 例如,如果写入文件并且 RAM 中有可用空间,那么内核会将整个文件存储在 RAM 中。 所以,当你读/写从/到文件时,你是读/写从/到内存; 使过程快速。 然后,内核将文件高速缓存到磁盘。
SevOne 设备随附大量内存。 正因如此,几乎从来不需要做交换。 但是,如果需要交换,那么它不应超过 1 GB。 在交换之前,要知道为什么需要交换内存。 可能的原因可能包括:
- 内存泄漏
- 设计不好的脚本
已用内存
SNMP 统计信息可用于确定已用内存量。 与指示符 已用内存一起,您还可以包含 高速缓存 指示符和 缓冲区 指示符,以确定更准确的内存使用情况,因为某些内存将进行高速缓存。
已用内存

已用内存 + 缓冲区 + 已高速缓存

流程
必须监视其名称中包含 SevOne 的所有进程。 可以使用 Process Poller 和 SNMP 来完成进程监视。
进程轮询器
"进程轮询器" 提供与以下内容相关的进程的统计信息。
- Apache
- Bash
- CRON 调度程序
- MySQL
- PHP
- xStats
- 等等
请参阅 SevOne NMS 中的 "进程轮询器" 监视信息,以获取标识和监视的进程列表,以获取以下信息。
- 可用性
- CPU 时间
- 流程实例
- 使用的系统内存-这是指实际内存,不包括虚拟内存。
SNMP
所有主要 SevOne NMS 进程都连接到数据库并发出查询。 每个 SevOne 守护程序导出有关其数据库使用的 SNMP 信息。 您可以查看以下具有 SNMP 的守护程序。
- SevOne–datad
- SevOne-dispatchd
- SevOne-polld
- SevOne–requestd - 提供每个对等点的 requestd 可用性百分比。 当可用性小于 100% 时,将发出警报。
- SevOne-trapd
- 还有其他人
SNMP 指示符 为进程提供多个数据库统计信息。 以下是几个要留个观察的。
- 查询计数-查询计数中的任何突然更改都可能指示存在问题。
- 查询错误-查询错误可能是模式或代码问题的结果。
- 连接数。
- 重新连接数。
- 接收和处理的陷阱数量等(适用于 SevOne-trapd)。 请确保接收到的陷阱数与处理的陷阱数没有太大不同。 这些数字应该彼此接近 (例如,在 100 之内)。 如果接收到的陷阱与处理的陷阱之间的差异很大,那么您接收到的陷阱可能多于可以处理的数量。
热备用设备
热备用设备 (HSA) 由主动同级和被动同级组成。 活动同级从集群引导者 (对于集群) 拉取配置数据,并从分配给它的 设备 上的 对象 和 指示符 轮询数据。 被动同级维护所有配置数据和轮询数据的冗余副本。 如果您有 HSA ,请确保:
- MySQL 复制正在工作。 如果 可用性 下降到 0% ,那么 MySQL 守护程序 mysqld可能存在问题。
- 轮询器正在主动设备而不是被动设备上运行。
- 主动设备上存在大量数据库活动,但不存在被动设备。
对于 HSA 监视, SevOne 建议使用 Deferred Data 插件。 选择 SevOne 统计 对象 (例如,使用即时图表时)和以下指标 :
- 是主节点 -指示同级是否为引导者。
- 是主项 -指示同级是否为主项。
如果 HSA 的被动同级正在报告 Is master 值 1,那么这指示发生了转换。 如果主动同级和被动同级都在报告 Is master 值 1,那么存在裂脑情况。
接口
由于 SevOne NMS 监视网络 设备,因此 SevOne 设备需要一些带宽,但不需要太多带宽。 单个设备的正常范围在 1 到 3% 之间。 对于 HSA ,您将看到的带宽是所使用带宽的 2 到 4 倍。 如果使用的带宽量始终很高,那么这可能指示存在问题,您将需要研究导致高带宽的原因。
通过 HSA ,您将看到每两个小时的流量峰值。 发生这种情况的原因是正在将数据从短期存储器传输到长期存储器,这将导致额外的 MySQL 复制。
下图显示了使用 指示符 HC in Octets 和 HC Out Octets的带宽信息。

为自我监测做好准备
创建策略
策略允许您在触发策略中指定的条件时接收警报。 通过策略,您可以定义 设备 和 对象 组的阈值。 请参阅 SevOne NMS 用户指南 > 策略浏览器 部分,以获取有关创建/编辑策略的详细信息。
在 " 推荐策略和阈值 "部分,您可以找到 SevOne 自我监控的推荐策略。 创建策略。
创建阈值
策略适用于整个 设备组 或 对象组。 阈值可用于在针对特定 设备触发条件时接收警报。 请参阅 SevOne NMS 用户指南 > 阈值浏览器 部分,以获取有关创建/编辑阈值的详细信息。
在 " 推荐策略和阈值 " 部分,您将看到推荐的阈值。 创建阈值。
警报
要从导航栏访问 "警报" 页面,请单击 事件 ,然后选择 警报。 "警报" 页面允许您查看系统中当前处于活动状态的警报。 其中包括在策略浏览器或阈值浏览器中定义的阈值违例,陷阱通知和 Web 站点错误。
过滤器为可选项。
请参阅 SevOne NMS 用户指南 > 警报 部分以获取详细信息。
即时图表
要从导航栏访问 "即时图形" 页面,请单击 报告 ,然后选择 即时图形。 您可以在 设备上为 对象 和 指示符 创建统计图。 即时图形易于快速设置,允许您立即查看潜在的问题区域。
建议的自我监督政策
此部分包含以下四个表,这些表按策略应用于的组件对策略组进行细分。
- 系统策略
- 核心流程策略
- 配置策略
- XSTATS 策略
每个表都包含 SevOne 建议的自我监视策略的列表,并包含每个策略的以下信息。
- 策略 -策略的名称和描述。
- 应用于 -策略是应用于 PAS , HSA , DNC 还是它们的任意组合。
- 插件-创建策略时使用的插件。
- 警报条件 -用于设置策略触发条件的特定信息。 这包括 对象类型,严重性级别和条件规范。
- 清除条件 -用于设置策略清除条件的特定信息。 这包括条件规范。
- 建议的补救步骤 -在违反条件时建议执行的步骤。
- 详细信息 -任何其他信息。
如何使用表
插件, 警报条件和 触发器条件 列提供创建策略所需的特定信息。
示例

策略: 常规设置

策略: 触发器条件

缺省情况下, 类型 下拉列表设置为 静态 。 对于表中的大多数条件,您将不需要更改缺省值。 表中有一些条件将 "类型" 设置为 基线变化量, 基线百分比等。 例如, 在 警报条件 列中记录了这些异常。 除非另有说明,否则 类型 将为 静态。
策略: 清除条件


建议的政策和门槛
下表包含用于 SevOne 自我监视的 建议 策略,并且这些策略不会自动用于自我监视安装。
示例
S1_SELFMON_Disk_UtilizationRed
Note: This is a Threshold rather than a Policy.
在下表中,以 "_" 开头的每个策略都包含前缀 S1_SELFMON。 例如,
- _memory_SwapRed必须读作 S1_SELFMON_memory_SwapRed。
- _memory_SwapYellow 必须读作 S1_SELFMON_memory_SwapYellow。
| 系统策略 | ||||||
|---|---|---|---|---|---|---|
| 策略 (前缀: S1_SELFMON) | 应用于 | 插件 | 警报条件 | 清除条件 | 建议的补救步骤 | 详细信息 |
| _memory_SwapRed | PAS HSA 全国民主委员会 |
SnmpPoller | 内存(Linux (Net-SNMP)) 严重性: Alert 平均 可用交换内存 <=20%,超过 15 分钟 |
平均可用交换内存 > 20% 超过 15 分钟 | 在执行以下命令之前,请参阅 详细信息 。 killall -9 SevOne-requestd; podman exec -it nms-nms-nms /bin/bash; SevOne-act restart-mysql; |
警告: 此命令可能导致丢失一个轮询周期,并且过去两个小时的数据可能在 GUI 中短暂不可用 (此命令完成后将返回)。 此命令将清空所有占用内存的进程,并将释放交换内存。 |
| _memory_SwapYellow | PAS HSA 全国民主委员会 |
SnmpPoller | 内存(Linux (Net-SNMP)) 严重程度:警告 平均 可用交换内存 <=超过 15 分钟的 50% |
15 分钟内的平均 可用交换内存 > 50% | 执行以下命令: killall -9SevOne-requestd; |
考虑运行 SevOne_SwapRed 的命令(上一行)。 否则,请保留有关交换使用情况的选项卡。 |
_Disk_UtilizationYellow 注意:这是 阈值,而不是 政策。 |
NMS (PAS , HSA) | SnmpPoller | / [指定的分区] 严重性: 警告 平均 使用磁盘空间 >= 80%,超过 15 分钟 注意:对于 [指定分区],请选择要监控的分区。 为计划监控的每个分区创建单独的阈值。 |
Average 已用磁盘空间 < 80% over 15 minutes | 不适用 | 查看 "管理> 集群管理器> 集群设置> 存储器" 中的设置。 如果可能,请为 数据保留时间 和 最大磁盘利用率 指定较小的数字。 |
_Disk_UtilizationRed 注意:这是 阈值,而不是 政策。 |
NMS (PAS , HSA) | SnmpPoller | / [指定的分区] 严重性: Alert 平均 使用磁盘空间 >= 90%,超过 15 分钟 注意:对于 [指定分区],请选择要监控的分区。 为计划监控的每个分区创建单独的阈值。 |
Average 已用磁盘空间 < 90% over 15 minutes | 执行以下命令: trim-longterm --emergency-purge |
将此策略用于 sd * 对象,例如 sda1和 sdb 等。 这可能指示系统正在以高于或低于其额定容量的工作负载运行。 如果系统降级,请联系 SevOne 支持人员。 |
| 磁盘读取数 (_D) | NMS (PAS , HSA) | SnmpPoller | 磁盘 IO(Linux (Net-SNMP)) 严重程度:警告 注意:对于 类型,请指定 基准百分比。 平均 读取数 > 50 分钟内基线的 150% |
Average 读取数 < 150% of baseline over 50 minutes | 不适用 | 将此策略用于 sd * 对象,例如 sda1和 sdb 等。 这可能指示系统正在以高于或低于其额定容量的工作负载运行。 如果系统降级,请联系 SevOne 支持人员。 |
| 磁盘写入数 (_D) | NMS (PAS , HSA) | SNMP 轮询器 | 磁盘 IO(Linux (Net-SNMP)) 严重程度:警告 注意:类型,请指定基准百分比。 平均 写入数 > 50 分钟内基线的 150% |
Average 写入次数 < 150% of baseline over 50 minutes | 不适用 | 将此策略用于 sd * 对象,例如 sda1和 sdb 等。 这可能指示系统正在以高于或低于其额定容量的工作负载运行。 如果系统降级,请联系 SevOne 支持人员。 |
_HSA_故障转移 重要信息: 对于此策略,建议为 HSA 创建设备组,并将此策略应用于该设备组。
|
NMS (PAS , HSA) | 延迟数据 | SevOne 设备 严重性: Alert 平均是主项 = 1 (5 分钟) |
平均是主项 = 0 (5 分钟) | ||
| 可用内存 (_M) | NMS (PAS , HSA) | SnmpPoller | 物理内存-内存 (Linux (Net-SNMP)) 严重性: Alert 指标:可用内存 在 15 分钟内触发可用内存 < 5%,并进行平均聚合。 |
可用内存 > 5 过去 15 分钟内具有最小聚集的百分比。 这将确保仅当已修复该条件时才清除警报。 | ||
| 以太网络流量 (_E) | NMS (PAS , HSA) | SnmpPoller | 接口 严重性: 警告 注意:对于 类型,请指定 基准百分比。 规则 1 - 15 分钟内平均 以八进制为单位的HC > 基准线的 150 或 规则 2 - 15 分钟内平均 HC 输出八进制数 > 基准的 150 |
平均 HC 以八进制数为单位 < 15 分钟内为基线的 150 和 平均 HC 输出八进制数 < 15 分钟内为基线的 150 |
请考虑将 设备 移动到其他设备。 否则,请联系 SevOne 支持人员。 | |
| 以太网络错误数 (_E) | NMS (PAS , HSA) | SnmpPoller | 接口 严重程度:警告 注意:对于 类型,请指定 基准百分比。 规则 1 - 15 分钟内平均 错误次数 > 基准值的 120 或 规则 2 - 15 分钟内平均 出错次数 > 基准值的 120 或 第 3 条 - 15 分钟内平均丢弃量 >基准值的 120 或 第 4 条 - 15 分钟内平均 丢弃量>基准值的 120 |
平均 错误次数 < 15 分钟内为基线的 120 和 平均 出错率 < 15 分钟内为基线的 120 和 平均丢弃量 <在 15 分钟内为基线的 120 和 平均 出局丢弃量 < 15 分钟内为基线的 120 |
||
_ALL_iDRAC_ICMPReachability 注: 要使此策略生效,您需要将 iDRACs 作为单独的设备添加到设备管理器,例如: 设备 1- SevOne (10.10.10.1) 设备 2 - SevOne-idrac (10.10.10.2) |
NMS (PAS , HSA) | ICMP轮询器 | 平移数据 严重性: 紧急 平均可用性 <95%,超过 15 分钟 |
15 分钟内的平均 可用性 > = 95% | 检查与设备的网络连接。 如果网络正常,请联系 SevOne 支持人员。 | |
| _ALL_iDRAC_SNMPReachability | NMS (PAS , HSA) | SnmpPoller | SNMP 可用性 严重性: Alert 平均可用性 <95%,超过 15 分钟 |
15 分钟内的平均 可用性 > = 95% | 如果 iDRAC 关闭,那么您将需要调查服务器运行状况, iDRAC 连接等。 | 如果 iDRAC 运行状况等, 看起来不错,请联系 SevOne 支持人员。 |
| 核心流程策略 | ||||||
|---|---|---|---|---|---|---|
策略 (前缀: S1_SELFMON) |
应用于 | 插件 | 警报条件 | 清除条件 | 建议的补救步骤 | 详细信息 |
| 请求可用性 (_P) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-requestd 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果命令失败,请检查端口 60007 (TCP)。 |
| _请求的_CPU时间 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-requestd 严重性:AlertAverage CPU Time > 1000 毫秒,超过 15 分钟 |
平均 CPU 时间 < 15 分钟内 1000 毫秒 | ||
| 请求内存 (_R) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-requestd 严重程度: 错误 平均 使用的系统内存 > 5 GB,超过 15 分钟 |
Average 使用的系统内存 < 5 GB over 15 minutes | 不适用 | 检查与设备的网络连接。 如果网络正常,请联系 SevOne 支持人员。 |
| _apache2_Availability | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:apache2 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 不适用 |
如果该命令失败,请检查端口 80 和 443 (TCP) 上的防火墙访问。 |
| _apache2_CPUTime | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:apache2 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _apache2_Memory | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:apache2 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _apache2_ThreadCount | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:apache2 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均进程次数 > 15 分钟内基线的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _polld_可用性 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-polld 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果命令失败,请联系 SevOne 支持人员。 |
| _polld_CPU时间 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-polld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _polld_内存 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-polld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _polld_ThreadCount | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-polld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均进程次数 > 15 分钟内基线的 150 或 平均 进程次数 < 15 分钟内基准值的 50 |
15 分钟内平均 流程实例 小于基线的 150% 和 15 分钟内平均 流程实例> 基线的 50% |
||
_mysqlData_Availability 注: 此策略的 对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。
|
PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:mysqld 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果该命令失败,请检查端口 3306 和 3307 (TCP) 上的防火墙访问。 |
_mysqldData_CPUTime 注: 此策略的 对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。
|
PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:mysqld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
_mysqlData_Memory 注: 此策略的 对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。
|
PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:mysqld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
_mysqlData_ThreadCount 注: 此策略的 对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。
|
PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:mysqld 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均进程次数 > 15 分钟内基线的 150 或 平均 进程次数 < 15 分钟内基准值的 50 |
15 分钟内平均 流程实例 小于基线的 150% 和 平均 进程次数 > 15 分钟内为基线的 50 |
||
| 可用性 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:sshd 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果该命令失败,请检查端口 22 (TCP) 上的防火墙访问。 |
| _sshd_CPU时间 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:sshd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _sshd_内存 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:sshd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| 可用性 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:crond 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | ||
| _crond_CPU时间 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:crond 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _crond_内存 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:crond 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| 数据可用性 (_datad_Availability) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-datad 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果命令失败,请联系 SevOne 支持人员。 |
| 数据 CPU 时间 (_datad_CPUTime) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-datad 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| 数据内存 (_datad_Memory) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-datad 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| 可用性 (_Masterslaved_Availability) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-masterslaved 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果该命令失败,请在端口 60006 (TCP) 上检查 sshd server 。 |
| 主目录 CPU 时间 (_masterslaved_CPUTime) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-masterslaved 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| 主内存 (_masterslaved_Memory) | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:SevOne-masterslaved 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _ntpd_可用性 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:ntpd 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令: systemctl 启动 ntpd |
如果该命令失败,请检查端口 123 (UDP) 上的防火墙访问。 |
| _ntpd_CPU时间 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:ntpd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _ntpd_内存 | PAS HSA 全国民主委员会 |
进程轮询器 | 进程 子类型:ntpd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| 网流可用性 | 全国民主委员会 | 进程轮询器 | 进程 子类型:SevOne-netflowd 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | 执行以下命令:
|
如果命令失败,请联系 SevOne 支持人员。 |
| _netflowd_CPU时间 | 全国民主委员会 | 进程轮询器 | 进程 子类型:SevOne-netflowd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| 网流内存 | 全国民主委员会 | 进程轮询器 | 进程 子类型:SevOne-netflowd 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| Selfmond:无法通过 SSH 连接到对等设备 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 无法通过 SSH 访问一个或多个同级。 除非在 Hub & Spoke 环境中,否则所有对等设备都必须可以连接。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 AllPeersReachable 在 1 分钟内变为 0 |
False | ||
| 自我杏仁:更新程序延迟 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 更新程序处理延迟,可能导致无法提供综合度量数据。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 SecondsSinceLastUpdate > 1 分钟内 10,800 秒 |
False | ||
| 自我蒙德:主人与主人之间的冲突 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 主设备和辅助SevOne设备都认为自己是主设备(领导者),这可能导致复制和数据分歧问题。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 BothMaster >= 5 分钟 |
False | ||
| Selfmond: 主动更换设备 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 在配置的持续时间内检测到活动设备发生变化,表明可能发生故障切换或接管事件。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 ActiveAppliance 已在 5 分钟内更改 |
False | ||
| Selfmond: 配置 Db 复制落后太多 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 配置数据库复制对于正常操作而言落后太多。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 SecondsBehindMaster > 5 分钟内 300 秒 |
False | ||
| Selfmond:数据 DB 复制滞后 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 数据库复制过度滞后,可能会影响群集运行和数据请求的准确性。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 SecondsBehindMaster > 5 分钟内 300 秒 |
False | ||
| Selfmond:根挂载点现在只读 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 根挂载点为只读。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 dataMountPoint = 2(超过 1 分钟 |
False | ||
| Selfmond:数据挂载点现在是只读的 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | Data 挂载点为只读。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 dataMountPoint = 2(超过 1 分钟 |
False | ||
| Selfmond:iodrive 挂载点现在只读 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | iodrive 挂载点为只读。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 平均 iodriveMountPoint = 2,超过 1 分钟 |
False | ||
| Selfmond: 无轮询的指标 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 在上次轮询间隔期间,每秒轮询的指标等于 0。 这可能表明轮询过程或其连接设备的能力出现了问题。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 每秒轮询的指标在超过 5 分钟时等于 0 |
False | ||
| Selfmond: 报告邮件延迟发送 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 报告邮件已运行超过 5 分钟。 如果出现意外情况,建议排除故障。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 报告邮件在应发送 300 秒后掉落 |
False | ||
| 自杏仁:配置的应用程序接口密钥已过期 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | 配置中存在过期密钥(加密和非加密)。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 当过期加密密钥数量大于 0 超过 1 分钟时 |
False | 在任何同级上的 NMS 控制台中,输入到 NMS 容器中。 为 CRYPTO_KEYS 执行以下命令。
其中,<用户 ID> 是使用过期加密密钥的用户。按照以下步骤操作非 CCRYPTO_KEYS(不包括SYSTEM_API_KEY和分布式 API 密钥)。
|
加密密钥用于解密通过 REST API 获取的敏感信息,并通过 SevOne-act activate-crypto-permissions 在 NMS 控制台中生成。 |
| Selfmond:SevOne-netflowd 被延迟了 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | SevOne-netflowd被延迟。 这可能会干扰 NetFlow 数据收集。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 超过 10 分钟超过 1 分钟。 |
False | ||
| Selfmond:SevOne-ffupdater延迟运行 | PAS HSA 全国民主委员会 |
SNMP 轮询器 | SevOne-ffupdater被延迟。 这可能会导致汇总 NetFlow 数据的延迟提供。 对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 大于 90 分钟,持续时间超过 1 分钟。 |
False | ||
| 配置策略 | ||||||
|---|---|---|---|---|---|---|
| 策略 (前缀: S1_SELFMON) | 应用于 | 插件 | 警报条件 | 清除条件 | 建议的补救步骤 | 详细信息 |
| 管理对象 (_Managed_Objects) | PAS HSA 全国民主委员会 |
延迟数据 | SevOne设备 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 启用的对象总数 > 60 分钟内为基线的 20 或 平均 启用的对象总数 < 60 分钟内为基线的 20 |
没有明确的条件。 如果警报条件触发,那么可能存在严重问题。 一旦解决了问题,就应该手动清除警报。 | ||
| _禁用对象 | PAS HSA 全国民主委员会 |
延迟数据 | SevOne设备 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 禁用的对象总数 > 60 分钟内基线的 20 或 平均 60分钟内禁用的对象总数 < 基准线的20 |
没有明确的条件。 如果警报条件触发,那么可能存在严重问题。 一旦解决了问题,就应该手动清除警报。 | ||
| XSTATS 策略 | ||||||
|---|---|---|---|---|---|---|
| 策略 (前缀: S1_SELFMON) | 应用于 | 插件 | 警报条件 | 清除条件 | 建议的补救步骤 | 详细信息 |
| _bulkd_Availability (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-bulkd(进程) 严重性: Alert 平均可用性 <100%,超过 15 分钟 |
平均 可用性 = 15 分钟内的 100% | ||
| _bulkd_CPUTime (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-bulkd(进程) 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 150 |
平均 CPU 时间 < 15 分钟内为基线的 150 | ||
| _bulkd_Memory (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-bulkd(进程) 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _bulkd_ThreadCount (仅限 xStats) | PAS | 进程轮询器 | 进程 子类型:SevOne-bulkd(进程) 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均进程次数 > 15 分钟内基线的 150 或 平均 进程次数 < 15 分钟内基准值的 50 |
15 分钟内平均 流程实例 小于基线的 150% 和 平均 进程次数 > 15 分钟内为基线的 50 |
||
| _fcad_Availability (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-fcad 严重性: Alert 平均可用性 < 75%超过 15 分钟 |
15 分钟内的平均 可用性 > 75% | ||
| _fcad_CPUTime (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-fcad 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 CPU 时间 > 15 分钟内为基线的 120 |
平均 CPU 时间 < 15 分钟内为基线的 120 | ||
| _fcad_Memory (仅xStats ) | PAS | 进程轮询器 | 进程 子类型:SevOne-fcad 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均 在 15 分钟内使用的系统内存 > 基准的 150 |
平均 在 15 分钟内使用的系统内存 <基线的 150 | ||
| _fcad_ThreadCount (仅限 xStats) | PAS | 进程轮询器 | 进程 子类型:SevOne-fcad 严重性: Alert 注意:对于类型,请指定 基准百分比。 平均进程次数 > 15 分钟内基线的 150 或 平均 进程次数 < 15 分钟内基准值的 50 |
15 分钟内平均 流程实例 小于基线的 150% 和 平均 进程次数 > 15 分钟内为基线的 50 |
||
故障诊断
启用自我监控后更改了 SevOneStats 密码。 现在不行了
SevOne 强烈建议在启用自我监控后不要更改 API 用户 SevOneStats 的密码。 但是,如果在进行自我监视后更改了密码,并且迂到问题,请与 SevOne 支持 团队联系以获取帮助。