自我监视快速入门指南

关于

自我监视涉及通过 SevOne NMS 监视 SevOne 设备，就像监视任何其他设备一样。监视设备可帮助您检测潜在问题并立即解决这些问题。它对于现有的问题也确实有用，尤其是当你不知道来源的时候。有时候还不清楚你在处理什么样的问题 -- 可以是硬件，软件，也可以是网络层面的问题。通过自我监视，您可以快速确定原因并解决问题，防止停机。

注：自我监控是一系列 SevOne 创建的应用程序接口脚本，可以监控 SevOne 的核心功能，如


函数	描述
MySQLMon	监视 MySQL 数据库性能。缺省情况下，将为此配置 config 和 data 数据库。
SevOneMon	监视 SevOne 内部数据，例如利用率，流负载等。
PolldMon	监视 SevOne 轮询守护程序性能。

这些函数中的度量可用于在自我监视指示符的状态更改时创建报告和警报，并且可能指示其中一个 SevOne 同级存在问题。

重要信息: 启动 SevOne NMS 6.7.0， MySQL 已移至 MariaDB 10.6.12。

注： 术语用法...

在本指南中，如果有

[对 master的任何引用] 或
[如果 CLI 命令（用于 NMS 或 Kubernetes 或 Redis )包含主站 ]和/或
[其输出包含 master ]]，它表示领导者或控制平面。

如果提到奴隶或工人，则是指追随者或代理人。

系统策略
策略 (前缀: S1_SELFMON)	应用于	插件	警报条件	清除条件	建议的补救步骤	详细信息
_memory_SwapRed	PAS HSA 全国民主委员会	SnmpPoller	内存（Linux (Net-SNMP)) 严重性: Alert 平均可用交换内存 <=20%，超过 15 分钟	平均可用交换内存 > 20% 超过 15 分钟	在执行以下命令之前，请参阅详细信息。 killall -9 SevOne-requestd; podman exec -it nms-nms-nms /bin/bash; SevOne-act restart-mysql；	警告: 此命令可能导致丢失一个轮询周期，并且过去两个小时的数据可能在 GUI 中短暂不可用 (此命令完成后将返回)。此命令将清空所有占用内存的进程，并将释放交换内存。
_memory_SwapYellow	PAS HSA 全国民主委员会	SnmpPoller	内存（Linux (Net-SNMP)) 严重程度：警告平均可用交换内存 <=超过 15 分钟的 50%	15 分钟内的平均可用交换内存 > 50%	执行以下命令: killall -9SevOne-requestd;	考虑运行 SevOne_SwapRed 的命令（上一行）。否则，请保留有关交换使用情况的选项卡。
_Disk_UtilizationYellow 注意：这是阈值，而不是政策。	NMS (PAS ， HSA)	SnmpPoller	/ [指定的分区] 严重性: 警告平均使用磁盘空间 >= 80%，超过 15 分钟注意：对于 [指定分区]，请选择要监控的分区。为计划监控的每个分区创建单独的阈值。	Average 已用磁盘空间 < 80% over 15 minutes	不适用	查看 "管理> 集群管理器> 集群设置> 存储器" 中的设置。如果可能，请为数据保留时间和最大磁盘利用率指定较小的数字。
_Disk_UtilizationRed 注意：这是阈值，而不是政策。	NMS (PAS ， HSA)	SnmpPoller	/ [指定的分区] 严重性: Alert 平均使用磁盘空间 >= 90%，超过 15 分钟注意：对于 [指定分区]，请选择要监控的分区。为计划监控的每个分区创建单独的阈值。	Average 已用磁盘空间 < 90% over 15 minutes	执行以下命令: trim-longterm --emergency-purge	将此策略用于 sd * 对象，例如 sda1和 sdb 等。这可能指示系统正在以高于或低于其额定容量的工作负载运行。如果系统降级，请联系 SevOne 支持人员。
磁盘读取数 (_D)	NMS (PAS ， HSA)	SnmpPoller	磁盘 IO（Linux (Net-SNMP)) 严重程度：警告注意：对于类型，请指定基准百分比。平均读取数 > 50 分钟内基线的 150%	Average 读取数 < 150% of baseline over 50 minutes	不适用	将此策略用于 sd * 对象，例如 sda1和 sdb 等。这可能指示系统正在以高于或低于其额定容量的工作负载运行。如果系统降级，请联系 SevOne 支持人员。
磁盘写入数 (_D)	NMS (PAS ， HSA)	SNMP 轮询器	磁盘 IO（Linux (Net-SNMP)) 严重程度：警告注意：类型，请指定基准百分比。平均写入数 > 50 分钟内基线的 150%	Average 写入次数 < 150% of baseline over 50 minutes	不适用	将此策略用于 sd * 对象，例如 sda1和 sdb 等。这可能指示系统正在以高于或低于其额定容量的工作负载运行。如果系统降级，请联系 SevOne 支持人员。
_HSA_故障转移重要信息: 对于此策略，建议为 HSA 创建设备组，并将此策略应用于该设备组。	NMS (PAS ， HSA)	延迟数据	SevOne 设备严重性: Alert 平均是主项 = 1 (5 分钟)	平均是主项 = 0 (5 分钟)
可用内存 (_M)	NMS (PAS ， HSA)	SnmpPoller	物理内存-内存 (Linux (Net-SNMP)) 严重性: Alert 指标：可用内存在 15 分钟内触发可用内存 < 5%，并进行平均聚合。	可用内存 > 5 过去 15 分钟内具有最小聚集的百分比。这将确保仅当已修复该条件时才清除警报。
以太网络流量 (_E)	NMS (PAS ， HSA)	SnmpPoller	接口严重性: 警告注意：对于类型，请指定基准百分比。规则 1 - 15 分钟内平均以八进制为单位的HC > 基准线的 150 或规则 2 - 15 分钟内平均 HC 输出八进制数 > 基准的 150	平均 HC 以八进制数为单位 < 15 分钟内为基线的 150 和平均 HC 输出八进制数 < 15 分钟内为基线的 150	请考虑将设备移动到其他设备。否则，请联系 SevOne 支持人员。
以太网络错误数 (_E)	NMS (PAS ， HSA)	SnmpPoller	接口严重程度：警告注意：对于类型，请指定基准百分比。规则 1 - 15 分钟内平均错误次数 > 基准值的 120 或规则 2 - 15 分钟内平均出错次数 > 基准值的 120 或第 3 条 - 15 分钟内平均丢弃量 >基准值的 120 或第 4 条 - 15 分钟内平均丢弃量>基准值的 120	平均错误次数 < 15 分钟内为基线的 120 和平均出错率 < 15 分钟内为基线的 120 和平均丢弃量 <在 15 分钟内为基线的 120 和平均出局丢弃量 < 15 分钟内为基线的 120
_ALL_iDRAC_ICMPReachability 注: 要使此策略生效，您需要将 iDRACs 作为单独的设备添加到设备管理器，例如: 设备 1- SevOne (10.10.10.1) 设备 2 - SevOne-idrac (10.10.10.2)	NMS (PAS ， HSA)	ICMP轮询器	平移数据严重性: 紧急平均可用性 <95%，超过 15 分钟	15 分钟内的平均可用性 > = 95%		检查与设备的网络连接。如果网络正常，请联系 SevOne 支持人员。
_ALL_iDRAC_SNMPReachability	NMS (PAS ， HSA)	SnmpPoller	SNMP 可用性严重性: Alert 平均可用性 <95%，超过 15 分钟	15 分钟内的平均可用性 > = 95%	如果 iDRAC 关闭，那么您将需要调查服务器运行状况， iDRAC 连接等。	如果 iDRAC 运行状况等，看起来不错，请联系 SevOne 支持人员。

核心流程策略
策略 (前缀: S1_SELFMON)	应用于	插件	警报条件	清除条件	建议的补救步骤	详细信息
请求可用性 (_P)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-requestd 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start SevOne-requestd`	如果命令失败，请检查端口 60007 (TCP)。
_请求的_CPU时间	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-requestd 严重性：AlertAverage CPU Time > 1000 毫秒，超过 15 分钟	平均 CPU 时间 < 15 分钟内 1000 毫秒
请求内存 (_R)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-requestd 严重程度：错误平均使用的系统内存 > 5 GB，超过 15 分钟	Average 使用的系统内存 < 5 GB over 15 minutes	不适用	检查与设备的网络连接。如果网络正常，请联系 SevOne 支持人员。
_apache2_Availability	PAS HSA 全国民主委员会	进程轮询器	进程子类型：apache2 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	不适用	如果该命令失败，请检查端口 80 和 443 (TCP) 上的防火墙访问。
_apache2_CPUTime	PAS HSA 全国民主委员会	进程轮询器	进程子类型：apache2 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_apache2_Memory	PAS HSA 全国民主委员会	进程轮询器	进程子类型：apache2 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
_apache2_ThreadCount	PAS HSA 全国民主委员会	进程轮询器	进程子类型：apache2 严重性: Alert 注意：对于类型，请指定基准百分比。平均进程次数 > 15 分钟内基线的 150	平均在 15 分钟内使用的系统内存 <基线的 150
_polld_可用性	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-polld 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start SevOne-polld`	如果命令失败，请联系 SevOne 支持人员。
_polld_CPU时间	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-polld 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_polld_内存	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-polld 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
_polld_ThreadCount	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-polld 严重性: Alert 注意：对于类型，请指定基准百分比。平均进程次数 > 15 分钟内基线的 150 或平均进程次数 < 15 分钟内基准值的 50	15 分钟内平均流程实例小于基线的 150% 和 15 分钟内平均流程实例> 基线的 50%
_mysqlData_Availability 注: 此策略的对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。	PAS HSA 全国民主委员会	进程轮询器	进程子类型：mysqld 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start mysqld; supervisorctl start mysqld2`	如果该命令失败，请检查端口 3306 和 3307 (TCP) 上的防火墙访问。
_mysqldData_CPUTime 注: 此策略的对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。	PAS HSA 全国民主委员会	进程轮询器	进程子类型：mysqld 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_mysqlData_Memory 注: 此策略的对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。	PAS HSA 全国民主委员会	进程轮询器	进程子类型：mysqld 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
_mysqlData_ThreadCount 注: 此策略的对象子类型 mysqld适用于 MySQL Config 数据库和 MySQL Data 数据库。	PAS HSA 全国民主委员会	进程轮询器	进程子类型：mysqld 严重性: Alert 注意：对于类型，请指定基准百分比。平均进程次数 > 15 分钟内基线的 150 或平均进程次数 < 15 分钟内基准值的 50	15 分钟内平均流程实例小于基线的 150% 和平均进程次数 > 15 分钟内为基线的 50
可用性	PAS HSA 全国民主委员会	进程轮询器	进程子类型：sshd 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl restart sshd`	如果该命令失败，请检查端口 22 (TCP) 上的防火墙访问。
_sshd_CPU时间	PAS HSA 全国民主委员会	进程轮询器	进程子类型：sshd 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_sshd_内存	PAS HSA 全国民主委员会	进程轮询器	进程子类型：sshd 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
可用性	PAS HSA 全国民主委员会	进程轮询器	进程子类型：crond 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%
_crond_CPU时间	PAS HSA 全国民主委员会	进程轮询器	进程子类型：crond 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_crond_内存	PAS HSA 全国民主委员会	进程轮询器	进程子类型：crond 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
数据可用性 (_datad_Availability)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-datad 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start SevOne-datad`	如果命令失败，请联系 SevOne 支持人员。
数据 CPU 时间 (_datad_CPUTime)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-datad 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
数据内存 (_datad_Memory)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-datad 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
可用性 (_Masterslaved_Availability)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-masterslaved 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start SevOne-masterslaved`	如果该命令失败，请在端口 60006 (TCP) 上检查 sshd server 。
主目录 CPU 时间 (_masterslaved_CPUTime)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-masterslaved 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
主内存 (_masterslaved_Memory)	PAS HSA 全国民主委员会	进程轮询器	进程子类型：SevOne-masterslaved 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
_ntpd_可用性	PAS HSA 全国民主委员会	进程轮询器	进程子类型：ntpd 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: systemctl 启动 ntpd	如果该命令失败，请检查端口 123 (UDP) 上的防火墙访问。
_ntpd_CPU时间	PAS HSA 全国民主委员会	进程轮询器	进程子类型：ntpd 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
_ntpd_内存	PAS HSA 全国民主委员会	进程轮询器	进程子类型：ntpd 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
网流可用性	全国民主委员会	进程轮询器	进程子类型：SevOne-netflowd 严重性: Alert 平均可用性 <100%，超过 15 分钟	平均可用性 = 15 分钟内的 100%	执行以下命令: `podman exec -it nms-nms-nms /bin/bash supervisorctl start SevOne-netflowd`	如果命令失败，请联系 SevOne 支持人员。
_netflowd_CPU时间	全国民主委员会	进程轮询器	进程子类型：SevOne-netflowd 严重性: Alert 注意：对于类型，请指定基准百分比。平均 CPU 时间 > 15 分钟内为基线的 150	平均 CPU 时间 < 15 分钟内为基线的 150
网流内存	全国民主委员会	进程轮询器	进程子类型：SevOne-netflowd 严重性: Alert 注意：对于类型，请指定基准百分比。平均在 15 分钟内使用的系统内存 > 基准的 150	平均在 15 分钟内使用的系统内存 <基线的 150
Selfmond：无法通过 SSH 连接到对等设备	PAS HSA 全国民主委员会	SNMP 轮询器	无法通过 SSH 访问一个或多个同级。除非在 Hub & Spoke 环境中，否则所有对等设备都必须可以连接。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 AllPeersReachable 在 1 分钟内变为 0	False
自我杏仁：更新程序延迟	PAS HSA 全国民主委员会	SNMP 轮询器	更新程序处理延迟，可能导致无法提供综合度量数据。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 SecondsSinceLastUpdate > 1 分钟内 10,800 秒	False
自我蒙德：主人与主人之间的冲突	PAS HSA 全国民主委员会	SNMP 轮询器	主设备和辅助SevOne设备都认为自己是主设备（领导者），这可能导致复制和数据分歧问题。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 BothMaster >= 5 分钟	False
Selfmond: 主动更换设备	PAS HSA 全国民主委员会	SNMP 轮询器	在配置的持续时间内检测到活动设备发生变化，表明可能发生故障切换或接管事件。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急 ActiveAppliance 已在 5 分钟内更改	False
Selfmond: 配置 Db 复制落后太多	PAS HSA 全国民主委员会	SNMP 轮询器	配置数据库复制对于正常操作而言落后太多。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 SecondsBehindMaster > 5 分钟内 300 秒	False
Selfmond：数据 DB 复制滞后	PAS HSA 全国民主委员会	SNMP 轮询器	数据库复制过度滞后，可能会影响群集运行和数据请求的准确性。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 SecondsBehindMaster > 5 分钟内 300 秒	False
Selfmond：根挂载点现在只读	PAS HSA 全国民主委员会	SNMP 轮询器	根挂载点为只读。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 dataMountPoint = 2（超过 1 分钟	False
Selfmond：数据挂载点现在是只读的	PAS HSA 全国民主委员会	SNMP 轮询器	Data 挂载点为只读。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 dataMountPoint = 2（超过 1 分钟	False
Selfmond：iodrive 挂载点现在只读	PAS HSA 全国民主委员会	SNMP 轮询器	iodrive 挂载点为只读。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急平均 iodriveMountPoint = 2，超过 1 分钟	False
Selfmond: 无轮询的指标	PAS HSA 全国民主委员会	SNMP 轮询器	在上次轮询间隔期间，每秒轮询的指标等于 0。这可能表明轮询过程或其连接设备的能力出现了问题。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急每秒轮询的指标在超过 5 分钟时等于 0	False
Selfmond: 报告邮件延迟发送	PAS HSA 全国民主委员会	SNMP 轮询器	报告邮件已运行超过 5 分钟。如果出现意外情况，建议排除故障。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急报告邮件在应发送 300 秒后掉落	False
自杏仁：配置的应用程序接口密钥已过期	PAS HSA 全国民主委员会	SNMP 轮询器	配置中存在过期密钥（加密和非加密）。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急当过期加密密钥数量大于 0 超过 1 分钟时	False	在任何同级上的 NMS 控制台中，输入到 NMS 容器中。为 CRYPTO_KEYS 执行以下命令。 `podman exec -it nms-nms-nms /bin/bash SevOne-act activate-crypto-permissions --uid <USER ID>` 其中，<用户 ID> 是使用过期加密密钥的用户。按照以下步骤操作非 CCRYPTO_KEYS（不包括SYSTEM_API_KEY和分布式 API 密钥）。使用端点GET/api/v2/users/api-keys 读取 API 密钥详情。使用终端删除/api/v2/users/api-keys/{apiKey删除过期的 API 密钥	加密密钥用于解密通过 REST API 获取的敏感信息，并通过 SevOne-act activate-crypto-permissions 在 NMS 控制台中生成。
Selfmond：SevOne-netflowd 被延迟了	PAS HSA 全国民主委员会	SNMP 轮询器	SevOne-netflowd被延迟。这可能会干扰 NetFlow 数据收集。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急超过 10 分钟超过 1 分钟。	False
Selfmond：SevOne-ffupdater延迟运行	PAS HSA 全国民主委员会	SNMP 轮询器	SevOne-ffupdater被延迟。这可能会导致汇总 NetFlow 数据的延迟提供。对象类型: SevOne 进程 (Linux (Net-SNMP)) 严重性: 紧急大于 90 分钟，持续时间超过 1 分钟。	False

自我监视快速入门指南

关于

先决条件

准备设备进行自我监测

将 SevOne 设备添加到设备管理器

创建对象规则

监测什么

CPU

磁盘

内存

已用内存

流程

进程轮询器

SNMP

热备用设备

接口

为自我监测做好准备

创建策略

创建阈值

警报

即时图表

建议的自我监督政策

建议的政策和门槛

故障诊断

启用自我监控后更改了 SevOneStats 密码。 现在不行了

启用自我监控后更改了 SevOneStats 密码。现在不行了