SNMP响应代码

若您向 SNMP 服务器发送警报,可使用以下信息来解读由该服务器发送的 IBM® Software Hub响应代码。

您可以通过平台监控、服务监控和特权监控来监控系统 IBM Software Hub 状态及各项服务。 平台监控程序会在您安装时自动 IBM Software Hub安装。 您必须手动安装服务监视器和特权监视器。

Deployment 状态检查代码

监视器类型: 平台

每个服务都配置为维护特定数量的 Deployment 副本。 该 check-deployment-status 事件监控与之关联的 Deployment 副本状态, IBM Software Hub 并报告任何问题。

响应代码 严重性 描述
102 严重 该服务没有足够的副本。
1 信息 检查副本状态的监控程序已运行。 没有需要报告的问题。

StatefulSet 状态检查代码

监视器类型: 平台

每个服务都配置为维护特定数量的 StatefulSet 副本。 该 check-statefulset-status 事件监控与之关联的 StatefulSet 副本状态, IBM Software Hub 并报告任何问题。

响应代码 严重性 描述
202 严重 该服务没有足够的副本。
200 信息 检查副本状态的监控程序已运行。 没有需要报告的问题。

PVC状态检查代码

监视器类型: 平台

持久卷声明(PVC)是一种存储请求,需满足特定条件,例如最小容量或特定访问模式。 该 check-pvc-status 事件监控与之关联的永久性连接 IBM Software Hub (PVC)的状态,并报告任何问题。

响应代码 严重性 描述
302 严重 PVC未关联存储卷,这意味着该服务无法存储数据。
300 信息 监测PVC状态的监视器运行了。 没有需要报告的问题。

配额状态检查代码

监视器类型: 平台

管理员为服务或平台设置 vCPU 配额和内存配额。 该 check-quota-status 事件监控与之关联的配额和请求, IBM Software Hub 以确定服务是否具备足够资源来满足请求。

响应代码 严重性 描述
402 严重 该服务资源不足,无法满足请求。 如果新建的 Pod 会导致服务超过内存配额或配额 vCPU 限制,则该服务无法创建新的 Pod。 这些容器将保持待处理状态,直至有足够的资源可用。
401 警告 检查配额设置和集群上的可用资源。
400 信息 检查配额状态的监控程序已运行。 没有需要报告的问题。

监控状态检查代码

监视器类型: 平台

监视器是一种脚本,它定期检查实体的状态,并根据实体的状态生成事件。 该 check-monitor-status 事件监控监视作业的状态,以确定作业是否成功完成。

响应代码 严重性 描述
502 严重 一个或多个作业未成功完成。
500 信息 检查监控任务状态的监控程序已运行。 没有需要报告的问题。

服务检查状态代码

监视器类型: 平台

服务由 pod 和一个或多个服务实例组成。 该 check-service-status 事件监控服务状态,以确定与该服务关联的Pod和实例是否按预期运行。

响应代码 严重性 描述
602 严重 服务实例处于失败状态,或 Pod 处于失败或未知状态。
601 警告 检查服务状态。 与该服务关联的Pod可能处于挂起状态。
600 信息 检查每个服务状态的监控程序运行了。 没有需要报告的问题。

服务实例检查状态码

监视器类型: 平台

服务实例由一个或多个Pod组成。 该 check-instance-status 事件监控服务实例的状态,以确定与该实例关联的Pod是否按预期运行。

响应代码 严重性 描述
702 严重 与该实例关联的一个或多个Pod处于失败或未知状态。
701 警告 检查实例的状态。 与该实例关联的某个Pod可能处于待处理状态。
700 信息 检查每个实例状态的监控程序已运行。 没有需要报告的问题。

服务健康检查代码

监控类型: 服务

service-health-check 事件监控服务的功能健康状况,以确定该服务是否正常运行

响应代码 严重性 描述
802 严重 该服务运行异常或完全无法运行。
801 警告 该服务部分运行,但某些功能不可用。
800 信息 该服务运行良好。

节点状态检查代码

监控类型: 特权

每个节点都托管着运行平台和服务的Pod,而整个集群的健康状况取决于其节点的健康状态。 该 check-network-status 事件通过监控节点状态和使用统计数据,来监测所有集群节点的健康状况和运行状态。 关键状态表示一个或多个节点未处于正常 Ready 状态,或正在消耗过多资源。

响应代码 严重性 描述
902 严重 一个或多个节点尚未就绪,或正在过度占用资源。
901 警告 检测到节点健康警告状态。
900 信息 所有节点均运行正常。

音量状态检查代码

监控类型: 特权

持久卷声明(PVC)是一种存储请求。 该 check-volume-status 事件监控与部署相关的永久连接通道是否即将耗尽空间。 警告或危急状态表明卷使用量已超过配置的阈值。

响应代码 严重性 描述
1002 严重 卷使用量超过临界阈值。 (默认阈值为总容量的90%。)
1001 警告 卷使用量超过警告阈值。 (默认阈值为总容量的80%。)
1000 信息 体积使用量处于正常范围内。

操作符命名空间状态检查代码

监控类型: 特权

check-operator-namespace-status 事件检查部署所用操作员项目中的资源是否健康。

响应代码 严重性 描述
1102 严重 一个或多个操作员资源未按预期运行。
1101 警告 在操作员命名空间资源中检测到警告状态。
1100 信息 所有操作员资源均运行正常。

EDB集群状态检查代码

监控类型: 特权

check-edb-cluster-status 事件检查与部署关联的 EDB Postgres 任何实例是否处于健康状态。

响应代码 严重性 描述
1203 严重 集群状态不健康,或副本严重不同步。
限制: 副本不同步检查仅适用于存储 zen-metastore-edb 集群。
1201 警告 一个或多个副本不可用。
1200 信息 EDB集群运行正常。

集群操作员状态检查代码

监控类型: 特权

check-cluster-operator-status 事件检查构成基础设施 Red Hat® OpenShift® Container Platform 的集群操作员的状态,以确定:

  • 所有操作符都是 AVAILABLE
  • 任何运算符都是 DEGRADED
响应代码 严重性 描述
1302 严重 集群操作员不可用(Available=False)或降级(Degraded=True)。
1301 警告 集群操作员存在警告状态。
1300 信息 集群操作员状态良好

节点不平衡状态检查代码

监控类型: 特权

check-node-imbalance-status 事件检查 vCPU 请求是否在节点间均衡分配,还是某个节点承担了不成比例的高负载。

警告状态表示某个节点的CPU请求超过最大阈值,而其他节点的CPU请求低于最小阈值。 关键状态表明CPU负载失衡超过了预设阈值。

响应代码 严重性 描述
1402 严重 节点CPU负载失衡超过设定阈值。
1401 警告 检测到CPU使用率不平衡。
1400 信息 跨节点的CPU请求得到均衡分配。

网络状态检查代码

监控类型: 特权

check-network-status 事件检查集群资源对象 PodNetworkConnectivityCheck 的状态,以确定这些对象是否处于活动状态 Reachable

响应代码 严重性 描述
1502 严重 网络不可达。
1501 警告 检测到网络连接警告。
1500 信息 网络连接状态良好。

证书状态检查代码

监视器类型: 平台

check-certificate-status 事件监控证书以:
  • 确保证书有效
  • 确定证书的到期时间
  • 确定证书何时将被续期
  • 确定证书是否已成功续期

对于没有续期日期的证书,当证书临近到期日时将触发警告事件和危急事件。

对于设有续期日期的证书,若证书未能在指定日期前自动续期,系统将触发警告事件和严重事件。

响应代码 严重性 描述
1602 严重 证书即将过期(默认:7天)或续期严重逾期(默认:24小时)。
1601 警告 证书即将过期(默认:21天)或续期已略微逾期(默认:1小时)。
1600 信息 证书有效且不会近期过期。

证书续期验证码

监视器类型: 平台

check-certificate-renewal 事件监控即将到期的证书续期,以便您识别可能导致服务中断的续期操作。

响应代码 严重性 描述
1701 警告 证书即将到期(默认:到期前3天)。
1700 信息 没有待处理的证书续期事件。

工作负载配额状态检查代码

监视器类型: 平台

check-workload-quota-status 事件监控与下列对象相关的配额和请求:
  • 项目
  • 远程物理位置
  • 数据平面

该事件决定与对象相关的工作负载是否拥有足够资源来满足请求。

响应代码 严重性 描述
1802 严重 工作负载的CPU、内存或GPU资源不足。
1801 警告 检测到工作负载配额警告。
1800 年 信息 工作负载配额充足。