SNMP响应代码
若您向 SNMP 服务器发送警报,可使用以下信息来解读由该服务器发送的 IBM® Software Hub响应代码。
您可以通过平台监控、服务监控和特权监控来监控系统 IBM Software Hub 状态及各项服务。 平台监控程序会在您安装时自动 IBM Software Hub安装。 您必须手动安装服务监视器和特权监视器。
Deployment 状态检查代码
监视器类型: 平台
每个服务都配置为维护特定数量的 Deployment 副本。 该 check-deployment-status 事件监控与之关联的 Deployment 副本状态, IBM Software Hub 并报告任何问题。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 102 | 严重 | 该服务没有足够的副本。 |
| 1 | 信息 | 检查副本状态的监控程序已运行。 没有需要报告的问题。 |
StatefulSet 状态检查代码
监视器类型: 平台
每个服务都配置为维护特定数量的 StatefulSet 副本。 该 check-statefulset-status 事件监控与之关联的 StatefulSet 副本状态, IBM Software Hub 并报告任何问题。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 202 | 严重 | 该服务没有足够的副本。 |
| 200 | 信息 | 检查副本状态的监控程序已运行。 没有需要报告的问题。 |
PVC状态检查代码
监视器类型: 平台
持久卷声明(PVC)是一种存储请求,需满足特定条件,例如最小容量或特定访问模式。 该 check-pvc-status 事件监控与之关联的永久性连接 IBM Software Hub (PVC)的状态,并报告任何问题。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 302 | 严重 | PVC未关联存储卷,这意味着该服务无法存储数据。 |
| 300 | 信息 | 监测PVC状态的监视器运行了。 没有需要报告的问题。 |
配额状态检查代码
监视器类型: 平台
管理员为服务或平台设置 vCPU 配额和内存配额。 该 check-quota-status 事件监控与之关联的配额和请求, IBM Software Hub 以确定服务是否具备足够资源来满足请求。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 402 | 严重 | 该服务资源不足,无法满足请求。 如果新建的 Pod 会导致服务超过内存配额或配额 vCPU 限制,则该服务无法创建新的 Pod。 这些容器将保持待处理状态,直至有足够的资源可用。 |
| 401 | 警告 | 检查配额设置和集群上的可用资源。 |
| 400 | 信息 | 检查配额状态的监控程序已运行。 没有需要报告的问题。 |
监控状态检查代码
监视器类型: 平台
监视器是一种脚本,它定期检查实体的状态,并根据实体的状态生成事件。 该 check-monitor-status 事件监控监视作业的状态,以确定作业是否成功完成。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 502 | 严重 | 一个或多个作业未成功完成。 |
| 500 | 信息 | 检查监控任务状态的监控程序已运行。 没有需要报告的问题。 |
服务检查状态代码
监视器类型: 平台
服务由 pod 和一个或多个服务实例组成。 该 check-service-status 事件监控服务状态,以确定与该服务关联的Pod和实例是否按预期运行。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 602 | 严重 | 服务实例处于失败状态,或 Pod 处于失败或未知状态。 |
| 601 | 警告 | 检查服务状态。 与该服务关联的Pod可能处于挂起状态。 |
| 600 | 信息 | 检查每个服务状态的监控程序运行了。 没有需要报告的问题。 |
服务实例检查状态码
监视器类型: 平台
服务实例由一个或多个Pod组成。 该 check-instance-status 事件监控服务实例的状态,以确定与该实例关联的Pod是否按预期运行。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 702 | 严重 | 与该实例关联的一个或多个Pod处于失败或未知状态。 |
| 701 | 警告 | 检查实例的状态。 与该实例关联的某个Pod可能处于待处理状态。 |
| 700 | 信息 | 检查每个实例状态的监控程序已运行。 没有需要报告的问题。 |
服务健康检查代码
监控类型: 服务
该 service-health-check 事件监控服务的功能健康状况,以确定该服务是否正常运行
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 802 | 严重 | 该服务运行异常或完全无法运行。 |
| 801 | 警告 | 该服务部分运行,但某些功能不可用。 |
| 800 | 信息 | 该服务运行良好。 |
节点状态检查代码
监控类型: 特权
每个节点都托管着运行平台和服务的Pod,而整个集群的健康状况取决于其节点的健康状态。 该 check-network-status 事件通过监控节点状态和使用统计数据,来监测所有集群节点的健康状况和运行状态。 关键状态表示一个或多个节点未处于正常 Ready 状态,或正在消耗过多资源。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 902 | 严重 | 一个或多个节点尚未就绪,或正在过度占用资源。 |
| 901 | 警告 | 检测到节点健康警告状态。 |
| 900 | 信息 | 所有节点均运行正常。 |
音量状态检查代码
监控类型: 特权
持久卷声明(PVC)是一种存储请求。 该 check-volume-status 事件监控与部署相关的永久连接通道是否即将耗尽空间。 警告或危急状态表明卷使用量已超过配置的阈值。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1002 | 严重 | 卷使用量超过临界阈值。 (默认阈值为总容量的90%。) |
| 1001 | 警告 | 卷使用量超过警告阈值。 (默认阈值为总容量的80%。) |
| 1000 | 信息 | 体积使用量处于正常范围内。 |
操作符命名空间状态检查代码
监控类型: 特权
该 check-operator-namespace-status 事件检查部署所用操作员项目中的资源是否健康。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1102 | 严重 | 一个或多个操作员资源未按预期运行。 |
| 1101 | 警告 | 在操作员命名空间资源中检测到警告状态。 |
| 1100 | 信息 | 所有操作员资源均运行正常。 |
EDB集群状态检查代码
监控类型: 特权
该 check-edb-cluster-status 事件检查与部署关联的 EDB Postgres 任何实例是否处于健康状态。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1203 | 严重 | 集群状态不健康,或副本严重不同步。 限制: 副本不同步检查仅适用于存储
zen-metastore-edb 集群。 |
| 1201 | 警告 | 一个或多个副本不可用。 |
| 1200 | 信息 | EDB集群运行正常。 |
集群操作员状态检查代码
监控类型: 特权
该 check-cluster-operator-status 事件检查构成基础设施 Red Hat®
OpenShift® Container Platform 的集群操作员的状态,以确定:
- 所有操作符都是
AVAILABLE - 任何运算符都是
DEGRADED
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1302 | 严重 | 集群操作员不可用(Available=False)或降级(Degraded=True)。 |
| 1301 | 警告 | 集群操作员存在警告状态。 |
| 1300 | 信息 | 集群操作员状态良好 |
节点不平衡状态检查代码
监控类型: 特权
该 check-node-imbalance-status 事件检查 vCPU 请求是否在节点间均衡分配,还是某个节点承担了不成比例的高负载。
警告状态表示某个节点的CPU请求超过最大阈值,而其他节点的CPU请求低于最小阈值。 关键状态表明CPU负载失衡超过了预设阈值。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1402 | 严重 | 节点CPU负载失衡超过设定阈值。 |
| 1401 | 警告 | 检测到CPU使用率不平衡。 |
| 1400 | 信息 | 跨节点的CPU请求得到均衡分配。 |
网络状态检查代码
监控类型: 特权
该 check-network-status 事件检查集群资源对象 PodNetworkConnectivityCheck 的状态,以确定这些对象是否处于活动状态 Reachable。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1502 | 严重 | 网络不可达。 |
| 1501 | 警告 | 检测到网络连接警告。 |
| 1500 | 信息 | 网络连接状态良好。 |
证书状态检查代码
监视器类型: 平台
check-certificate-status 事件监控证书以:- 确保证书有效
- 确定证书的到期时间
- 确定证书何时将被续期
- 确定证书是否已成功续期
对于没有续期日期的证书,当证书临近到期日时将触发警告事件和危急事件。
对于设有续期日期的证书,若证书未能在指定日期前自动续期,系统将触发警告事件和严重事件。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1602 | 严重 | 证书即将过期(默认:7天)或续期严重逾期(默认:24小时)。 |
| 1601 | 警告 | 证书即将过期(默认:21天)或续期已略微逾期(默认:1小时)。 |
| 1600 | 信息 | 证书有效且不会近期过期。 |
证书续期验证码
监视器类型: 平台
该 check-certificate-renewal 事件监控即将到期的证书续期,以便您识别可能导致服务中断的续期操作。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1701 | 警告 | 证书即将到期(默认:到期前3天)。 |
| 1700 | 信息 | 没有待处理的证书续期事件。 |
工作负载配额状态检查代码
监视器类型: 平台
check-workload-quota-status 事件监控与下列对象相关的配额和请求:- 项目
- 远程物理位置
- 数据平面
该事件决定与对象相关的工作负载是否拥有足够资源来满足请求。
| 响应代码 | 严重性 | 描述 |
|---|---|---|
| 1802 | 严重 | 工作负载的CPU、内存或GPU资源不足。 |
| 1801 | 警告 | 检测到工作负载配额警告。 |
| 1800 年 | 信息 | 工作负载配额充足。 |