监控与警报 Cloud Pak for Data

重要提示:4.8IBM Cloud Pak® for Data 版本将于2025年7月31日达到支持终止(EOS)。 有关更多信息,请参阅 4.X 版本 IBM Cloud Pak for Data 的服务终止公告

升级至 IBM Software Hub 版本 5.1 ,在 4.8 版本达到支持 IBM Cloud Pak for Data 终止前完成升级。 有关更多信息,请参阅IBM Cloud Pak for Data 版本 4.8 升级到 IBM 的说明: Software Hub 版本 5.1。

您可以使用 IBM Cloud Pak for Data 监控和警报框架来监控平台的状态。 您可以根据自定义的阈值设置事件,以便在需要采取行动时收到提醒。

默认情况下, Cloud Pak for Data 该程序初始化为一个监控器,该监控器每十分钟运行一次。 诊断监视器记录部署状态、持久卷 StatefulSets声明。 它还会跟踪虚拟处理器 (vCPU) 和内存的系统使用情况。 收集的数据可用于分析并基于警报规则向生产环境中的客户发出警报。

警报框架

词汇表

首先,您应该理解以下术语:

事件
事件是对实体(如 Pod、持久卷声明 (PVC) 或其他资源)的状态的报告。
严重性
事件的严重性指示事件的重要程度。 事件的严重程度可分为: 关键警告信息。 每种事件类型都包含该事件的元数据,包括事件描述及解决步骤。
critical
受监控的资源不稳定。 如果此状态持续存在,需要尽快发出警报。
警告
受监控的资源已达到警告阈值。 可能不需要立即发出警报。
信息
受监控的资源表现符合预期。 仅为参考消息。
警报
警报是指示问题或潜在问题的事件。 警报可以使用陷阱 (SNMP) 或电子邮件 (SMTP) 来发送。 每种警报类型可以与不同的警报规则相关联。 例如,一种警报类型可以立即发出警报,或等待某个事件发生指定次数后,再由警报转发器发送警报。
限额
资源(如 vCPU 和内存)的配额是用于确定警报严重性的一种目标。 如果资源使用量超过配额,该事件将视为 critical。 如果资源使用量超过警报阈值定义的配额百分比,该事件将视为 warning
监视员
监视器是一种脚本,其用途是定期检查某个实体的状态并生成事件。 单个监视器可以注册不同用途的事件。 例如,随附的平台 Cloud Pak for Data 监控器会生成事件来检查持久卷声明、 StatefulSets和部署的状态。
看门狗警报管理器
看守程序警报管理器 (WAM) 会监视所有监视器以确保它们按调度运行。 WAM 还公开了一个 API,用于侦听监视器生成的事件。 这些事件在 Metastore 中持久存储,用于在满足警报规则时生成警报。 持久存储的事件还可以用于研究历史模式。 有关更多信息,请参阅警报 API
警报概要文件
警报概要文件定义了警报的设置。 缺省概要文件启用了 SMTP 和 SNMP。
警报转发器
警报转发器是负责发送警报和陷阱的服务。 看守程序警报管理器识别到可能的警报后,会调用警报转发器以将其转发到客户环境。

工作原理

警报框架流程图
  1. 看守程序警报管理器 cron 作业会在 zen_alert_monitor 扩展类型的各个扩展中迭代,并使用提供的元数据为监视器创建 cron 作业。 它将产品度量用作输入并更新 Metastore 中的策略。
  2. 定时任务通过API v1/monitoring/events 报告事件。
  3. 事件存储在 Metastore 数据库中。 例如:
    Monitor_type Event_type Reference Alerted_time 元数据 严重性 历史记录
    诊断 check-pvc-status zen-metastore-edb-1 NOT_ALERTED {Metadata about the resource} 信息
    {
    “time”:”critical/warning/info”,
    }
    诊断 check-quota-status IBM® Knowledge Catalog 08-23-2020:05:03:00 {Metadata about the resource} critical
    {
    “time”:”critical/warning/info”,
    }

    如果相同的 monitorevent_typereference 报告了其他事件,该记录会使用最新元数据进行更新,并且会在历史记录列中写入事件严重性和所报告时间的叙述。

  4. 平台监控程序每10分钟运行一次,检查PVC和Pod的状态。
  5. 警报 cron 作业每 10 分钟运行一次,以使用配额和阈值检查可能的警报来确定警报的严重性。 看守程序监视器 cron 作业会遍历 Metastore 数据库中的所有事件,并检查严重性为紧急警告的事件。 根据满足警报条件所需的计数(由针对 alert_type 和对应严重性设置的规则进行定义),警报会直接发送或推迟到满足条件为止。
  6. 管理员可以更改配额、阈值以及在达到配额时您希望对系统具备的灵活程度。 这些更改会立即回馈到警报框架中。 有关更多信息,请参阅 《平台监控》

了解更多