监视平台

IBM Cloud Pak for Data Web 客户机中,您可以监视在平台上运行的服务,了解如何使用集群资源,并在出现问题时了解这些问题。 您还可以在平台,单个服务和项目上设置配额,以帮助缓解资源使用中的意外峰值。

访问 " 监视 " 页面

必需许可权:
要访问监视页面,您必须具有下列其中一个许可权:
  • 管理平台
  • 管理平台运行状况
  • 查看平台运行状况
要访问 " 监视 " 页面,请执行以下操作:
  1. 登录到 Cloud Pak for Data Web 客户机。
  2. 从导航菜单中,选择 管理 > 监视
从 " 监视 " 页面中,可以执行下列操作:
  • 查看平台的当前资源使用情况(vCPU 和内存)

    如果单击 平台资源概述 卡上的 查看状态并使用数据 箭头,那么可以按服务,服务实例,工具运行时,数据平面,物理位置, pod 和项目查看细目。

  • 查看过去 12 小时的平台资源使用情况

    如果单击 平台资源使用情况 卡上的 查看历史数据 箭头,那么可以按服务,服务实例,工具运行时,数据平面,物理位置, pod 和项目查看细目。 您还可以查看 12 小时之前的历史数据。 缺省情况下,平台存储最多 30 天的数据。 但是,您可以调整保留数据的时间长度。 有关详细信息,请参阅 更改 IBM Cloud Pak for Data 监控数据的保留期限

    平台资源使用信息包括来自物理位置的 Pod (如果存在与 Cloud Pak for Data 实例相关联的物理位置)。

  • 访问概览平台监视
  • 查看事件和警报
  • 配置和实施配额

概览平台监视

从 " 监视 " 页面上的 状态摘要 列中,您可以查看平台上以下项的状态:
可用卡 状态信息 获取更详细的信息
服务

服务是安装在平台上的软件。 服务会在日常操作过程中使用资源。

从 " 监视 " 页面,您可以看到:
  • 平台上安装的服务数
  • 具有以下任何一项的服务的数量:
    • 处于失败状态的服务实例
    • 处于失败或未知状态的 pod
  • 具有以下任何一项的服务的数量:
    • 处于暂挂状态的服务实例
    • 处于暂挂状态的 pod
单击服务卡以查看:
  • 所有服务的历史 vCPU 和内存使用情况

    您可以选择过滤图形以显示单个服务。

  • 每个服务的状态(或运行状况)
  • 与服务关联的服务实例、环境和作业的数量(如果适用)
  • vCPU 配额状态和内存配额状态(如果已设置)
您可以选择配置该表以显示:
  • 当前 vCPU 使用情况、请求和限制
  • 当前内存使用情况、请求和限制
您可以选择服务以查看:
  • 服务的历史 vCPU 和内存使用情况
  • 与服务相关联的 pod
  • 具有最高 vCPU 的 pod 和用于服务的内存
  • 服务的 vCPU 和内存配额 (如果已设置)
服务实例

一些服务可以在安装后部署多次。 每个部署称为一个服务实例

服务实例会在正常操作过程中使用资源。

从 " 监视 " 页面,您可以看到:
  • 平台上部署的服务实例数
  • 符合下列任一条件的服务实例的数量:
    • 实例处于失败状态
    • pod 处于失败或未知状态
  • 符合下列任一条件的服务实例的数量:
    • 实例处于未知状态
    • pod 处于暂挂状态
单击服务实例卡以查看:
  • 所有服务实例的历史 vCPU 和内存使用情况

    您可以选择过滤图形以显示单个实例

  • 每个服务实例的状态(或运行状况)
  • 与服务实例相关联的服务
  • 实例的配置者以及配置时间
  • 有权访问服务实例的用户数
  • 与服务实例相关联的 pod 数
您可以选择配置该表以显示:
  • 当前 vCPU 使用情况、请求和限制
  • 当前内存使用情况、请求和限制
您可以选择服务以查看:
  • 服务实例的历史 vCPU 和内存使用情况
  • 与服务实例关联的 pod
您可以单击服务实例的 选项 图标 ("选项" 图标的图像。) 以执行以下操作:
  • 管理对实例的访问权
  • 删除该实例
但是,要完成以上任一任务,您必须是服务实例的管理员,或者您必须具有管理平台许可权。
工具运行时

运行时环境 指定分析资产和作业的环境的硬件和软件配置。 环境会在日常操作过程中使用资源。

缺省情况下,此卡不会显示在平台上。 仅当您安装了使用环境的服务时,才会显示该卡。

从 " 监视 " 页面,您可以看到:
  • 平台上正在运行的环境数
  • 至少一个 pod 处于故障状态的环境数
单击 工具运行时 卡以查看:
  • 每个环境的状态(或运行状况)
  • 环境的启动者及启动时间
  • 运行环境的项目或部署空间
  • GPU 请求数量
  • 环境的当前资源使用情况

您可以选择环境以查看与其关联的 pod。

您可以选择单击 停止运行时实例 图标 ("停止运行时实例" 图标的图像) 以停止环境。

Pod

服务由 Kubernetes pod组成。

如果 Pod 失败或未知,可能会影响服务的运行状况。 如果 Pod 暂挂,那么在该 Pod 开始运行之前,服务可能无法处理特定请求。

从 " 监视 " 页面,您可以看到:
  • 与平台相关联的 pod 数
  • 处于失败或未知状态的 pod 数
  • 处于暂挂状态的 pod 数
    Kubernetes 正在尝试创建和调度这些 pod。 在以下情况下,pod 可能保持暂挂状态:
    • Kubernetes 正在等待进程完成或没有足够的资源来满足 pod 请求
    • 平台或服务配额设置导致无法创建新 pod
提示: 此卡上的数据每10分钟更新一次。 如果您需要有关您环境中的Pod的更多最新信息,请点击 Pod卡片查看当前状态和使用数据。
单击 Pod 卡以查看:
  • 每个 pod 的状态(或运行状况)
  • 处于就绪状态的容器数(与为 pod 定义的容器数相比)
  • pod 的关联服务
  • Pod 是否与固定资源,服务实例,作业或环境相关联
  • pod 的功能或应用程序
  • pod 的关联服务实例
  • pod 的启动时间
  • pod 的重新启动次数
您可以选择配置该表以显示:
  • 运行 pod 的 Red Hat® OpenShift® 项目 (名称空间)
  • pod 的关联环境、作业、项目或部署空间
  • 当前 vCPU 使用情况、请求和限制
  • 当前内存使用情况、请求和限制
您可以点击选项图标"选项" 图标的图像。 )进入以下页面:
  • 查看 Pod 的详细信息
  • 查看 Pod 日志
  • 重新启动 Pod
数据平面

数据平面 是一个或多个物理位置的逻辑分组。 您可以将工作负载部署到数据平面。 将在与该数据平面关联的其中一个物理位置中调度工作负载。

从 " 监视 " 页面,您可以看到:
  • 平台上当前有多少数据平面
单击 数据平面 卡以查看:
  • 每个数据平面的当前 vCPU 使用情况和请求
  • 每个数据平面的当前内存使用情况和请求
您可以选择要查看的数据平面:
  • 数据平面的历史 vCPU 和内存使用情况
  • 与数据平面关联的 pod
项目

项目 是协作工作空间,您可以在其中使用数据和其他资产来实现特定目标。

缺省情况下,此卡不会显示在平台上。 仅当您安装使用 Cloud Pak for Data common core services的服务时,才会显示此参数。

从 " 监视 " 页面,您可以看到:
  • 平台上目前有多少个项目
单击 项目 卡以查看:
  • 每个项目的当前 vCPU 使用情况和请求
  • 每个项目的当前内存使用情况和请求
您可以选择配置该表以显示:
  • 当前 vCPU 限制
  • 当前内存限制
您可以选择要查看的项目:
  • 项目合作者
  • 项目的历史 vCPU 和内存使用情况
  • 与项目关联的 pod
物理位置

远程物理位置 正在处理远程集群上的基础结构。 设置远程物理位置时,请在远程集群上安装 Cloud Pak for Data 代理程序。

设置远程物理位置后,可以向要展开的 Cloud Pak for Data 实例注册该物理位置。 然后,可以将物理位置添加到数据平面。 您可以选择将同一远程物理位置添加到多个数据平面。

从 " 监视 " 页面,您可以看到:
  • 向平台注册的物理位置数
单击 物理位置 卡以查看:
  • 每个物理位置的当前 vCPU 使用情况和请求
  • 当前内存使用情况以及每个物理位置的请求
您可以选择要查看的物理位置:
  • 物理位置的历史 vCPU 和内存使用情况
  • 与物理位置关联的 pod

事件和警报

警报由一个事件或一系列事件触发。 事件的严重性指示发生问题或存在潜在问题。

监视页面中,您可以看到:
  • 严重警报的编号
  • 警告警报的数量

如果单击其中任何条目,那么系统会根据您选择的条目生成警报或事件的过滤列表。

如果单击 警报 卡上的 查看所有事件和警报 箭头,那么可以完整的事件列表。

您可以选择定制触发警报的事件。 详情请参阅 Cloud Pak for Data 中的监控和警报

设置和实施配额

配额 是一种用于指定您希望平台,特定服务或项目使用的最大内存量和 vCPU 的方法。 配额是您可以据以测量实际内存和 vCPU 使用的目标。 配额充当基准,让您知道 vCPU 或内存使用何时接近或超过目标使用。

注意: 设定配额与按比例分配不同。

扩展可通过调整服务中的 Pod 数来影响服务的总体容量。 (您还可以缩放 Cloud Pak for Data control plane。) 扩展服务后,服务会变得更有弹性。 此外,服务可能会提高并行处理容量。

对服务设置配额不会更改规模。 规模和配额是独立的设置。

除了设置配额外,您还可以选择启用配额实施。 强制实施配额时,如果 pod 会将资源使用情况推送到配额之上,那么无法创建新的 pod。

配额实施功能的行为取决于您是在 Pod 请求还是限制上设置配额。 (有关请求和限制的深入解释,请参阅 Kubernetes 文档中的容器资源管理。)

对 Pod 请求实施配额
请求是 Pod 在其正常操作期间期望使用的 vCPU 或内存数量。
对 Pod 请求设置配额时,分配资源的方式较为灵活:
  • 如果强制实施平台配额,那么如果新 pod 中的请求将通过平台内存配额或 vCPU 配额推送平台,那么将阻止控制平面以及在此 Cloud Pak for Data 实例上运行的任何服务创建新的 pod。 这些 Pod 会保持处于暂挂状态,直至有足够的可用资源为止。 但是,现有的 Pod 所使用的内存或 vCPU 数量可以超出平台配额。
  • 如果实施服务配额,那么当新 Pod 中的请求会导致该服务超出内存配额或 vCPU 配额时,该服务就无法创建新的 Pod。 这些 Pod 会保持处于暂挂状态,直至有足够的可用资源为止。 但是,现有的 Pod 所使用的内存或 vCPU 数量可以超出服务配额。
  • 如果强制实施项目配额,那么如果新 pod 中的请求会将项目推送到内存配额或 vCPU 配额上,那么将阻止项目创建新 pod。 在有足够的可用资源之前, pod 将保持处于 pending 状态。 但是,现有 pod 可以使用比项目配额更多的内存或 vCPU 。
对 Pod 限制实施配额
限制是 Pod 所能够使用的 vCPU 或内存的绝对最大数量。 如果该 Pod 尝试使用更多资源,那么它就会终止。 在大多数情况下,所请求的资源(请求)少于限制。
对 Pod 限制设置配额时,您对资源有更大的控制权:
  • 如果强制实施平台配额,那么如果新 pod 中的限制会将平台推送到平台内存配额或 vCPU 配额,那么将阻止控制平面以及在此 Cloud Pak for Data 实例上运行的任何服务创建新的 pod。 这些 Pod 会保持处于暂挂状态,直至有足够的可用资源为止。 对 Pod 限制实施平台配额时,该配额是现有的 Pod 所能够使用的资源总量上限。
  • 如果强制实施服务配额,那么如果新 pod 中的限制会将服务推送到内存配额或 vCPU 配额上,那么将阻止该服务创建新 pod。 这些 Pod 会保持处于暂挂状态,直至有足够的可用资源为止。 对 Pod 限制实施服务配额时,该配额是现有的 Pod 所能够使用的资源总量上限。
  • 如果强制实施项目配额,那么如果新 pod 中的限制会将项目推送到内存配额或 vCPU 配额上,那么将阻止项目创建新的 pod。 这些 pod 将保留在 pending 统计信息中,直到有足够的可用资源为止。 在对 pod 限制强制实施项目配额时,配额是现有 pod 可以使用的总资源的上限。

如果不实施配额,那么配额对平台或服务的行为没有影响。 接近或超过配额设置时,由您决定是要允许进程使用资源,还是要停止进程以释放资源。

设置平台配额

注: 与平台配额一起显示的内存和 vCPU 请求和限制包括来自物理位置的 pod (如果物理位置与 Cloud Pak for Data 实例相关联)。 但是,平台配额实施仅适用于 Cloud Pak for Data 实例的主数据中心上的 pod。

设置平台配额:

  1. “监控”页面中,点击 “平台配额”卡上的 “编辑平台配额 ”图标("编辑" 图标的图像 )。
  2. 选择针对目标使用监视平台资源使用
  3. 指定是否要针对 Pod 请求限制设置配额。
  4. 指定您的 vCPU 配额。 这是您希望平台使用的 vCPU 的目标最大数量。
  5. 指定您的 vCPU 警报阈值。 当您达到 vCPU 使用量的指定百分比时,平台将根据您的提醒设置向您发出提醒
  6. 指定 内存配额。 这是您希望平台使用的内存的目标最大数量。
  7. 指定您的内存警报阈值。 当您达到正在使用的内存的指定百分比时,平台会向您发出警报。
  8. 如果要自动实施平台配额设置,请选择实施配额
  9. 单击保存

设置服务配额

注: 随服务配额一起显示的内存和 vCPU 请求和限制包括来自物理位置的 pod (如果物理位置与 Cloud Pak for Data 实例相关联)。 但是,服务配额实施仅适用于该服务的中心上的 pod。

要设置服务配额:

  1. 在 " 监视 " 页面上,单击 配额 卡上的 服务
  2. 找到您想要编辑配额的服务,点击编辑图标"编辑" 图标的图像 )。
  3. 选择 针对目标使用情况监视服务资源使用情况
  4. 指定是否要针对 Pod 请求限制设置配额。
  5. 指定您的 vCPU 配额。 这是您希望服务使用的 vCPU 的目标最大数量。
  6. 指定您的 vCPU 警报阈值。 当您达到 vCPU 使用量的指定百分比时,平台将根据您的提醒设置向您发出提醒
  7. 指定 内存配额。 这是您希望服务使用的内存的目标最大数量。
  8. 指定您的内存警报阈值。 当您达到正在使用的内存的指定百分比时,平台会向您发出警报。
  9. 如果要自动强制实施服务配额设置,请选择 强制实施配额
  10. 单击保存

设置项目配额

要设置项目配额:

  1. 在 " 监视 " 页面上,单击 配额 卡上的 项目
  2. 找到您要编辑配额的项目,点击编辑图标"编辑" 图标的图像 )。
  3. 选择 针对目标使用情况监视项目资源使用情况
  4. 指定是否要针对 Pod 请求限制设置配额。
  5. 指定您的 vCPU 配额。 这是您希望项目使用的 vCPU 的最大目标量。
  6. 指定您的 vCPU 警报阈值。 当您达到 vCPU 使用量的指定百分比时,平台将根据您的提醒设置向您发出提醒
  7. 指定 内存配额。 这是您希望项目使用的目标最大内存量。
  8. 指定您的内存警报阈值。 当您达到正在使用的内存的指定百分比时,平台会向您发出警报。
  9. 如果要自动实施项目配额设置,请选择 强制实施配额
  10. 单击保存

设置数据平面配额

要设置数据平面配额:

  1. 在 " 监视 " 页面上,单击 配额 卡上的 数据平面
  2. 找到您要编辑配额的数据平面,然后点击编辑图标"编辑" 图标的图像 )。
  3. 选择 针对目标使用情况监视数据平面资源使用情况
  4. 指定是否要针对 Pod 请求限制设置配额。
  5. 指定您的 vCPU 配额。 这是您希望数据平面使用的 vCPU 的最大目标量。
  6. 指定您的 vCPU 警报阈值。 当您达到 vCPU 使用量的指定百分比时,平台将根据您的提醒设置向您发出提醒
  7. 指定 内存配额。 这是您希望数据平面使用的目标最大内存量。
  8. 指定您的内存警报阈值。 当您达到正在使用的内存的指定百分比时,平台会向您发出警报。
  9. 单击保存

设置物理位置配额

要设置物理位置配额:

  1. 在 " 监视 " 页面上,单击 配额 卡上的 物理位置
  2. 找到您要编辑配额的物理位置,然后点击编辑图标"编辑" 图标的图像 )。
  3. 选择 针对您的目标用途监视物理位置资源使用情况
  4. 指定是否要针对 Pod 请求限制设置配额。
  5. 指定您的 vCPU 配额。 这是您希望物理位置使用的 vCPU 的最大目标量。
  6. 指定您的 vCPU 警报阈值。 当您达到 vCPU 使用量的指定百分比时,平台将根据您的提醒设置向您发出提醒
  7. 指定 内存配额。 这是您希望物理位置使用的目标最大内存量。
  8. 指定您的内存警报阈值。 当您达到正在使用的内存的指定百分比时,平台会向您发出警报。
  9. 单击保存