AWS 虚拟机的扩展操作

更改 VM 实例以使用其他实例类型或层来优化性能和成本。

控制AWS虚拟机的扩展操作

对于缩放操作,您可以创建策略来控制 Turbonomic 建议的缩放操作。 在这些策略中,从以下选项中进行选择:

  • 云全部扩展 - 执行所有扩展操作

  • 根据性能进行云扩展--只执行可提高性能的扩展操作

  • 云扩展以节省成本 - 只执行可降低成本的扩展行动

这些操作的缺省操作接受方式为 手动。 检查暂挂操作时,仅允许执行满足策略的操作。 所有其他操作都是只读的。

当出现政策冲突时,在大多数情况下, 所有云规模 会优先于其他两个缩放选项。 有关更多信息,请参阅 缺省和用户定义的自动化策略

AWS虚拟机扩展行动支持的实例类型

有关虚拟机支持的实例类型列表,请参阅支持的 AWS EC2 实例类型

您还可以通过 Turbonomic 用户界面查看支持的实例类型。

  1. 浏览至 设置> 策略

  2. 在 "策略管理 "页面中,搜索并打开 " 虚拟机默认设置"。

  3. 在编辑自动化策略页面:

    1. 扩展缩放限制

    2. 云实例类型部分,单击编辑

展开实例族可查看单个实例类型和分配给它们的资源。 实例族的一个例子是 a1

为确定虚拟机的最佳实例类型, Turbonomic 会在分析中考虑所有相关的实例类型。 不过,您可能已将某些虚拟机配置为只能扩展到某些实例类型,以降低复杂性和成本、提高折扣利用率或满足应用需求。 要限制对某些实例类型的扩展,请为受影响的虚拟机创建策略并配置包含或排除列表作为扩展限制。

规模行动的破坏性和可逆性

操作中心视图和操作详情页面中显示的所有缩放操作都是破坏性的,但可恢复。 这些操作需要停机,但虚拟机可以缩减到之前的层级或大小。

针对运行EC2GPU 实例类型的AWS虚拟机的扩展操作

目前,Turbonomic 支持以下 EC2 GPU 实例类型系列和 Linux AMI。

  • G3 (基于 Tesla GPU) NVIDIA M60
  • G4ad (基于 AMD Radeon Pro GPU) V520
  • G4dn (基于 GPU) NVIDIA T4
  • G5 (基于 Tensor Core GPU)。 NVIDIA A10G
  • G5g (基于 Tensor Core GPU)。 NVIDIA T4G
  • P2 (基于 Kepler GPU) NVIDIA K80
  • P3/P3dn (基于 Volta GPU) NVIDIA V100
  • P4d (基于 Tensor Core GPU)。 NVIDIA A100

Turbonomic 用户界面中,默认虚拟机策略会显示当前支持的 EC2 GPU 实例类型系列以及分配给它们的资源。 这些实例类型系列归入加速计算类别。 有关查看默认虚拟机策略的步骤,请参见上一节。

Turbonomic 为运行这些实例类型的虚拟机收集NVIDIA )GPU 指标,然后使用这些指标生成虚拟机扩展操作,以优化性能和成本。

注:

有关这些指标的更多信息,请参阅 NVIDIA 文档

指标 描述 操作
GPU 计数 正在使用的 GPU 卡数 缩减同一实例类型中的 GPU 卡数
GPU 内存 正在使用的 GPU 内存量 在同一实例类型中向上或向下扩展 GPU 内存
GPU 内存 BW (带宽)

将数据发送到设备内存或从设备内存接收数据的周期的分数 (以 GB/ 秒计)

向上或向下扩展 GPU 内存 BW

此操作将 VM 从其当前实例类型移至具有相同 (或更高) GPU 计数和 GPU 内存容量的另一实例类型。

GPU FP16 FP16 (半精度) 管道处于活动状态的周期的分数

向上或向下扩展 GPU FP16

此操作将 VM 从其当前实例类型移至具有相同 (或更高) GPU 计数和 GPU 内存容量的另一实例类型。

GPU FP32 FP32 (单精度) 管道处于活动状态的周期的分数

向上或向下扩展 GPU FP32

此操作将 VM 从其当前实例类型移至具有相同 (或更高) GPU 计数和 GPU 内存容量的另一实例类型。

GPU FP64 FP64 (双精度) 管道处于活动状态的周期的分数

向上或向下扩展 GPU FP64

此操作将 VM 从其当前实例类型移至具有相同 (或更高) GPU 计数和 GPU 内存容量的另一实例类型。

GPU 张量 Tensor (混合/多精度) 管道处于活动状态的周期的分数

向上或向下扩展 GPU 张量

此操作将 VM 从其当前实例类型移至具有相同 (或更高) GPU 计数和 GPU 内存容量的另一实例类型。

注:

对于带有加速卡的 GPU 虚拟机,当您将作用域设置为虚拟机并查看实体信息图表时,就可以获得 GPU 卡信息。 例如,加速器型号字段显示 GPU 型号。

要启用指标发现功能,请按照本主题所述配置 AWS CloudWatch 和 NVIDIA Data Center GPU Manager (DCGM)。

透平工程学 还可以向支持的 GPU 实例类型推荐可扩展 标准虚拟机资源 的操作(如 vCPU 和 vMem) 和 G4ad 实例系列(基于 AMD Radeon Pro V520 GPU)。

生成或执行缩放操作时, Turbonomic 会将以下策略和设置视为约束:

  • 只读层排除策略

    会自动创建这些策略,并在 "策略管理" 页面 (设置> 策略) 中显示这些策略。

    • 使用某些加速器类型的 AWS 虚拟机的自动生成策略

      这些策略可确保具有特定 GPU 类型的 AWS 虚拟机只能扩展到具有相同(或更高)GPU 卡数和每卡内存的实例类型。

      示例策略为 AWS GPU Nvidia - Cloud Compute Tier Exclusion Policy

    • 在支持 GPU 的系列中为 AWS 虚拟机自动生成策略

      这些策略可确保支持 GPU 的实例系列中的任何虚拟机不会扩展到不支持 GPU 的实例系列。

      示例策略为 Cloud Compute Tier AWS:gpu - Cloud Compute Tier Exclusion Policy

  • 缩放目标利用率

    将 GPU 资源的缩放目标利用率值与侵略性约束结合使用,以控制 VM 的缩放操作。 您可以在自动化策略中为云虚拟机配置利用率值。 有关更多信息,请参阅此 主题

  • 忽略 Nvidia GPU 计算能力约束

    该限制是一个设置,您可以选择在云虚拟机的自动化策略中打开。 开启后,可在 Turbonomic 中执行改变虚拟机 GPU 计算能力的扩展操作。 关闭后,操作只能在云提供商控制台(基于 Web 的用户界面或 CLI)中执行。 有关更多信息,请参阅此 主题

运行 EC2 Accelerator 实例类型的 AWS 虚拟机的扩展操作

涡轮机 可以建议将标准 VM 资源 (例如 vCPU 和 vMem) 扩展至以下 AWS EC2 Accelerator 实例类型的操作。

  • Inf1 (基于 Inferentia 芯片) AWS
  • Inf2 (基于 芯片) AWS Inferentia2

还会创建相应的只读层排除策略,并在 "策略管理" 页面 (设置> 策略) 中显示这些策略。

  • 为 Inferentia 实例系列中的虚拟机自动生成策略

    这些策略可确保 Inferentia 实例系列中的任何虚拟机不会扩展到具有相同加速器配置(卡数和每卡内存)的实例类型。 策略包括:

    • AWS ML_ACCELERATOR - Inferentia1 - Cloud Compute Tier Exclusion Policy

    • AWS ML_ACCELERATOR - Inferentia2 - Cloud Compute Tier Exclusion Policy

  • 为 inf 实例系列中的虚拟机自动生成策略

    这些策略可确保 inf 实例系列中的任何虚拟机不会扩展到其他实例系列。 策略包括:

    • Cloud Compute Tier AWS:inf1 - Cloud Compute Tier Exclusion Policy

    • Cloud Compute Tier AWS:inf2 - Cloud Compute Tier Exclusion Policy

缩减和暂停行动

资源利用不足的虚拟机可以暂停或缩减。 您可以在虚拟机策略中配置名为首选操作类型的操作约束,以选择 Turbonomic 生成的操作。

云虚拟机的首选操作类型

下表描述了 Turbonomic 如何根据您偏好的操作类型为未充分利用的虚拟机生成操作。

VM 状态

首选操作类型

生成的行动

虚拟机不在成本最低的实例类型上,且使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

缩减

暂挂

暂挂

虚拟机已使用成本最低的实例类型,使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

暂挂

暂挂

暂挂

对已关闭电源的虚拟机进行扩展操作

Turbonomic 可以为关闭电源的虚拟机(例如,在维护期间)推荐缩放操作。 如果您接受这些操作, Turbonomic 会在虚拟机关机时对其进行缩放,这样虚拟机一开机就会应用更改。

AWS 计费目标和规模行动

Turbonomic 使用通过 AWS 计费目标发现的历史计费数据,为虚拟机生成最佳扩展建议。

当虚拟机与 透平工程学 通过 AWS 计费目标监控的 AWS 账户相关联时,请注意以下有关虚拟机扩展操作的注意事项。

  • 将新虚拟机添加到账户后, Turbonomic 可能需要两天时间才能为虚拟机生成扩展操作,因为 AWS 不会立即将虚拟机添加到计费数据中。

  • 如果您的 AWS 计费目标使用传统的 CUR 导出发现计费数据,则包含企业折扣计划 (EDP) 折扣的成本不会反映在受影响虚拟机的缩放操作中。

如果您之前配置了数据导出(CUR 2.0 ),则需要编辑数据导出,并添加新的 line_item_net_unblended_cost 列。 这使 Turbonomic 能够发现EDP的折扣。 有关详细信息,请参阅设置标准数据导出 (CUR 2.0 ) 中的列选择
注意 :如果您修改现有的成本导出(CUR 2.0 )以添加所需的 line_item_net_unblended_cost 列,则VM操作中的当前按需费率最初会考虑本月EDP折扣。 但是,它可能不会回填前一个月的数据。 随着旧数据的替换,这种效果会逐渐消失。

某些 AWS 虚拟机的扩展前提条件

某些 AWS 实例要求以特定方式配置虚拟机,然后才能扩展到这些实例类型。 如果 Turbonomic 建议将未适当配置的 VM 缩放到其中一个实例上,那么它会将操作设置为 建议,并描述原因。 即使将该作用域的操作接受方式设置为 自动 也不会自动执行该操作。 在正确配置实例之后,可以手动执行该操作。

请注意,如果您有无法配置以支持这些需求的 VM ,那么可以设置策略以防止 Turbonomic 提出这些建议。 创建包含这些 VM 的组,然后为该作用域创建策略。 在策略中,通过配置云实例类型缩放约束来排除实例类型。 有关排除实例类型的信息,请参阅 云实例类型

Turbonomic 可识别的实例需求为:

  • 增强型网络适配器

    某些 VM 可以通过弹性网络适配器 (ENA) 在支持增强型联网的实例上运行,而其他 VM 可以在不提供此支持的实例上运行。 可以建议将不支持 ENA 的 VM 缩放到具有此功能的实例上。 但是,在执行缩放操作之前,必须在 VM 上启用 ENA。 如果将非 ENA VM 缩放到需要 ENA 的实例,那么 AWS 无法在缩放操作后启动 VM。

    有关 ENA 配置的信息,请访问此页面

  • Linux AMI 虚拟化类型

    Amazon Linux AMI 可以使用 ParaVirtual (PV) 或硬件虚拟机 (HVM) 虚拟化。 可以建议将 PV VM 缩放到不包含必需 PV 驱动程序的 HVM 实例。

    要检查实例的虚拟化类型,请打开 Amazon EC2 控制台到 "详细信息" 窗格,然后查看该实例的 "虚拟化" 字段。

  • 64 位 vs 32 位

    并非所有 AWS 实例都可以支持 32 位 VM。 涡轮机 可以建议将 32 位 VM 缩放到仅支持 64 位平台的实例。

  • NVMe 块

    某些实例将 EBS 卷公开为 NVMe 块设备,但并非所有 VM 都配置了 NVMe 驱动程序。 涡轮机 可以建议将此类 VM 缩放到支持 NVMe 的实例。 在执行该操作之前,必须在 VM 上安装 NVMe 驱动程序。

此外, Turbonomic 可识别当前用于 VM 的处理器类型。 对于缩放操作, Turbonomic 将 VM 保留在具有兼容处理器的实例类型上。 例如,如果 VM 位于基于 ARM 的实例上,那么 Turbonomic 将仅建议缩放到其他兼容的基于 ARM 的实例类型。

AWS EMR 集群中节点的扩展操作

Turbonomic 将 AWS EMR 集群中的节点视为普通虚拟机。 因此,它可能会不正确地为此类节点生成缩放操作。 执行节点操作后, AWS 会将该操作检测为缺陷,终止节点,并将其替换为初始大小的新实例。 要避免此问题,请对 EMR 集群中的节点禁用缩放操作。

AWS 自动为 EMR 集群分配系统标签。 要禁用扩展操作,请创建一个使用这些标记作为筛选器的虚拟机组,然后创建一个虚拟机策略,禁用该虚拟机组的 Cloud Scale All 操作类型。

为AWS虚拟机扩展存储

当 VM 需要更多存储容量时, Turbonomic 会建议采取行动,将其卷扩展到提供更多存储空间的实例。 请注意, AWS 同时支持弹性块存储器 (EBS) 和实例存储器。 识别这些存储类型,因为它建议卷操作。

如果 VM 的根存储器是实例存储器,那么 Turbonomic 将不建议执行操作。 这是因为实例存储器是临时的,这样的操作将导致 VM 丢失所有存储的数据。

如果根存储器是 EBS,那么 Turbonomic 会建议卷操作。 EBS 是持久的,数据将在操作后保留。 但是,如果 VM 将实例存储器用于额外的存储器,那么 Turbonomic 不会将该存储器包含在其计算或操作中。