Azure 虚拟机的扩展操作

更改 VM 实例以使用其他实例类型或层来优化性能和成本。

控制Azure虚拟机的扩展操作

对于缩放操作,您可以创建策略来控制 Turbonomic 建议的缩放操作。 在这些策略中,从以下选项中进行选择:

  • 云全部扩展 - 执行所有扩展操作

  • 根据性能进行云扩展--只执行可提高性能的扩展操作

  • 云扩展以节省成本 - 只执行可降低成本的扩展行动

这些操作的缺省操作接受方式为 手动。 检查暂挂操作时,仅允许执行满足策略的操作。 所有其他操作都是只读的。

当出现政策冲突时,在大多数情况下, 所有云规模 会优先于其他两个缩放选项。 有关更多信息,请参阅 缺省和用户定义的自动化策略

Azure虚拟机扩展行动支持的实例类型

有关虚拟机支持的实例类型列表,请参阅支持的 Azure 实例类型

您还可以通过 Turbonomic 用户界面查看支持的实例类型。

  1. 浏览至 设置> 策略

  2. 在 "策略管理 "页面中,搜索并打开 " 虚拟机默认设置"。

  3. 在编辑自动化策略页面:

    1. 扩展缩放限制

    2. 云实例类型部分,单击编辑

展开实例族可查看单个实例类型和分配给它们的资源。 实例族的一个例子是 B-series

为确定虚拟机的最佳实例类型, Turbonomic 会在分析中考虑所有相关的实例类型。 不过,您可能已将某些虚拟机配置为只能扩展到某些实例类型,以降低复杂性和成本、提高折扣利用率或满足应用需求。 要限制对某些实例类型的扩展,请为受影响的虚拟机创建策略并配置包含或排除列表作为扩展限制。

规模行动的破坏性和可逆性

操作中心视图和操作详情页面中显示的所有缩放操作都是破坏性的,但可恢复。 这些操作需要停机,但虚拟机可以缩减到之前的层级或大小。

针对运行 GPU 实例类型的Azure虚拟机的扩展操作

目前,Turbonomic支持以下带有Linux源图像的 GPU 实例类型系列。

  • NC A100 v4-series (基于 NVIDIA A100 PCIe GPU)
  • NCads H100 v5-series (基于 NVIDIA H100 NVL GPU)
  • NCasT4_v3-series(基于 Nvidia Tesla T4 GPU)
  • NCv3-series (基于NVIDIA )Tesla V100 GPU
  • NDv2-series (基于NVIDIA )Tesla V100 GPU
  • NGads_V620 (基于 AMD Radeon PRO GPU) V620
  • NVads A10 v5-series (基于 NVIDIA A10 GPU)
  • NVv3-series (基于 Tesla GPU) NVIDIA M60
  • NVv4-series (基于 AMD Radeon Instinct GPU) MI25
注:

运行 NVadsA10 v5-series 的虚拟机有部分 GPU。 对于这些虚拟机,Turbonomic 会发现部分 GPU 信息,然后相应地调整 GPU 容量(如 GPU 内存)。 将范围设置为 Azure GPU 虚拟机并查看容量和使用情况图表时,可获得容量信息。

Turbonomic 用户界面中,默认虚拟机策略会显示当前支持的 GPU 实例类型系列以及分配给它们的资源。 这些实例系列归入加速计算类别。 Azure退役的 GPU 实例系列归入 GPU(退役) 类别。 有关查看默认虚拟机策略的步骤,请参见上一节。

Turbonomic 为运行这些实例类型的虚拟机收集NVIDIA )GPU 指标,然后使用这些指标生成虚拟机扩展操作,以优化性能和成本。

注:

有关这些指标的更多信息,请参阅 NVIDIA 文档

指标 描述 操作
GPU 计数 使用的 GPU 卡数量 减少同一实例类型中 GPU 卡的数量
GPU 内存 使用中的 GPU 内存量 在同一实例类型中增减 GPU 内存
GPU 内存 BW(带宽)

向设备内存发送或从设备内存接收数据的周期分数,单位为 GB/秒

增减 GPU 内存总容量

此操作将虚拟机从当前实例类型移动到另一个具有相同(或更高) GPU 数量和 GPU 内存容量的实例类型。

GPU FP16 FP16(半精度)管道处于活动状态的周期分数

将 GPU FP16 向上或向下缩放

此操作将虚拟机从当前实例类型移动到另一个具有相同(或更高) GPU 数量和 GPU 内存容量的实例类型。

GPU FP32 FP32(单精度)管道处于活动状态的周期分数

将 GPU FP32 向上或向下缩放

此操作将虚拟机从当前实例类型移动到另一个具有相同(或更高) GPU 数量和 GPU 内存容量的实例类型。

GPU FP64 FP64(双精度)管道处于活动状态的周期分数

将 GPU FP64 向上或向下缩放

此操作将虚拟机从当前实例类型移动到另一个具有相同(或更高) GPU 数量和 GPU 内存容量的实例类型。

GPU 张量 张量(混合/多精度)管道处于活动状态的周期分数

放大或缩小 GPU 张量

此操作将虚拟机从当前实例类型移动到另一个具有相同(或更高) GPU 数量和 GPU 内存容量的实例类型。

注:

对于带有加速卡的 GPU 虚拟机,当您将作用域设置为虚拟机并查看实体信息图表时,可获得 GPU 卡信息。 例如,加速器型号字段显示 GPU 型号。

要启用发现 GPU 指标,请按照本 主题 中的说明配置 NVIDIA Data Center GPU Manager (DCGM) 。

Turbonomic还可以推荐将 标准 VM 资源(例如 vCPU 和 vMem )扩展到支持的 GPU 实例类型的操作。

在生成或执行标度操作时,Turbonomic 会将以下策略和设置视为约束条件:

  • 只读层排除政策

    Turbonomic会自动创建这些策略,并在策略管理页面(设置 > 策略)中显示。

    • 使用某些加速器类型的 AWS 虚拟机的自动生成策略

      这些策略可确保具有特定 GPU 类型的 AWS 虚拟机只能扩展到具有相同(或更高)GPU 卡数和每卡内存的实例类型。

      政策示例为 Azure GPU NVIDIA - Cloud Compute Tier Exclusion Policy

    • 在支持 GPU 的系列中为 AWS 虚拟机自动生成策略

      这些策略可确保支持 GPU 的实例系列中的任何虚拟机不会扩展到不支持 GPU 的实例系列。

      政策示例为 Cloud Compute Tier Azure:gpu - Cloud Compute Tier Exclusion Policy

  • 缩放目标利用率

    Turbonomic使用 GPU 资源的缩放目标利用率值和攻击性约束来控制虚拟机的缩放操作。 您可以在自动化策略中为云虚拟机配置利用率值。 有关更多信息,请参阅此 主题

  • 忽略 Nvidia GPU 计算能力约束

    此限制是一个设置,您可以选择在云虚拟机的自动化策略中打开。 开启后,可在 Turbonomic 中执行改变虚拟机 GPU 计算能力的扩展操作。 关闭后,操作只能在云提供商控制台(基于 Web 的用户界面或 CLI)中执行。 有关更多信息,请参阅此 主题

缩减和暂停行动

资源利用不足的虚拟机可以暂停或缩减。 您可以在虚拟机策略中配置名为首选操作类型的操作约束,以选择 Turbonomic 生成的操作。

云虚拟机的首选操作类型

下表描述了 Turbonomic 如何根据您偏好的操作类型为未充分利用的虚拟机生成操作。

VM 状态

首选操作类型

生成的行动

虚拟机不在成本最低的实例类型上,且使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

缩减

暂挂

暂挂

虚拟机已使用成本最低的实例类型,使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

暂挂

暂挂

暂挂

对已关闭电源的虚拟机进行扩展操作

Turbonomic 可以为关闭电源的虚拟机(例如,在维护期间)推荐缩放操作。 如果您接受这些操作, Turbonomic 会在虚拟机关机时对其进行缩放,这样虚拟机一开机就会应用更改。

Azure 计费目标和规模行动

Turbonomic 使用通过 Azure 计费目标发现的历史计费数据,为虚拟机生成最佳扩展建议。

当虚拟机与 透平工程学 通过 Azure 计费目标监控的 Azure 订阅相关联时,请注意以下有关虚拟机扩展操作的注意事项。

  • 添加新的 Azure 计费目标后, Turbonomic 可能需要 24 小时才能为受影响的虚拟机生成扩展操作。

  • 将新虚拟机添加到订阅后, Turbonomic 可能需要两天时间才能为虚拟机生成扩展操作,因为 Azure 不会立即将虚拟机添加到计费数据中。

发现Azure资源组

对于包含资源组的 Azure 环境, Turbonomic 会发现 Azure 资源组和用于标识这些组的标记。

Turbonomic 用户界面中,使用 "搜索 "页面搜索特定的 Azure 资源组并将其设置为范围。

创建定制 Turbonomic 资源组时,还可以使用 Azure 标记作为过滤条件。 您可以选择符合标记条件的 Azure 资源组作为新自定义组的成员。

要查找特定 Azure 资源组的可用标记,请将配置了相关标记信息的基本信息图表添加到视图或自定义仪表板中。

注:

检查资源组时, Turbonomic 不会显示这些资源组的计费成本。

Azure实例要求

在 Azure 环境中,某些实例类型需要以特定方式配置工作负载,而某些工作负载配置需要支持特定功能的实例类型。 当 Turbonomic 在 Azure中生成调整大小操作时,这些操作会考虑以下功能:

  • 加速联网 (AN)

    在 Azure 环境中,并非所有实例类型都支持 AN ,并且并非 AN 实例上的所有工作负载都实际启用 AN。 维护一组已启用 AN 的动态工作负载,并将策略分配给该组以排除不支持 AN 的任何模板。 这样,如果工作负载位于支持 AN 的实例上,并且该工作负载已启用 AN ,那么 Turbonomic 将不建议执行将工作负载移至非 AN 实例的操作。

  • Azure Premium Storage

    识别工作负载是否使用 Premium Storage ,并且不会建议对不支持 Azure Premium Storage 的实例进行大小调整。

此外, Turbonomic 可识别当前用于工作负载的处理器类型。 如果工作负载位于基于 GPU 的实例上,那么 Turbonomic 将仅建议移至其他基于 GPU 的兼容实例类型。 对于这些工作负载, Turbonomic 不建议调整大小操作。

对Azure虚拟机进行 IOPS 感知扩展

涡轮工程学 在为 Azure VM 制定缩放决策时考虑 IOPS 利用率。 为了度量利用率, Turbonomic 会考虑各种属性,例如每个磁盘的 IOPS 利用率,整个 VM IOPS 利用率,高速缓存设置以及 VM 的 IOPS 容量。 它还会遵守您在 VM 策略中设置的 IOPS 利用率和侵略性约束。 有关详细信息,请参阅 侵犯性和观察期

分析以不同方式影响 VM 缩放决策。 例如:

  • 如果实例迂到 IOPS 瓶颈,那么 Turbonomic 可建议扩展至更大的实例类型以增加 IOPS 容量,即使您未完全使用当前 VCPU 或 VMEM 资源也是如此。

  • 如果实例迂到 VMEM 和 VCPU 利用率低但 IOPS 利用率高的情况,那么 Turbonomic 可能不建议缩减。 它可能会使您保留在更大的实例上,以提供足够的 IOPS 容量。

  • 如果实例迂到 IOPS 容量利用率不足以及其他资源正常利用率不足的情况,那么您可能会看到将大小调整为与当前实例非常相似的实例的操作。 如果您检查操作详细信息,那么应该会看到您正在更改为具有较少 IOPS 容量的成本较低的实例。

Azure 虚拟机的净吞吐量感知扩展

Turbonomic 在决定 Azure 虚拟机的扩展时考虑了净吞吐量。

目前,由于无法从 Azure 获取净吞吐量指标,因此在为以下虚拟机系列提供扩展建议时,未考虑净吞吐量:

  • Bv1

  • HB, HBv2, HC

  • DCsv3, DCdsv3, DCsv2

  • 北卡罗来纳州、 NCv2、北达科他州、内华达州