云虚拟机政策

注:

本主题介绍用户界面新设计中可用的功能。 这种新设计默认为启用。 如果切换到传统设计,请单击用户界面导航栏中的 新功能切换按钮 ,然后打开切换开关,重新启用新设计。 更多信息,请参阅用户界面的新设计

Turbonomic 船舶具有适用于大多数环境的默认自动化策略。 对于您环境中的某些实体,您可以创建自动化策略来覆盖默认策略。

注:

用户界面中的虚拟机策略页面显示了适用于云虚拟机和内部部署虚拟机的设置。 本主题中描述的策略设置仅适用于云虚拟机和这些虚拟机的扩展操作。 有关云虚拟机停放操作(停止和启动)的详细信息,请参阅停放:停止或启动云资源。 有关内部部署虚拟机策略设置的详细信息,请参阅内部部署虚拟机策略

自动化工作流程

  • 云虚拟机

    注:

    有关云虚拟机操作的详细信息,请参阅云虚拟机操作

    操作 缺省方式 AWS Azure Google Cloud
    全部云缩放 手动 可自动化 可自动化 可自动化
    针对性能的云缩放 手动 可自动化 可自动化 可自动化
    针对节省的云缩放 手动 可自动化 可自动化 可自动化
    暂挂 手动 可自动化 可自动化 可自动化
  • 对于公共云中的容器平台节点

    注:

    有关容器平台节点操作的详细信息,请参阅容器平台节点操作

    操作 缺省方式 AWS Azure Google Cloud
    供应 手动 可自动化 可自动化 可自动化
    暂挂 手动 可自动化 可自动化 可自动化

首选操作类型

资源利用不足的虚拟机可以暂停或缩减。 您可以在虚拟机策略中配置名为首选操作类型的操作约束,以选择 Turbonomic 生成的操作。

云虚拟机的首选操作类型

下表描述了 Turbonomic 如何根据您偏好的操作类型为未充分利用的虚拟机生成操作。

VM 状态

首选操作类型

生成的行动

虚拟机不在成本最低的实例类型上,且使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

缩减

暂挂

暂挂

虚拟机已使用成本最低的实例类型,使用的 vCPU, 网络吞吐量和 GPU(如适用)少于 2%。

Scale

暂挂

暂挂

暂挂

扩展目标利用率 - GPU(仅限 AWS 和 Azure )

Turbonomic 将这些设置与攻击性约束结合使用,以控制运行受支持的NVIDIA ®)GPU 实例类型的 AWSAzure 虚拟机的扩展操作。 您可以根据利用率的百分位数来设置侵略性,并设置采样周期的长度,以便在云上实现更多或更少的弹性。

属性 缺省值
缩放目标 GPU 计数利用率 1

目标利用率占 GPU 计数容量的百分比。

缩放目标 GPUFP16 利用率 90

目标利用率 (以 GPU FP16 容量的百分比表示)。

缩放目标 GPUFP32 利用率 90

目标利用率 (以 GPU FP32 容量的百分比表示)。

缩放目标 GPUFP64 利用率 90

目标利用率 (以 GPU FP64 容量的百分比表示)。

缩放目标 GPU 内存 BW 利用率 90

目标利用率占GPU内存带宽容量的百分比。

缩放目标 GPU 内存利用率 90

目标利用率占 GPU 内存容量的百分比。

缩放目标 GPU 张量利用率 90

目标利用率占GPU张量容量的百分比。

扩展目标利用率 -vCPU, vMem,IO/网络吞吐量

这些高级设置决定了工作负载利用资源时总容量的百分比。 这些是固定设置,用于覆盖 Turbonomic 计算资源最佳利用率的方式。 请在咨询技术支持后更改这些设置。

虽然这些设置可以修改 Turbonomic推荐的操作,但在大多数情况下,您不需要使用它们。 如果想控制 Turbonomic 建议如何调整工作负载的大小,可以根据利用率的百分位数设置积极性,并设置样本期的长度以获得更多或更少的弹性。

属性 缺省值
缩放目标 IO 吞吐量利用率 70

目标利用率占 IO 吞吐量 (读和写) 容量的百分比。

缩放目标净吞吐量利用率 70

目标利用率占网络吞吐量 (入站和出站) 容量的百分比。

缩放目标 vCPU 利用率 70

目标利用率占 VCPU 容量的百分比。

缩放目标 vMEM 利用率 90

目标利用率占内存容量的百分比。

扩展目标利用率 - IOPS(仅限 Azure )

浊度 将此设置与侵略性约束结合使用,以控制 VM 的缩放操作。 您可以根据利用率的百分位数来设置侵略性,并设置采样周期的长度,以便在云上实现更多或更少的弹性。

属性 缺省值
缩放目标 IOPS 利用率

70

目标百分位数值 Turbonomic 将尝试匹配。

有关 IOPS 利用率如何影响缩放决策的详细信息,请参阅 IOPS 感知 Scaling for Azure VM

积极性

使用这些设置来计算利用率百分位数,然后根据给定时间段的观测值来建议提高利用率的操作。

  • 积极性

    属性 缺省值
    积极性 第 95 百分位数

    评估性能时, Turbonomic 将资源利用率视为容量百分比。 利用率会推动操作以向上或向下扩展可用容量。 为了测量利用率,分析会考虑给定的利用率百分位数。 例如,假设为第 95 个百分位。 百分位利用率是 95% 的实测样本所低于的最高值。 将其与平均利用率 ( 所有 观察到的样本的平均值) 进行比较。

    通过使用百分位数, Turbonomic 可以建议更多相关操作。 这在云中很重要,因此分析可以更好地利用云的弹性。 对于已调度的策略,当将其执行延迟到稍后时,更相关的操作将趋向于保持可行。

    例如,考虑减少 VM 上的 CPU 容量的决策。 如果不使用百分位数,那么 Turbonomic 的大小绝不会低于可识别的峰值利用率。 对于大多数 VM ,有时会出现 CPU 峰值达到高级别的情况,例如在重新引导,修补和其他维护任务期间。 假定 VM 的利用率仅达到 100%。 如果没有百分位数的好处, Turbonomic 将不会减少为该 VM 分配的 CPU。

    对于 侵犯性Turbonomic 使用您设置的百分位数,而不是使用单个最高利用率值。 在前面的示例中,假设单次 CPU 突发达到 100%,但在 95% 的样本中,CPU 从未超过 50%。 如果将 " 积极性 "设置为第 95 百分位数,那么 Turbonomic 就会将此视为减少虚拟机 CPU 分配的机会。

    总之,百分位数会评估持续资源利用率,并忽略一小部分样本发生的突发情况。 您可以将此视为大小调整的侵略性,如下所示:

    • 第 100 百分位数和第 99 百分位数 - 更多表现。 建议用于在任何时候都需要最高性能保证的关键工作负载,或者需要容忍突然出现且先前未见的利用率峰值的工作负载,即使持续利用率很低。

    • 第 95 百分位数(默认)- 实现最高性能和节约的推荐设置。 这将确保应用程序性能,同时避免由于瞬态峰值而导致的反应峰值大小调整,从而使您能够利用云的弹性能力。

    • 第 90 百分位数 - 效率更高。 建议用于可以提高资源利用率的非生产工作负载。

云实例类型

属性 缺省值
云实例类型

为确定虚拟机的最佳实例类型, Turbonomic 会在分析中考虑所有相关的实例类型。 不过,您可能已将某些虚拟机配置为只能扩展到某些实例类型,以降低复杂性和成本、提高折扣利用率或满足应用需求。 使用此设置可识别这些实例类型。 Turbonomic建议包含尽可能多的实例类型,以便为分析提供更多选项,将工作负载扩展到最佳规模。

注:

当云提供商提供新的实例类型以取代旧的实例类型时,提供商可能会以较低的成本或相同的成本提供新的实例类型。 如果容量和成本相等,扰动将无法确保选择较新的实例类型。 要解决这个问题,可以创建一个排除旧实例类型的策略。

单击 编辑 以设置首选项。 在显示的新页面中,选择以下选项:

  • Excluded

    默认情况下,该选项被选中,所有实例类型均未被选中。 这意味着所有实例类型都会被考虑进行缩放。

    您选择的任何实例类型都不包括在缩放范围内。

    如果要排除的实例类型少于要包括的实例类型,则配置排除列表。 例如,如果当前有 400 个实例类型可供扩展,而您不希望虚拟机扩展到 20 个实例类型,则配置排除列表并选择 20 个实例类型。

  • 已包含

    您选择的任何实例类型都会考虑进行缩放。

    如果要包含的实例类型少于要排除的实例类型,则配置包含列表。 例如,如果当前有 400 个实例类型可供扩展,而您希望虚拟机只扩展到 50 个实例类型,则配置包含列表并选择 50 个实例类型。

展开实例族可查看单个实例类型和分配给它们的资源。 实例系列的一个示例是 a1 用于 AWS, Basic-A 用于 Azure, 或 A2 用于 Google Cloud.

保存更改后,主页面将刷新以反映您的选择。

一致调整大小

属性 缺省设置
一致调整大小 关闭

为用户定义的自动化策略提供一致的大小调整

当您为一组虚拟机创建策略并启用“一致调整大小”时 ,Turbonomic 会将所有组成员调整到相同的大小,以便它们都能支持组中每种资源商品的最高利用率。 例如,假定 VM A 显示 CPU 利用率最高, VM B 显示内存利用率最高。 调整大小操作将导致具有满足 VM A 的 CPU 容量和满足 VM B 的内存容量的所有 VM。

对于受影响的调整大小, "操作列表" 显示组中每个 VM 的个别调整大小操作。 如果自动调整大小,那么 Turbonomic 将以避免中断工作负载的方式单独执行每次调整大小。

在公共云上调整 VM 大小时,使用此设置在组中的所有 VM 之间强制实施同一模板。 通过这种方式, Turbonomic 可以强制实施规则,以均等地调整组中所有 VM 的大小。

自动发现组的大小调整保持一致

在公共云环境中 ,Turbonomic 会发现应将所有虚拟机保持在同一模板中的组,然后为其创建只读策略,以实现一致调整大小。 此发现的详细信息以及关联的策略因云提供者而异。

  • Azure

    发现 Azure 可用性集和刻度集。

    • 对于可用性集 ,Turbonomic 不启用一致调整大小,但可以为可用性集中的单个虚拟机推荐缩放操作。

      当可用性集中 VM 的缩放操作由于计算集群中的资源不足而失败时,该操作将保持暂挂状态。 将鼠标悬停在暂挂操作上时,您将看到一条消息,指示由于可用性集中的先前执行错误,已临时禁用操作执行。 涡轮工程 假定由于同一资源问题,可用性集中的所有其他 VM 都将无法扩展,因此它将创建一个临时策略,以禁止对可用性集执行操作。 具体而言,此策略将缩放操作的操作接受方式设置为 建议 ,并在 730 小时 (一个月) 内保持有效。 这意味着在策略持续时间内, Turbonomic 将继续为各个 VM 生成只读,不可执行的缩放操作,因此您可以评估其资源需求并进行相应规划。 如果需要在可用性集中重新启用操作执行,那么可以删除此策略。

    • 对于规模集 ,Turbonomic 能够实现组中所有虚拟机的一致调整。 直接在 Azure中执行这些操作。 如果您不需要将给定比例尺的所有成员调整为一致的模板,请为该范围创建另一个策略,并关闭“一致调整大小”。

  • AWS

    涡轮机 可发现 Auto Scaling 组,并在每个组中的所有 VM 之间自动启用一致调整。 您可以选择手动或自动执行此类组的所有操作。 在这种情况下, Turbonomic 一次执行一个 VM 的大小调整。 如果不需要将给定 Auto Scaling Group 的所有成员调整为一致模板,请为该作用域创建另一个策略并关闭 "一致调整大小"。

    如果手动或自动为组选择一个或所有操作,那么 Turbonomic 将更改自动缩放组的启动配置,但不会终止 EC2 实例。

以下示例为对组应用一致调整大小的一些用例。

  • 如果已为组部署负载均衡,那么该组中的所有 VM 都应该具有类似的利用率。 在这种情况下,如果需要调整一个 VM 的大小,那么以一致方式调整它们的大小是有意义的。

  • 公共云上的公共 HA 配置是将镜像 VM 部署到不同的可用性区域,其中给定应用程序在给定时间仅在其中一个 VM 上运行。 其他 VM 处于备用状态,可在故障转移事件中恢复。 如果没有一致的大小调整, 涡轮工程 将倾向于缩小或暂挂未使用的 VM ,这将使它们无法用于故障转移情况。

使用“一致调整大小”时,请注意以下几点:

  • 您不应将具有一致调整大小策略的虚拟机组与启用一致调整大小策略的其他组混合在一起。 一个 VM 可以是多个组的成员。 如果一个组中有一个或多个虚拟机(或更多)具有一致调整大小功能,而另一个组中也有此功能,则这两个组将共同对其所有成员执行一致调整大小功能。

  • 如果一个或多个虚拟机在一个组中启用了“一致调整大小”,而同一虚拟机在另一个组中关闭了“一致调整大小”,则受影响的虚拟机将采用 ON 设置。 如果您创建了两个组,或者如果 Turbonomic 为 Azure Scale Set 或 AWS Auto Scaling Groups 创建了其中一个组,那么情况会如此。

  • 对于任何启用一致性调整大小的虚拟机组,不应混合使用相关的目标技术。 例如,一个组不应包含在 Azure 和 AWS 平台上管理的 VM。

  • 显示操作和风险的图表将相同的风险声明分配给所有受影响的 VM。 这似乎令人困惑。 例如,假定一个 VM 需要调整大小以解决 vCPU 风险,并且 9 其他 VM 设置为与其一致调整大小。 然后,图表将说明 10 个 VM 需要调整大小以解决 vCPU 风险。

忽略 NVIDIA GPU 计算能力限制(仅限 AWS 和 Azure )

AWSAzureNVIDIA GPU 实例类型的虚拟机, Turbonomic 可生成可改变虚拟机 GPU 计算能力的扩展操作。 默认情况下,这些操作只能在云提供商控制台(基于 Web 的 UI 或 CLI)中执行。 查看待执行的标度操作时,您会在 "执行前提条件 "部分看到以下消息,其中解释了 Turbonomic 中的操作执行受阻的原因。

CUDA applications running on <GPU_VM> may need to be re-configured or recompiled 
to execute on the new accelerated instance. The compute capability on the current instance 
is <x>, while the new compute capability will be <y> if the action is taken. 
When the pre-requisites are verified, this action must be executed manually in the Cloud Provider Console (Web UI or CLI). 
Alternatively, you can configure a policy to ignore GPU compute capability constraints.

您可以开启此设置,以允许在 Turbonomic中执行更改计算能力的缩放操作。

属性 缺省设置
忽略 Nvidia GPU 计算能力约束 关闭

忽略 NVMe 限制(仅限AWS

对于 AWS, Turbonomic 识别何时 VM 实例包含 NVMe 驱动程序。 要遵守 NVMe 约束,建议不要缩放到不包含 NVMe 驱动程序的实例类型。 如果忽略 NVMe 约束,那么 Turbonomic 可以将实例扩展为不包含 NVMe 驱动程序的类型。

属性 缺省设置
忽略 NVMe 约束 关闭

实例系列受限

如果打开此设置, Turbonomic 将仅根据当前实例系列扩展虚拟机。

属性 缺省设置
实例系列受限 关闭

只有在虚拟机的计费组织存在计费目标时,此设置才适用。

实例存储感知缩放(仅限AWS

属性 缺省设置
实例存储感知缩放 关闭

工作负载的模板确定工作负载是否可以使用 实例存储,并确定实例存储容量。 由于 Turbonomic 计算调整大小或移动操作,因此可以建议不支持实例存储或不提供相同实例存储容量的新模板。

为确保调整大小操作符合实例存储对工作负载的要求,请为指定的虚拟机或虚拟机组启用 “实例存储感知扩展 ”。 当您为给定的 VM 作用域开启此功能时,当它计算移动和调整大小操作时, Turbonomic 将仅考虑支持实例存储的模板。 此外,它不会将工作负载移至提供较少实例存储容量的模板。

观察期

缺省情况下, Turbonomic 使用过去 30 天的样本。 使用 “最长观察期” 设置来调整天数。 为确保有足够的样本进行分析并推动扩展行动,请设置最短观察期

  • 最长观察周期

    属性 缺省值
    最长观察周期 最近 30 天

    要优化资源利用率百分位数的计算,可以设置要考虑的样本时间。 使用从指定为采样周期的天数开始的历史数据。 如果数据库具有较少天数的数据,那么它将使用所有存储的历史数据。

    您可以进行以下设置:

    • 弹性较小-过去 90 天

    • 建议-过去 30 天

    • 更具弹性-过去 7 天

    浊度 建议在许多组织中看到的每月工作负载维护周期之后 30 天的观察期。 在执行修补和其他维护任务时, VM 通常在维护窗口期间达到峰值。 30 天的观察期意味着 Turbonomic 可以捕获这些峰值并提高其大小调整建议的准确性。

    如果工作负载需要更频繁地调整大小以响应性能更改,那么可以将该值设置为 7 天。 对于无法经常处理更改或使用周期较长的工作负载,可以将该值设置为 90 天。

  • 最短观察周期

    属性 缺省值
    最短观察周期

    此设置确保在 Turbonomic 将根据 Aggres性中设置的百分位数生成操作之前的最小天数内的历史数据。 这将确保在生成操作之前至少有一组数据点。

    尤其是对于已调度的操作,调整大小计算要使用足够的历史数据来生成即使在已调度维护时段内仍可行的操作,这一点非常重要。 当利用率较低时,通常会为 "停机" 时间设置维护窗口。 如果分析对某个操作使用了足够的历史数据,那么该操作在维护窗口期间更有可能保持可行。

    • 更具弹性-无

    • 弹性较小-7 天