什么是 AWS 监控？

出版 30 十月 2025
一位戴着眼镜、扎着头发的女性正在桌前工作，注视着多台电脑显示器，上面显示有各种数据可视化内容。

作者

Gregg Lindemulder

Staff Writer

IBM Think

Annie Badman

Staff Writer

IBM Think

什么是 AWS 监控？

AWS 监控是指跟踪、收集和分析来自 Amazon Web Services (AWS) 云计算平台的数据的过程。它有助于优化 AWS 资源、识别性能问题、管理成本并维护云基础设施安全。

凭借超过 30% 的云市场份额，AWS 运营的基础设施规模超过任何其他云基础设施提供商。1各家公司使用 AWS 进行网站托管、数据存储大数据分析、移动应用开发以及企业级 IT 服务。

对于这些组织来说，监控其在 AWS 上的工作量非常重要。他们能够跟踪性能指标、系统日志和事件，以帮助确保 AWS 环境按预期运行。

如果没有 AWS 监控，性能问题可能会在不被察觉的情况下不断恶化，资源过度配置会导致成本飙升，安全漏洞也可能持续暴露。例如，过多的网络流量可能会使中央处理器 (CPU) 过载并造成瓶颈。或者，错误配置的云存储容器可能会通过公共访问暴露敏感数据。

AWS 监控工具可以识别这些问题并触发自动响应（例如调用 AWS Lambda 函数进行修复），或提醒团队手动进行故障排除。这有助于组织保持最佳性能、降低成本、加强安全状况并就其基础设施做出数据驱动的决策。

为什么 AWS 监控很重要？

AWS 监控有助于确保 AWS 云资源的可靠性、可用性和性能。它能够让组织了解 AWS 基础设施的运行状况，从而主动检测和解决问题，减少中断并最大限度地减少停机时间。

保持可靠性和可用性

监控有助于揭示 AWS 云资源的运行状况，包括计算能力、存储空间和网络基础设施。

例如，如果客户流量导致服务器负载过重，监控就会触发自动扩展以添加更多服务器。这有助于防止应用程序崩溃，并在流量激增期间仍保持一致的响应时间，从而确保应用程序对终端用户始终可访问。

提高性能

通过收集有关 AWS 云资源的指标，监控可帮助优化配置以提高速度和效率。

例如，如果亚洲用户体验到页面加载速度慢的问题，监控工具可以将内容缓存到离他们位置更近的新加坡。这样有助于减少延迟并加快页面加载，确保流式传输更加顺畅并改善用户体验。

管理 AWS 成本

云成本通常是组织 IT 预算中最大的支出项目之一。

监控可识别未充分利用或不必要的 AWS 资源，从而帮助优化云成本。例如，一个虚拟服务器仅使用了分配内存的 10% 就能处理完工作量，就可能浪费掉 90% 的内存成本。AWS 监控可以帮助自动调整实例大小，并在非高峰时段关闭闲置资源。

增强安全性

监控会检测 AWS 基础设施中可能表明存在安全威胁的可疑活动或异常变更，例如未授权的 API 调用、异常的数据传输以及配置更改。

例如，当监控工具检测到重复失败的登录尝试时，它们可以阻止源 IP 地址并触发安全通知。

预见问题

监控可以在潜在问题发生并影响最终用户之前识别出它们。这可能包括接近容量限制、性能趋势下降和 SSL 证书过期。

例如，当监控到某个数据库的存储容量接近 90% 时，会向开发人员发出警报，以便在数据库发生故障之前添加更多存储空间。

AWS 监控如何进行？

AWS 监控持续收集并分析来自 AWS 基础设施的数据。

监控数据通常包括来自服务器、数据库和应用程序的性能指标、资源使用情况和错误率，以及系统日志，例如 API 调用、配置更改、网络活动和安全事件。

工具分析这些数据以识别趋势、检测异常并通过仪表板实时可视化性能。

AWS 监控工具可以提醒团队注意潜在问题，以便进行故障排除和根本原因分析。它们还可以自动解决一些问题，包括添加资源或重新启动 AWS 服务。

例如，当客户因结账失败而放弃在线购物车时，AWS 监控功能可识别支付网关错误，并向 DevOps 发出警报。然后，他们可以调查并更正过时的超时设置，最大限度地减少收入损失。

AWS 监控的定价通常会随所使用服务的不同，而根据自定义指标的数量、日志摄取量以及分析频率而变化。

AWS 监控的关键指标

为了提供全面的覆盖范围，AWS 监控通常跟踪四个核心领域的指标：

  • 基础设施性能和使用情况
  • 应用程序性能和行为
  • 安全性和合规性
  • 运营和业务指标

基础设施性能和使用情况

AWS 监控自动跟踪 AWS 基础设施组件的性能和资源消耗情况。

这些指标帮助团队识别过度配置的资源，预测容量需求，并在性能下降影响用户之前检测到它。

Amazon CloudWatch 是 AWS 监控的基础，也是收集此类数据的主要工具。它会自动收集、聚合和分析所有 AWS 服务的指标。其他 AWS 工具（如 X-Ray 和 CloudTrail）与 CloudWatch 集成，提供系统运行状况、性能和安全性的统一视图。

Amazon EC2（弹性计算云）

EC2 提供在云端运行应用程序的虚拟服务器，具备按需计算能力。

关键 EC2 指标包括：

  • CPU 利用率：正在使用的已分配计算单元的百分比
  • 磁盘 I/O：从连接的存储卷读取和写入的速率
  • 网络流量：进出 EC2 实例的数据流
  • 状态检查：系统和实例运行状况检查，用于验证可达性并检测硬件或软件问题

ECS（弹性容器服务）和 EKS（弹性 Kubernetes 服务）

ECS 和 EKS 是 Amazon 的原生容器服务，可规模化部署和编排容器化应用程序。

关键容器指标包括：

  • 资源利用率：CPU 使用率、内存使用率和网络使用率
  • 性能日志：用于根本原因分析的诊断信息，例如容器重启失败信息
  • 网络性能：容器、服务与外部资源之间的网络流量

Amazon RDS（关系数据库服务）

RDS 提供在 AWS 云环境中托管的数据库。

关键 RDS 指标包括：

  • 数据库连接数：每个 RDS 数据库实例的活动连接数量
  • 查询 延迟：完成数据库查询的时间
  • 存储使用情况：数据库消耗的磁盘空间

AWS Lambda

Lambda 为调整图像大小或更新数据库等任务提供无服务器架构计算。

关键 Lambda 指标包括：

  • 调用计数：函数执行的次数
  • 时长：完成每个函数所需的时间
  • 错误：函数执行失败次数

弹性负载均衡 (ELB)

ELB 将传入流量分配到合适的云资源，以帮助维持高可用性

关键 ELB 指标包括：

  • 延迟：请求通过负载均衡器处理所需的时间
  • 请求数：负载均衡器处理的请求总数
  • 活动连接数：客户端到目标的并发连接数
  • 已处理字节数：负载均衡器处理的总字节数

应用程序性能和行为

AWS 性能监控可以跟踪应用程序行为，但需要手动配置和代码嵌入。

应用程序很少独立存在，它们通常需要连接外部支付处理器、第三方 API 以及非 AWS 数据库。

监控这些交互可以揭示性能问题是由 AWS 资源还是外部依赖关系造成的。它还提供了对最终用户如何与应用程序交互的洞察分析。

AWS X-Ray（一种分布式跟踪服务）是收集这些指标的主要工具。当代码通过其 SDK 进行嵌入时，X-Ray 会跟踪请求在应用程序中的流动情况，从而提供对 AWS 服务中延迟、错误和瓶颈的可视化洞察。

关键应用程序性能监控指标包括：

  • 请求率：入站请求的数量和模式，揭示流量激增和使用趋势
  • 错误率：失败的事务、崩溃的进程以及中断的 API 连接
  • 用户监控：真实用户体验数据，页面加载时间、JavaScript 错误、点击率
  • 分布式跟踪：跨微服务的端到端请求路径，精准定位瓶颈或故障发生的位置

安全性和合规性

AWS 监控自动跟踪 AWS 帐户内的活动和配置更改。这些指标有助于确定谁访问了敏感数据，检测策略违规行为并证明监管合规性。

不同的 AWS Security 服务可提供不同的安全优势，例如审计跟踪、配置跟踪和威胁检测。默认情况下，某些工具（例如 CloudTrail）会记录基本活动，而其他工具（例如 GuardDuty 和 Config）则需要明确设置。

主要的 AWS 原生安全服务包括：

  • AWS CloudTrail：跟踪 AWS 环境中的每次 API 调用，记录人员在何时做了什么，这对于审计和事件调查至关重要。
  • AWS Config：记录 AWS 资源的配置情况并跟踪随时间的变化，有助于验证合规性及策略执行。
  • Amazon Inspector：一项安全和漏洞管理服务，可自动扫描 EC2 实例和容器，以检测已知漏洞及偏离安全最佳实践的情况。
  • Amazon GuardDuty：一项持续威胁检测服务，使用机器学习来检测恶意活动，包括 AWS 帐户中的加密货币挖掘、未经授权的访问尝试和异常 API 调用。

关键安全指标包括：

  • API 调用：API 调用是 AWS API 和软件程序之间的通信，用于请求数据、服务或操作。记录所有呼叫的来源、目的地和时间。
  • 未经授权的访问：任何异常或恶意的登录活动。
  • 配置更改：出于合规和审计目的而更改 AWS 资源配置。例如，用户权限或数据加密的更改可能会影响对安全策略或数据保护法规的遵守情况。
  • 网络流量分析：虚拟私有云 (VPC) 中的网络流量，帮助发现安全威胁，例如错误配置或数据渗漏可能。

运营和业务指标

AWS 监控可以跟踪业务指标，但需要自定义配置，由组织定义并将其作为自定义指标发送到 AWS 监控工具。

这些指标（如收入、订单履行时间或客户满意度）可以帮助将技术指标与业务成果联系起来，证明云支出的合理性，并确定系统问题如何影响收入。

主要运营和业务指标包括：

  • 客户服务响应时间：系统对客户请求的响应速度
  • 订单履行时间：电子商务订单处理和发货的平均时间
  • 用户活动：日活跃用户和月活跃用户、新注册用户和会话计数
  • 收入：特定时期内购买的总货币价值
  • AWS 计费：异常检测可以识别异常的使用高峰，以便团队可以进行经济高效的调整并满足预算阈值

监控与可观测性

监控有助于找出问题所在，而可观测性有助于解释问题发生的原因。

AWS 监控解决方案通常包括 AWS 可观测性能力。两者协同工作，以解决问题并保持可靠性。

监控

监控捕获预定义指标，例如 CPU 使用率和网络延迟，提供系统性能快照，但很少获得对问题发生原因的洞察分析。例如，监控可能发现某 Web 服务器 CPU 利用率过高，但无法找到根本原因。

可观察性

可观测性与多种遥测数据类型（指标、事件、日志和跟踪（MELT 数据））相关联，提供 AWS 环境的实时视图。从传统的监控演变而来，以处理云原生架构的复杂性。
