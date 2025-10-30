凭借超过 30% 的云市场份额，AWS 运营的基础设施规模超过任何其他云基础设施提供商。1各家公司使用 AWS 进行网站托管、数据存储、大数据分析、移动应用开发以及企业级 IT 服务。
对于这些组织来说，监控其在 AWS 上的工作量非常重要。他们能够跟踪性能指标、系统日志和事件，以帮助确保 AWS 环境按预期运行。
如果没有 AWS 监控，性能问题可能会在不被察觉的情况下不断恶化，资源过度配置会导致成本飙升，安全漏洞也可能持续暴露。例如，过多的网络流量可能会使中央处理器 (CPU) 过载并造成瓶颈。或者，错误配置的云存储容器可能会通过公共访问暴露敏感数据。
AWS 监控工具可以识别这些问题并触发自动响应（例如调用 AWS Lambda 函数进行修复），或提醒团队手动进行故障排除。这有助于组织保持最佳性能、降低成本、加强安全状况并就其基础设施做出数据驱动的决策。
AWS 监控有助于确保 AWS 云资源的可靠性、可用性和性能。它能够让组织了解 AWS 基础设施的运行状况，从而主动检测和解决问题，减少中断并最大限度地减少停机时间。
监控有助于揭示 AWS 云资源的运行状况，包括计算能力、存储空间和网络基础设施。
例如，如果客户流量导致服务器负载过重，监控就会触发自动扩展以添加更多服务器。这有助于防止应用程序崩溃，并在流量激增期间仍保持一致的响应时间，从而确保应用程序对终端用户始终可访问。
通过收集有关 AWS 云资源的指标，监控可帮助优化配置以提高速度和效率。
例如，如果亚洲用户体验到页面加载速度慢的问题，监控工具可以将内容缓存到离他们位置更近的新加坡。这样有助于减少延迟并加快页面加载，确保流式传输更加顺畅并改善用户体验。
云成本通常是组织 IT 预算中最大的支出项目之一。
监控可识别未充分利用或不必要的 AWS 资源，从而帮助优化云成本。例如，一个虚拟服务器仅使用了分配内存的 10% 就能处理完工作量，就可能浪费掉 90% 的内存成本。AWS 监控可以帮助自动调整实例大小，并在非高峰时段关闭闲置资源。
监控会检测 AWS 基础设施中可能表明存在安全威胁的可疑活动或异常变更，例如未授权的 API 调用、异常的数据传输以及配置更改。
例如，当监控工具检测到重复失败的登录尝试时，它们可以阻止源 IP 地址并触发安全通知。
监控可以在潜在问题发生并影响最终用户之前识别出它们。这可能包括接近容量限制、性能趋势下降和 SSL 证书过期。
例如，当监控到某个数据库的存储容量接近 90% 时，会向开发人员发出警报，以便在数据库发生故障之前添加更多存储空间。
AWS 监控持续收集并分析来自 AWS 基础设施的数据。
监控数据通常包括来自服务器、数据库和应用程序的性能指标、资源使用情况和错误率，以及系统日志，例如 API 调用、配置更改、网络活动和安全事件。
工具分析这些数据以识别趋势、检测异常并通过仪表板实时可视化性能。
AWS 监控工具可以提醒团队注意潜在问题，以便进行故障排除和根本原因分析。它们还可以自动解决一些问题，包括添加资源或重新启动 AWS 服务。
例如，当客户因结账失败而放弃在线购物车时，AWS 监控功能可识别支付网关错误，并向 DevOps 发出警报。然后，他们可以调查并更正过时的超时设置，最大限度地减少收入损失。
AWS 监控的定价通常会随所使用服务的不同，而根据自定义指标的数量、日志摄取量以及分析频率而变化。
为了提供全面的覆盖范围，AWS 监控通常跟踪四个核心领域的指标：
AWS 监控自动跟踪 AWS 基础设施组件的性能和资源消耗情况。
这些指标帮助团队识别过度配置的资源，预测容量需求，并在性能下降影响用户之前检测到它。
Amazon CloudWatch 是 AWS 监控的基础，也是收集此类数据的主要工具。它会自动收集、聚合和分析所有 AWS 服务的指标。其他 AWS 工具（如 X-Ray 和 CloudTrail）与 CloudWatch 集成，提供系统运行状况、性能和安全性的统一视图。
EC2 提供在云端运行应用程序的虚拟服务器，具备按需计算能力。
关键 EC2 指标包括：
ECS 和 EKS 是 Amazon 的原生容器服务，可规模化部署和编排容器化应用程序。
关键容器指标包括：
RDS 提供在 AWS 云环境中托管的数据库。
关键 RDS 指标包括：
Lambda 为调整图像大小或更新数据库等任务提供无服务器架构计算。
关键 Lambda 指标包括：
ELB 将传入流量分配到合适的云资源，以帮助维持高可用性。
关键 ELB 指标包括：
AWS 性能监控可以跟踪应用程序行为，但需要手动配置和代码嵌入。
应用程序很少独立存在，它们通常需要连接外部支付处理器、第三方 API 以及非 AWS 数据库。
监控这些交互可以揭示性能问题是由 AWS 资源还是外部依赖关系造成的。它还提供了对最终用户如何与应用程序交互的洞察分析。
AWS X-Ray（一种分布式跟踪服务）是收集这些指标的主要工具。当代码通过其 SDK 进行嵌入时，X-Ray 会跟踪请求在应用程序中的流动情况，从而提供对 AWS 服务中延迟、错误和瓶颈的可视化洞察。
关键应用程序性能监控指标包括：
AWS 监控自动跟踪 AWS 帐户内的活动和配置更改。这些指标有助于确定谁访问了敏感数据，检测策略违规行为并证明监管合规性。
不同的 AWS Security 服务可提供不同的安全优势，例如审计跟踪、配置跟踪和威胁检测。默认情况下，某些工具（例如 CloudTrail）会记录基本活动，而其他工具（例如 GuardDuty 和 Config）则需要明确设置。
主要的 AWS 原生安全服务包括：
关键安全指标包括：
AWS 监控可以跟踪业务指标，但需要自定义配置，由组织定义并将其作为自定义指标发送到 AWS 监控工具。
这些指标（如收入、订单履行时间或客户满意度）可以帮助将技术指标与业务成果联系起来，证明云支出的合理性，并确定系统问题如何影响收入。
主要运营和业务指标包括：
监控有助于找出问题所在，而可观测性有助于解释问题发生的原因。
AWS 监控解决方案通常包括 AWS 可观测性能力。两者协同工作，以解决问题并保持可靠性。
监控捕获预定义指标，例如 CPU 使用率和网络延迟，提供系统性能快照，但很少获得对问题发生原因的洞察分析。例如，监控可能发现某 Web 服务器 CPU 利用率过高，但无法找到根本原因。
可观测性与多种遥测数据类型（指标、事件、日志和跟踪（MELT 数据））相关联，提供 AWS 环境的实时视图。它从传统的监控演变而来，以处理云原生架构的复杂性。
通过近乎实时的运营分析加速混合事件识别。
通过云分析解决方案，您可以轻松分析数据并建立机器学习模型，从而获得改变业务的成果。
利用 IBM 的云咨询服务探索新功能并推动业务敏捷性。