可观测性是指仅根据其外部输出（特别是遥测）的了解来理解复杂系统的内部状态或状况的能力。

在可观测系统中，IT 团队可以更轻松地监控和分析系统性能。例如，他们可以准确地了解数据如何在组织的技术栈（包括应用程序、本地数据中心和云环境）中流动，并找出任何瓶颈。这种洞察分析可以帮助团队更快地识别和修复问题，并总体上创建更强大、更具弹性的系统。

可观测性的核心是将原始数据转化为可操作的洞察分析。然而，与传统的监控方法（侧重于预定义指标和被动故障排除）不同，可观测性采用主动方法。

可观测性工具依靠来自广泛数据源的数据收集来进行更深入的分析并加速问题解决。它们从各种网络组件（容器、Pod 和微服务等）收集遥测和其他数据，为开发团队提供组件及其所属大型系统的运行状况和性能的整体视图。

遥测包括可观测性的“三大支柱”：日志、指标和跟踪。

日志是网络和软件系统内发生情况的详细记录。它提供有关发生了什么、何时发生以及发生在环境中的位置等详细信息。

指标是对系统性能与资源使用情况的数值化评估。其通过捕获特定数据类型及关键性能指标 (KPI)（如延迟、丢包率、带宽可用性与设备 CPU 利用率），展现系统健康状态的高级别概览。

追踪是每个用户请求在网络中流转过程的端到端记录。通过跟踪，可以深入了解数据包在穿越多个设备和复杂系统时的路径和行为，这对于理解分布式环境至关重要。

与监控工具不同，可观测性平台以主动的方式使用遥测。DevOps 开发运维团队和站点可靠性工程师 (SRE) 使用可观测性工具实时关联遥测数据，并获得完整的、情境化的系统健康视图。这使团队能够深入理解系统各元素及其相互关系。

通过提供包含依赖关系的 IT 环境全景视图，可观测性解决方案可以向团队展示任何系统事件的“内容”、“位置”、“成因”及其对整体环境性能的潜在影响。它们还可以自动发现系统中可能出现的新遥测源（例如，对软件应用程序的新应用程序编程接口 (API) 调用）。

遥测和数据关联功能通常决定软件工程师和 DevOps 开发运维团队如何实现应用程序检测、调试流程和问题解决。利用这些工具，IT 团队能够在问题升级之前检测并解决问题，从而帮助确保无缝连接、停机时间最少和更好的用户体验。

然而，它们也提供了开发人员可以纳入未来可观测性实践的反馈，这也使它们成为可观测性工程不可或缺的一部分。