什么是遥测?

未来主义建筑的鸟瞰图

什么是遥测?

遥测指的是从分布式或远程源自动收集数据,并将其传输至中央系统以进行监控、分析和资源优化

遥测在医疗保健、航空航天、汽车和信息技术 (IT) 等行业中发挥着关键作用,为组织提供了有关系统性能、用户行为、安全性和运营效率的宝贵洞察分析。在依赖实物资产的行业,例如农业 公用事业交通运输领域,组织可采用遥测来获取温度、气压、运动和光线等测量数据。在医疗保健领域,遥测系统可以跟踪心率、血压和氧气水平。

在这两个案例中,物理仪器和传感器都会收集真实数据并将其发送到中央存储库。数据通常依靠专用通信协议(例如 Modbus、PROFINET、OPC Unified Architecture 或 EtherNet/IP)进行传输,以进一步执行分析。

但是,物理传感器并非为获取错误率、内存使用率、响应时间、运行时间和延迟等数字性能指标而设计。相反,IT 团队依赖设备进行检测,通常需借助基于软件的代理——即经过编程可自主监控和收集相关系统数据的数字传感器。这些数据通常为指标、事件、日志和跟踪 (MELT) 结构,每种数据均可生成系统行为、运行工作流和性能时间线等不同的视图。

随着越来越多的企业加速推进数字化转型战略,将数字技术深度融入所有业务领域,物理遥测系统与数字遥测系统之间的界限正日趋模糊。

例如,制造业等传统实体行业可能会利用传感器来了解能源消耗、质量控制和环境条件。同时,它还可以依靠软件代理进行高级资产跟踪、预防性维护和生产流程监控。因此,本文将主要聚焦于 IT 遥测及其在现代企业环境中持续扩展的作用。

IT 遥测的核心涉及五个关键步骤:

  1. 利用传感器或软件代理从不同的远程源收集指标、事件、日志和跟踪信息

  2. 通过 Wi-Fi、卫星、无线电或其他通信媒介,将该数据传输到中央存储库或路由器

  3. 处理和整理传入的数据,以便进行查询

  4. 应用时间序列数据库、数据仓库或数据湖等存储解决方案维护数据

  5. 分析、解读和实现数据可视化,以制定更明智的业务决策,通常可借助可观测性平台达成这一目标

有效的遥测战略可帮助组织实现全栈可观测性,或基于技术堆栈的外部输出对其内部状态进行端到端解析。

遥测也是物联网 (IoT) 的主要组成部分之一,物联网是为设备配置高级传感器、软件和网络连接的框架,可支持设备在整个系统内进行通信和交换数据。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

遥测系统如何收集和传输数据?

遥测系统因行业和系统复杂性而异。传统平台采用记录装置(历史上称为“遥测仪”),在设备上或设备附近收集数据。这些信息经过处理、修改,有时还会通过信号调理过程从模拟转换为数字形式。

接下来,多路复用器将多个数据流组合成复合信号,以确保数据更高效地传输。随后,该组合信号通过无线电、卫星或其他通信形式传输到远程接收站。最后,解复用器会解析信号并将其拆分为不同的链,以便进行分析。

遥测在现代 IT 环境中的运作形式有所不同。以 IT 为中心的系统并不依赖物理传感器,而是使用软件代理(即与服务和应用程序协同运行以获取相关指标的轻量级程序)。在 Kubernetes 环境中,这些代理通常在与受监控服务相同的簇内,以独立容器的方式运行。其他配置可能使用软件开发工具包 (SDK) 将代理嵌入应用程序本身,或者运用定制 API 实现数据传输。

完成收集后,数据通过遥测管道进行传输,该管道可以标准化数据、过滤噪声、添加元数据(例如环境和地理位置标签)并屏蔽敏感信息以保持合规性。然后,这些细化后的数据将借助 JSON 或 OpenTelemetry Protocol (OTLP) 等格式实现标准化。

接下来,它通过 gRPC 、HTTP 或其他传输协议智能路由到一个或多个后端(软件系统的服务器端组件,例如服务器、数据库和应用程序逻辑)。后端负责存储这些数据,对其进行分析和解读,并以仪表板、警报、建议等形式呈现。

单一遥测系统可用于管理从收集到分析的整个工作流。但有时,尤其是在现代多云混合环境中,组织可能会采用多个专用遥测系统来管理可观测性管道的不同环节。

IBM DevOps

什么是 DevOps?

Andrea Crawford 阐述了什么是开发运维、开发运维的价值,以及开发运维实践和工具如何帮助您完成从应用程序构思到生产的整个软件交付管道。本课程由 IBM 资深思想领袖主导,旨在帮助企业领导者获得所需的知识,以优先考虑能够推动增长的 AI 投资。

遥测数据的主要类型有哪些?

在 IT 领域,最常见的遥测类型是指标、事件、日志和跟踪,通常统称为“MELT”数据。组织可以利用可观测性平台来组合和分析这些指标,从而全面掌握平台安全性、用户行为、系统效率等信息。

指标

指标是指示系统健康状况或性能的数字测量值。例如,请求率、网络吞吐量、应用程序响应时间、用户转化率和 CPU 使用率。

活动

事件是指系统内发生的不同事件。它们通常包括显示事件开始和结束时间的时间戳。例如,警报通知、用户登录尝试、服务中断、支付失败和配置变更。

日志

与仅标记特定事件的事件系统不同,日志能持续记录系统行为的时间序列。例如,重新启动、数据库查询、文件访问历史记录和代码执行步骤。日志常用于排除故障和调试错误,可帮助 IT 团队查明故障发生的确切时间。

跟踪

跟踪可反映特定用户请求或交易在分布式或微服务环境中的端到端流程,且带有每个步骤的时间戳。例如,API 和 HTTP 调用、数据库查询和电子商务结账。跟踪可以识别瓶颈并提供对整体用户体验的洞察分析。

其他遥测类型

虽然 MELT 展现了企业可用的遥测数据广度,但在此框架之外仍存在对可观测性至关重要的其他数据类型。遥测类型间的界限并非总是“泾渭分明”,可能存在交叉重叠。例如,延迟既可视作指标,也可视为网络遥测数据点。其他类型的遥测数据包括:

  • 位置遥测使用传感器或 GPS 接收器来跟踪人员或物体的地理位置。其应用场景包括运输车队管理、应急服务、野生动物跟踪和人员安全。

  • 网络遥测通过跟踪带宽使用情况、数据包丢失率、API 性能和简易网络管理协议 (SNMP) 数据(与调制解调器、路由器、服务器和其他连接设备相关的信息),提供对网络流量、安全性和性能的实时洞察分析。

  • 安全遥测通过检查身份验证日志、防火墙日志、DNS 查询、入侵检测警报以及端点检测和响应 (EDR) 数据,识别可疑行为和漏洞。

  • 用户遥测可跟踪应用程序使用模式、错误日志、会话持续时间、搜索查询和其他类型的用户行为。这些数据可用于优化应用程序和服务、了解客户趋势和维护网络安全。

  • 剖析遥测可展现软件和应用程序对 CPU、内存和其他计算机资源的持续使用情况。它能提供细粒度性能数据,以便开发人员了解速度迟缓的原因,以及代码库中哪些部分的使用率最高。

  • 云遥测负责收集云服务的性能、成本跟踪和使用数据。这些数据可能包括存储活动、配置变更、身份和访问事件以及路由决策。

  • AI 遥测可以在训练和生产过程中跟踪模型性能。其关键指标包括模型漂移(跟踪机器学习模型随时间推移如何丧失连贯性和准确性)、置信度分数(确定模型对其预测结果的置信度)和推理延迟(模型响应查询所需的时间)。这些指标可以帮助开发人员提高模型可靠性、公平性和性能。

遥测、监控与可观测性

遥测指的是从分布式系统和组件收集并传输多种类型数据的过程。它是组织可视化能力的基础,可助其深入洞察分析每个组件的运行状态与性能表现。企业最终要依靠遥测来支持其监控和可观测性系统。

监控是指组织如何利用其收集的遥测数据。例如,遥测监控系统可能会通过仪表板来帮助 DevOps 团队直观了解系统性能。同时,警报自动化可在发生重大事件(例如网络中断或数据泄露)时推送通知。

可观测性涉及解读运行数据,以及了解不同数据流与系统健康状况和性能之间的关联。可观测性不仅能分析当前数据,还可识别宏观趋势,从而优化企业决策能力与资源利用率。现代可观测性平台通常包括内置遥测和监控功能。可观测性在支持新兴科技(包括 agentic AI生成式 AI 平台)方面也发挥着关键作用。

常见的 IT 遥测解决方案

OpenTelemetry (OTel) 的开源框架是最受欢迎的遥测平台之一,其价值在于灵活性(其模块化设计支持定制)、经济性(免费提供核心组件)和兼容性(与多个供应商和编程语言兼容)。OTel 不负责处理遥测存储或可视化数据。相反,它提供了一套标准化的 SDK、API 和其他工具,用于收集和传输数据。

根据 AI 公司 Elastic 的 2025 年报告,近半数的 IT 组织均采用 OTel,另有 25% 的组织计划在未来实施此框架。与可观测性工作流尚不完善的企业相比,具备成熟可观测性系统的组织更有可能实施 OTel。IBM® Instana、Datadog、Grafana、New Relic、Dynatrace 和 Splunk 均具备强大的 OTel 支持能力。

另一款开源框架“Prometheus”与 OTel 存在部分相似点。这两种解决方案均由云原生计算基金会 (CNCF) 托管,后者是非营利组织 Linux 基金会的下属机构。与 OTel 不同,Prometheus 具备部分数据存储和数据可视化能力。但其范围较为狭窄:OTel 可以收集不同类型的遥测数据,而 Prometheus 仅专注于指标数据。

什么是遥测规范化?

遥测规范化指的是将指标转换为标准化格式,以便分析工具对其进行存储、读取和解读的过程。目前存在两种主流方案:

写时模式

在这一数据处理方案中,所有数据必须符合预定义的格式,才能完成存储和检索。虽然写时模式非常可靠,但它可能很难在现代 IT 架构中实施,因为现代 IT 架构涉及多个系统,每个系统都包含不同的格式和归档流程。

写时模式常用于称为“数据仓库”的集中式数据存储库。这些存储解决方案可以维护大量遥测数据,但前提是此类数据必须按照预定义的格式进行结构化整理。数据仓库的扩展和维护成本高昂,但非常适合商业智能、数据分析和其他以一致性和可靠性为首要考量点的工作流。

读时模式

此方案以原始格式收集数据,仅在用户检索数据时进行转换。虽然操作复杂度更高,但读时模式可以处理多种格式的数据,因此相比写时模式更为灵活。

读时模式常用于数据湖,后者类似于数据仓库,但可以存储和管理半结构化数据、原始非结构化数据及结构化数据。数据湖因其成本效益和灵活性而备受推崇,适用于机器学习驱动的分析工具。但是,如果缺乏完善的治理措施,数据湖可能难以管理,导致数据未经验证或不一致。

数据湖仓一体

一种名为“湖仓一体”的新兴替代方案旨在结合数据湖和数据仓库的优势。该框架支持非结构化数据的读时模式,同时支持结构化数据的写时模式。这一混合方案可帮助组织保持一致性和准确性,同时受益于数据湖的灵活性与敏捷性。

遥测挑战

遥测数据可能难以收集、维护和存储,尤其是在现代混合和多云环境中。常见的挑战包括:

兼容性

设备和服务可能采用不同的格式、协议和模型来记录遥测数据,从而限制其与中央存储库进行通信的能力。例如,远程医疗设备可能通过专有协议测量患者的生命体征,而与其通信的电子医疗保健系统则采用标准协议。这一不兼容性可能需要 DevOps 团队构建自定义中间件以实现连接。

不兼容性还会导致组织难以维持各个架构层的可见性,从而引发数据孤岛、创新障碍和客户体验断层。企业可以通过建立一致的数据格式、实施严格的防护措施、开展例行审计以及跨组件执行同步和版本控制来应对这一挑战。

存储

冗余和杂乱的数据可能导致存储成本失控,或因噪声过多而导致分析结果失准。健全的治理机制有助于降低这些风险。

例如,DevOps 团队可以实施数据保留策略,在特定时间范围后自动删除数据。采样(保留大型数据集中的代表性样本)、汇总(计算特定数据集的平均值)和分层存储(将旧数据迁移至速度更慢、成本更低的存储解决方案)也可以减少存储压力和定价。

合规性

企业——尤其是医疗保健、法律服务和人力资源领域中需要经常存储和交换个人身份信息的企业,应遵守有关数据保留、隐私和主权的严格法规。由于现代 DevOps 团队需要收集和分析海量遥测数据,因此合规管控是一项挑战。

为了应对这一挑战,组织可以实施强大的加密实践和令牌控制,以保护敏感数据免遭安全漏洞和意外泄露。审计可以帮助组织审核遥测管道,尽早发现管道中的漏洞。同样,过滤系统可以在不合规数据触达用户前进行识别和移除。最后,企业可以通过完善的治理框架来有效执行数据保留和驻留策略,从而维持合规性。

数据不连贯

遥测系统生成的大量数据使企业不堪重负,进而掩盖关键趋势,并影响对系统安全和效率的洞察分析。同时,警报过多造成的警报疲劳问题会分散 DevOps 团队完成高优先级任务的注意力,并给计算资源带来不必要的压力。组织可以采取自动执行警报响应、过滤边缘冗余数据、建立完善的标签和命名规范以及执行资源配额和限制等措施加以应对。

遥测优势

遥测支持组织将数据转化为切实可行的洞察分析,用于优化性能、工作流效率、预算管理、客户体验等。

运营效率

遥测数据可帮助 DevOps 团队确定哪些组件和系统运行良好,哪些需要更新、重新配置或更换。它还支持预测性维护,以便团队分析历史趋势和实时性能数据,从而主动维护设备并防范关键故障。遥测系统还能有效分类、整理和移除过时或不相关的数据,以减少运营浪费。

与人工数据分析不同,遥测数据通常以自动方式实时收集。此流程有助于确保企业快速解决问题,以免造成停机或代价高昂的故障。遥测系统还能帮助企业在大规模发布更新与创新功能前,跟踪其对系统的影响。

提高安全性

遥测系统可帮助企业实时了解用户、应用程序和系统行为。持续监控有助于建立性能基线,从而轻松检测异常情况,例如异常网络流量、频繁登录失败、意外安装和其他可疑活动。遥测还可以揭示影子 IT (即集中式治理范围外运行的未授权组件),以消除攻击者的潜在入口点。

强大的加密策略可以保护整个遥测管道中的数据,而保留措施则可确保仅在必要时保留私人数据。基于角色的访问控制支持利益相关者访问私人数据,审计跟踪和日志则可提供近期系统操作的详细历史记录,从而实现更准确、更高效的安全调查。

可扩展性

遥测允许团队更深入地持续洞察分析系统的使用情况,从而动态扩展资源以适应不断变化的工作量需求。团队可以利用这些洞察分析来优化资源利用率和控制成本,同时为客户维护稳定、安全的环境。

更明智的决策

遥测平台可帮助团队整合组织内的数据,从而制定更明智的数据驱动型业务决策。可观测性平台依赖遥测数据来分析系统健康状况、客户旅程、用户参与度和其他关键性能指标。最重要的是,遥测可收集并整合来自分布式应用程序和系统的数据,确保企业全面了解业务决策如何影响整个环境,而非个别组件。

相关解决方案
IBM DevOps Accelerate

实现本地、云端或大型机上任何应用程序的自动化软件交付

深入了解 DevOps Accelerate
DevOps 解决方案

使用开发运维软件和工具,在多种设备和环境中构建、部署和管理云原生应用程序。

深入了解开发运维解决方案
云咨询服务

利用 IBM 的云咨询服务发掘新功能并提升业务敏捷性。了解如何通过混合云战略和专家合作共同制定解决方案、加快数字化转型并优化性能。

云服务
采取后续步骤

通过持续集成和交付,释放 DevOps 的潜力,来构建、测试和部署安全的云原生应用程序。

探索 DevOps 解决方案 探索 DevOps 的实际应用