O que é telemetria?

Vista aérea de um prédio futurista

Autores

Nick Gallagher

Staff Writer, Automation & ITOps

IBM Think

Michael Goodwin

Staff Editor, Automation & ITOps

IBM Think

O que é telemetria?

Telemetria é o processo automatizado de coletar e transmitir métricas de desempenho e logs de eventos de ativos e sistemas distribuídos. Os dados coletados são enviados a diferentes sistemas, viabilizando o monitoramento e análise para diagnosticar falhas, identificar melhorias e otimizar recursos.

A telemetria desempenha um papel fundamental em vários setores, incluindo saúde, aeroespacial, automotivo e tecnologia da informação (TI) oferecendo às organizações insights valiosos sobre o desempenho do sistema, o comportamento do usuário, a segurança e a eficiência operacional.

Em setores que dependem de ativos físicos, como agricultura, serviços públicos e transporte, as organizações utilizam telemetria para capturar medidas como temperatura, pressão do ar, movimento e luz. Na área da saúde, os sistemas de telemetria podem monitorar a frequência cardíaca, a pressão arterial e os níveis de oxigênio.

Em ambos os casos, instrumentos físicos e sensores coletam dados do mundo real e os enviam para um repositório central. Os dados são frequentemente transmitidos por meio de um protocolo de comunicação especializado, como Modbus, PROFINET, OPC Unified Architecture ou EtherNet/IP para análise posterior.

No entanto, os sensores físicos não são projetados para capturar indicadores de desempenho digital, como taxas de erro, uso de memória, tempos de resposta, tempo de atividade e latência. Em vez disso, as equipes de TI dependem da instrumentação de dispositivos, muitas vezes por meio de agentes baseados em software – sensores digitais programados para monitorar e coletar de forma autônoma dados relevantes do sistema. Esses dados geralmente são estruturados como métricas, eventos, logs e rastreamentos (MELT), com cada um capturando uma visão diferente do comportamento do sistema, fluxos de trabalho operacionais e cronogramas de desempenho.

As linhas entre os sistemas de telemetria física e digital estão começando a se confundir, especialmente com as empresas adotando cada vez mais estratégias de transformação digital, que visam integrar a tecnologia digital a todas as áreas de uma empresa.

Por exemplo, um setor tradicionalmente físico como fabricação pode usar sensores para capturar o consumo de energia, o controle de qualidade e as condições ambientais. Ao mesmo tempo, pode contar com agentes de software para rastreamento avançado de ativos, manutenção preventiva e monitoramento do fluxo de produção. Por esse motivo, este artigo concentra-se principalmente na telemetria de TI e seu papel crescente em ambientes empresariais modernos.
 

Telemetria em TI
 

Basicamente, a telemetria de TI envolve cinco etapas principais:

  1. Coleta de métricas, eventos, logs e rastreamentos de fontes remotas díspares com sensores ou agentes de software

  2. Transmissão desses dados para um repositório central ou roteador por meio de Wi-Fi, satellite, rádio ou outro meio de comunicação

  3. Processamento e organização dos dados recebidos para serem facilmente consultados

  4. Manutenção dos dados com uma solução de armazenamento como um Time Series Database, um data warehouse ou um data lake.

  5. Análise, interpretação e visualização dos dados para tomar decisões de negócios mais bem informadas, muitas vezes com a ajuda de uma plataforma de observabilidade.

Estratégias eficazes de telemetria ajudam as organizações a alcançar full stack observability ou a capacidade de entender o estado interno de um stack de tecnologia de ponta a ponta com base em suas saídas externas.

A telemetria também é um componente importante da Internet das coisas (IoT), um framework que equipa dispositivos com sensores avançados, software e conectividade de rede, permitindo que se comuniquem e troquem dados pelo sistema.

Como os sistemas de telemetria coletam e transmitem dados?

Os sistemas de telemetria variam de acordo com o setor e a complexidade do sistema. As plataformas tradicionais usam dispositivos de gravação, historicamente chamados de telêmetros, para coletar dados em um equipamento ou próximo a ele. Essas informações são processadas, modificadas e, às vezes, convertidas de analógicas para digitais, em um processo chamado condicionamento de sinal.

Em seguida, um multiplexador combina múltiplos fluxos de dados em um sinal composto, o que ajuda os dados a viajar de forma mais eficiente. Esse sinal combinado é então transmitido para uma estação de recepção remota por meio de rádio, satellite ou outra forma de comunicação. Finalmente, um demultiplexador analisa os sinais e os divide em filamentos díspares para prepará-los para análise.

A telemetria funciona de maneira diferente em ambientes de TI modernos. Em vez de depender de sensores físicos, os sistemas focados em TI usam agentes de software — programas leves executados com serviços e aplicações para capturar métrica relevantes. Em ambientes do Kubernetes, esses agentes frequentemente operam em um contêiner separado dentro do mesmo cluster que os serviços que monitoram. Outras configurações podem usar kits de desenvolvimento de software (SDKs) para incorporar agentes dentro das próprias aplicações — ou usar APIs personalizadas para facilitar as transferências de dados.

Após a coleta, os dados são transportados por um pipeline de telemetria que pode padronizar os dados, filtrar ruídos, adicionar metadados (como tags de ambiente e geolocalização) e mascarar informações confidenciais para manter a conformidade. Esses dados refinados são padronizados com um formato como JSON ou OpenTelemetry Protocol (OTLP).

Em seguida são roteados de forma inteligente para um ou mais backends (componentes do lado do servidor de um sistema de software: servidores, bancos de dados e lógica de aplicações, por exemplo) por meio de gRPC, HTTP ou outro protocolo de transporte. O backend é responsável por armazenar esses dados, analisá-los, interpretá-los e apresentá-los na forma de dashboards, alertas, recomendações e outras formas.

Um único sistema de telemetria pode ser usado para gerenciar todo o fluxo de trabalho, da coleta à análise. Algumas vezes, no entanto, especialmente em ambientes multinuvem e híbridos modernos, as organizações podem usar vários sistemas de telemetria especializados para gerenciar diversas partes do pipeline de observabilidade.

IBM DevOps

O que é DevOps?

Andrea Crawford explica o que é DevOps, seu valor e como suas práticas e ferramentas ajudam você a migrar suas aplicações por todo o pipeline de entrega de software, desde a concepção até a produção. Conduzido pelos principais líderes da IBM, o conteúdo foi concebido para ajudar os líderes empresariais a adquirir o conhecimento necessário para priorizar os investimentos em IA que podem estimular o crescimento.

Quais os principais tipos de dados de telemetria?

Na TI, os tipos mais comuns de telemetria são métricas, eventos, logs e rastreamentos, geralmente chamados coletivamente como dados “MELT”. As organizações podem usar plataformas de observabilidade para combinar e analisar essas métricas, formando uma imagem completa da segurança da plataforma, do comportamento do usuário, da eficiência do sistema e muito mais.

Métrica

Métricas são medidas numéricas indicativas da integridade ou do desempenho do sistema. Alguns exemplos são taxas de solicitação, taxa de transferência da rede, tempos de resposta das aplicações, taxas de conversão de usuários e uso da CPU.

Eventos

Eventos são ocorrências distintas que ocorrem dentro do sistema. Frequentemente são carimbos de data/hora que mostram quando um evento começou e quando terminou. Os exemplos são notificações de alerta, tentativas de login de usuários, interrupções de serviço, falhas de pagamento e alterações de configuração.

Logs

Os logs proporcionam um registro contínuo e cronológico do comportamento do sistema, ao contrário dos eventos, que sinalizam apenas incidentes específicos. Alguns exemplos são reinicializações, consultas de bancos de dados, históricos de acesso a arquivos e etapas de execução de código. Os logs são frequentemente utilizados para solucionar problemas e depurar erros, ajudando as equipes de TI a identificar o momento preciso em que uma falha ocorreu.

Rastreios

Os rastreamentos refletem o fluxo de ponta a ponta de uma solicitação ou transação específica do usuário por meio de um ambiente distribuído ou de microsserviço, com registros de data/hora para cada etapa. Alguns exemplos são chamadas de API e HTTP, consultas de bancos de dados e checkouts de comércio eletrônico. Os rastreamentos podem identificar gargalos e apresentar insights sobre a experiência geral do usuário.

Outros tipos de telemetria

Embora o MELT mostre a variedade de dados de telemetria disponíveis para empresas, há outros tipos de dados que estão fora desse framework, mas que ainda desempenham um papel crítico na observabilidade. Os limites entre os tipos de telemetria nem sempre são claros e pode haver cruzamentos. Por exemplo, a latência pode ser considerada tanto uma métrica quanto um ponto de dados de telemetria de rede. Outros tipos de dados de telemetria são: 

  • A telemetria de localização usa sensores ou receptores GPS para rastrear a localização geográfica de uma pessoa ou objeto. As aplicações incluem gerenciamento de frotas de transporte, serviços de emergência, rastreamento de vida selvagem e segurança do trabalhador.

  • A telemetria de rede apresenta insights em tempo real sobre tráfego, segurança e desempenho de rede rastreando o uso de largura de banda, taxas de perda de pacotes, desempenho de APIs e dados de protocolo de gerenciamento de rede simples (SNMP) (informações relacionadas a modems, roteadores, servidores e outros dispositivos conectados).

  • A telemetria de segurança identifica comportamentos suspeitos e vulnerabilidades examinando logs de autenticação, logs de firewall, consultas de DNS, alertas de detecção de intrusão e dados de detecção e resposta de endpoint (EDR).

  • A telemetria de usuário rastreia padrões de uso de aplicações, logs de erros, durações de sessões, consultas de pesquisa e outros tipos de comportamento do usuário. Esses dados são utilizados para otimizar aplicações e serviços, conhecer as tendências dos clientes e manter uma rede segura.

  • A telemetria de criação de perfil mostra como o software e as aplicações usam CPU, memória e outros recursos do computador com o passar do tempo. Ela oferece dados de desempenho refinados que podem ajudar os desenvolvedores a entender a origem de uma lentidão, bem como quais partes da base de código são mais usadas.

  • A telemetria de nuvem coleta dados de desempenho, rastreamento de custos e uso dos serviços de nuvem. Esses dados podem incluir atividades de armazenamento, alterações de configurações, eventos de identidade e acesso e decisões de roteamento.

  • A telemetria de IA pode rastrear o desempenho do modelo durante o treinamento e a produção. As principais métricas são desvio do modelo (rastreamento de como um modelo de aprendizado de máquina perde coerência e precisão com o passar do tempo), pontuações de confiança (determinando o nível de confiança do modelo em suas previsões) e latência de inferência (o tempo necessário para o modelo responder a uma consulta) . Essas métricas podem ajudar os desenvolvedores a melhorar a confiabilidade, a imparcialidade e o desempenho do modelo.

Telemetria versus monitoramento versus observabilidade

Telemetria é o processo de coleta e transmissão de vários tipos de dados de sistemas e componentes distribuídos. É a base dos recursos de visibilidade de uma organização, oferecendo insights sobre o desempenho e o comportamento cada componente. As empresas dependem, em última análise, da telemetria para alimentar seus sistemas de monitoramento e observabilidade.

Monitoramento refere-se a como as organizações fazem uso dos dados de telemetria reunidos. Por exemplo, um sistema de monitoramento de telemetria pode usar dashboards para ajudar as equipes de DevOps a visualizar o desempenho do sistema. Enquanto isso, as automações de alerta podem enviar notificações sempre que ocorrer um evento importante, como uma interrupção de rede ou uma violação de dados.

A observabilidade envolve a interpretação de dados operacionais e a compreensão de como diversos fluxos de dados se correlacionam com a integridade e o desempenho do sistema. A observabilidade não somente analisa os dados atuais, como também identifica tendências maiores, usando-as para informar e otimizar a tomada de decisão empresarial e o uso de recursos. As plataformas modernas de observabilidade geralmente incluem funções de telemetria e monitoramento incorporadas. A observabilidade também desempenha um papel fundamental na compatibilidade com tecnologias emergentes, incluindo plataformas de IA agêntica e IA generativa.

Soluções comuns de telemetria de TI

Um framework de código aberto chamado OpenTelemetry (OTel) está entre as plataformas de telemetria mais populares, valorizado por sua flexibilidade (seu design modular promove a personalização), acessibilidade (seus componentes principais estão disponíveis sem custo) e compatibilidade (é compatível com vários fornecedores e linguagens de programação). O OTel não lida com armazenamento nem visualização de telemetria. Em vez disso, oferece um conjunto padronizado de SDKs, APIs e outras ferramentas voltadas para a coleta e transmissão de dados.

Quase a metade das organizações de TI usam o OTel, enquanto outras 25% planejam implementar o framework no futuro, de acordo com um relatório de 2025 da empresa de IA Elastic. Organizações com sistemas de observabilidade maduros são mais propensas a usar o OTel do que empresas com fluxos de trabalho de observabilidade menos desenvolvidos. IBM Instana, Datadog, Grafana, New Relic, Dynatrace e Splunk contam com compatibilidade robusta com o OTel.

Um framework de código aberto alternativo chamado Prometheus compartilha algumas semelhanças com o OTel. A Cloud Native Computing Foundation (CNCF), ela própria uma subsidiária da Linux Foundation, uma instituição sem fins lucrativos, hospeda ambas as soluções. Ao contrário do OTel, o Prometheus tem alguns recursos de armazenamento de dados e visualização de dados. Mas seu escopo é um pouco mais restrito: enquanto o OTel pode coletar diferentes tipos de dados de telemetria, o Prometheus trabalha exclusivamente com métricas.

O que é normalização da telemetria?

A normalização da telemetria é o processo de conversão de métricas em um formato padronizado, para que as ferramentas de análise de dados possam armazená-las, lê-las e interpretá-las. Há duas abordagens principais:

Schema-on-write

Nessa abordagem de processamento de dados, todos os dados devem corresponder a um formato predefinido para poderem ser armazenados e recuperados. Embora o schema-on-write seja altamente confiável, pode ser difícil implementá-lo em arquiteturas de TI modernas, que envolvem vários sistemas, cada um com formatos e processos de arquivamento distintos.

O schema-on-write é comumente utilizado em repositórios de dados centralizados chamados data warehouse. Essas soluções de armazenamento podem manter vastas quantidades de dados de telemetria, mas somente se esses dados forem estruturados e organizados em um formato predefinido. Os data warehouses podem ser caros para escalar e manter, mas são ideais para business intelligence, análise de dados e outros fluxos de trabalho onde a consistência e a confiabilidade são as principais prioridades.

Schema-on-read

Essa abordagem coleta dados em seu formato original e os converte somente quando um usuário os recupera. Embora operacionalmente mais complexo, o schema-on-read pode lidar com dados em vários formatos, tornando-o mais flexível do que o schema-on-write.

O schema-on-read é comum em data lakes, que são como data warehouses, mas podem armazenar e gerenciar dados semiestruturados e dados não estruturados brutos juntamente com dados estruturados. Os data lakes são valorizados por sua economia e agilidade, tornando-os especialmente ideais para ferramentas de análise de dados impulsionadas por aprendizado de máquina. Porém, sem uma governança sólida, eles podem ser difíceis de gerenciar, levando a dados não verificados ou inconsistentes.

Data Lakehouse

Uma alternativa emergente chamada data lakehouse visa combinar os melhores elementos de data lakes e data warehouses. O framework é compatível com o schema-on-read para dados não estruturados e, ao mesmo tempo, habilita o schema-on-write para dados estruturados. Essa abordagem híbrida ajuda as organizações a manter a consistência e a precisão se beneficiando da flexibilidade e agilidade dos data lakes.

Desafios da telemetria

Os dados de telemetria podem ser difíceis de reunir, manter e armazenar, especialmente em ambientes híbridos e multinuvem modernos. Alguns desafios comuns são:

Compatibilidade

Dispositivos e serviços podem usar diversos formatos, protocolos e modelos para registrar dados de telemetria, limitando sua capacidade de comunicação com o repositório central. Por exemplo, um dispositivo médico remoto pode usar um protocolo proprietário para medir os sinais vitais de um paciente, enquanto o sistema eletrônico de saúde com o qual ele se comunica utiliza um protocolo padrão. Essa incompatibilidade pode exigir que uma equipe de DevOps crie middleware personalizado para facilitar a conexão.

As incompatibilidades também podem dificultar para as organizações a manutenção da visibilidade sobre cada camada da arquitetura, levando a silos de dados, obstáculos à inovação e lacunas na experiência do cliente. As empresas podem lidar com esse desafio estabelecendo formatos de dados consistentes, implementando proteções rigorosas, realizando auditorias de rotina e impondo a sincronização e o controle de versão entre os componentes.

Armazenamento

Dados redundantes e desordenados podem levar a custos de armazenamento descontrolados ou a análises falhas devido ao excesso de ruído. Uma governança sólida pode ajudar a mitigar esses riscos.

Por exemplo, equipes de DevOps podem implementar políticas de retenção de dados, onde os dados são excluídos automaticamente após um determinado período de tempo. A amostragem (preservação de uma amostra representativa de um conjunto de dados maior), a agregação (cálculo da média de um determinado conjunto de dados) e o armazenamento em camadas (migração de dados mais antigos para soluções de armazenamento mais lentas e acessíveis) também podem reduzir a pressão sobre o armazenamento e os preços.

Conformidade

As empresas (especialmente as de saúde, serviços jurídicos e recursos humanos, onde informações de identificação pessoal são frequentemente armazenadas e trocadas) estão sujeitas a regulamentações rígidas que envolvem retenção, privacidade e soberania de dados. A conformidade pode ser um desafio devido ao grande volume e à escala de dados de telemetria que as equipes modernas de DevOps são solicitadas a coletar e analisar.

Para lidar com esse desafio, as organizações podem implementar práticas fortes de criptografia e controles de tokens que protejam dados confidenciais contra violações de segurança e exposições acidentais. As auditorias podem ajudar as organizações a avaliar pipelines de telemetria e identificar vulnerabilidades precocemente. De forma semelhante, sistemas de filtragem podem identificar e remover dados fora de conformidade conformes antes que cheguem aos usuários. Por fim, as empresas podem manter a conformidade por meio de frameworks de governança sólidos que efetivamente imponham políticas de retenção e residência de dados.

Incoerência de dados

O volume de dados gerados pelos sistemas de telemetria pode sobrecarregar as empresas, turvando tendências significativas e obscurecendo insights sobre a segurança e a eficiência do sistema. Enquanto isso, a fadiga de alertas causada por alertas excessivos pode desviar as equipes de DevOps da conclusão de tarefas de alta prioridade e sobrecarregar desnecessariamente recursos computacionais. As organizações podem reagir automatizando respostas a alertas, filtrando dados redundantes na edge, estabelecendo convenções sólidas de rotulagem e nomeação e impondo cotas e limites de recursos.

Benefícios da telemetria

A telemetria possibilita que as organizações transformem dados em insights práticos que podem ser usados para melhorar o desempenho, a eficiência dos fluxos de trabalho, o orçamento, a experiência do cliente e outros.

Eficiência operacional

Os dados de telemetria ajudam as equipes de DevOps a identificar quais componentes e sistemas estão funcionando bem e quais precisam ser atualizados, reconfigurados ou substituídos. Também apoia a manutenção preditiva quando as equipes analisam tendências históricas e dados de desempenho em tempo real para manter o equipamento de forma proativa, evitando falhas críticas. Os sistemas de telemetria também classificam, organizam e removem dados desatualizados ou irrelevantes de forma eficiente, reduzindo o desperdício operacional.

Ao contrário da análise manual de dados, os dados de telemetria são normalmente coletados automaticamente e em tempo real. Esse processo ajuda a garantir que as empresas lidem com os problemas com rapidez antes que resultem em downtime ou falhas dispendiosas. Os sistemas de telemetria também podem permitir que as empresas acompanhem como as atualizações e inovações afetariam o sistema antes de implementá-las em escala.

Maior segurança

Os sistemas de telemetria proporcionam visibilidade em tempo real do comportamento de usuários, aplicações e sistemas. O monitoramento constante ajuda a estabelecer uma linha de base de desempenho, facilitando a detecção de anomalias como tráfego de rede incomum, tentativas repetidas de login, instalações inesperadas e outras atividades suspeitas. A telemetria também pode expor a TI invisível (componentes não autorizados agindo fora da governança centralizada), ajudando a eliminar possíveis pontos de entrada para invasores.

Políticas de criptografia robustas podem proteger dados em todo o pipeline de telemetria, enquanto a imposição de retenção ajuda a garantir que os dados privados sejam mantidos somente quando necessário. Os controles de acesso baseados em função possibilitam que os stakeholders acessem dados privados e as trilhas e registros de auditoria oferecem um histórico detalhado das ações recentes do sistema, possibilitando investigações de segurança mais precisas e eficientes.

Escalabilidade

A telemetria oferece às equipes uma visão mais profunda do uso do sistema com o passar do tempo, permitindo que ampliem dinamicamente os recursos para acomodar as mudanças das demandas das cargas de trabalho. As equipes podem usar esses insights para otimizar a utilização de recursos e controlar os custos e, ao mesmo tempo, manter um ambiente estável e seguro para os clientes.

Tomada de decisão mais inteligente

As plataformas de telemetria ajudam as equipes a sintetizar dados de toda a organização para tomar decisões de negócios mais bem informadas e baseadas em dados. As plataformas de observabilidade dependem de dados de telemetria para analisar a integridade do sistema, as jornadas dos clientes, o engajamento dos usuários e outros indicadores-chave de desempenho. Fundamentalmente, a telemetria coleta e integra dados de aplicações e sistemas distribuídos, dando às empresas uma visão holística de como as decisões de negócios afetam todo o ambiente, não somente componentes individuais.

Soluções relacionadas
IBM instana observability

Aproveite o poder da IA e da automação para resolver problemas de forma proativa em todo o stack de aplicações.

Explore o IBM Instana Observability
Soluções de observabilidade da IBM

Maximize a resiliência operacional e garanta a integridade das aplicações nativas da nuvem com a observabilidade impulsionada por IA.

Explore as soluções de observabilidade da IBM
IBM Consulting AIOps

Eleve a automação e as operações de TI com a IA generativa, alinhando todos os aspectos da sua infraestrutura de TI com as prioridades do negócio.

Explore a consultoria de AIOps do IBM Consulting
Dê o próximo passo

Descubra como IBM Instana oferece monitoramento de desempenho de aplicações em tempo real e insights impulsionados por IA, disponíveis como SaaS ou hospedado localmente.

  1. Explore o IBM Instana Observability
  2. Veja em ação