O que é observabilidade nativa da nuvem?

By Derek Robertson and Matthew Kosinski

Observabilidade nativa da nuvem, definição

A observabilidade nativa da nuvem é a capacidade de compreender aplicações e sistemas de nuvem altamente complexos – normalmente baseados em microsserviços e, frequentemente, sem servidor – com base em suas saídas e dados de telemetria.

A observabilidade nativa da nuvem difere da observabilidade tradicional por seu foco específico nos desafios impostos pelos sistemas em nuvem. Nesses sistemas, contêineres, máquinas virtuais e outros recursos podem ser provisionados e excluídos em questão de instantes, criando enormes quantidades de dados que, por vezes, são efêmeros.

As soluções de observabilidade nativas da nuvem ajudam as organizações a rastrear pontos de dados importantes nesse sistema mutável, o que, por sua vez, auxilia no processo de DevOps e nas suas pequenas, frequentes e, muitas vezes, automatizadas atualizações.

As plataformas de observabilidade nativas da nuvem coletam dados de todo o ambiente de nuvem híbrida de uma organização, que pode consistir em serviços de vários provedores (como Microsoft Azure e Amazon Web Services), servidores locais e as muitas ferramentas e recursos que eles suportam (como microsserviços ou ferramentas de orquestração de contêineres, como o Kubernetes). Elas fornecem insights praticáveis sobre métricas como tráfego de rede, latência e correlações entre essas métricas em todas as plataformas, muitas vezes automatizando os reparos necessários e a visualização dos dados coletados.

Por exemplo, uma plataforma de observabilidade baseada em nuvem pode coletar métricas de latência de uma máquina virtual hospedada em um servidor na nuvem, logs dos contêineres orquestrados pelo Kubernetes dessa máquina virtual, descrevendo suas chamadas de API e informações sobre eventos de rede, como a implementação de uma nova aplicação. Em seguida, pode apresentar os dados coletados em forma de gráfico ou tabela e realizar uma análise da causa raiz, fornecendo aos administradores insights sobre o que causa o downtime.

Muitas plataformas modernas utilizam inteligência artificial (IA) e aprendizado de máquina (ML) para viabilizar essas funcionalidades automatizadas. Segundo um relatório de 2025 da 451 Research, 71% das organizações que utilizam soluções de observabilidade estão usando suas funcionalidades de IA, um aumento em relação aos 26% registrados em 2024.¹

Muitas ferramentas populares de observabilidade nativa da nuvem são de código aberto, como a OpenTelemetry, Jaeger e Prometheus. Ao permitir que a comunidade de desenvolvedores faça correções específicas para plataformas ou aplicações à medida que os problemas surgem, as ferramentas de código aberto oferecem às organizações mais flexibilidade em ambientes nativos da nuvem, por vezes imprevisíveis, além de maior capacidade de conectar suas ferramentas a diversos sistemas e interfaces de programação de aplicativos (APIs).

Boletim informativo do setor

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Como funciona a observabilidade nativa da nuvem?

As ferramentas de observabilidade nativas da nuvem coletam logs, rastreamentos e métricas de todo o ecossistema da nuvem. Elas frequentemente apresentam dados brutos, análises e visualizações por meio de um dashboard que ajuda os usuários a monitorar a integridade da aplicação e os objetivos de negócios.

Coleta de dados

Em um ambiente de nuvem composto principalmente por microsserviços, novos contêineres e máquinas virtuais podem surgir e desaparecer num instante, criando uma enorme quantidade de dados de telemetria. Isso cria um problema novo que as plataformas de observabilidade nativas da nuvem precisam enfrentar: ver tudo em uma rede que está em constante mudança e rastrear dados de fontes que podem não existir mais à medida que a rede se expande e contrai automaticamente para atender às necessidades dos negócios.

As ferramentas de observabilidade facilitam a coleta e agregação de dados de memória da CPU, logs de aplicativos, informações de disponibilidade, latência média e outros pontos de dados dentro dessas redes complexas.

As plataformas de observabilidade nativas da nuvem dependem dos três pilares da observabilidade: logs, rastreamentos e métricas.

Logs

Os logs são registros granulares, com carimbo de data/hora, completos e imutáveis de eventos das aplicações. Podem ser usados para criar um registro de alta fidelidade, milissegundo por milissegundo, de cada evento, completo com o contexto circundante. Os desenvolvedores usam logs para solução de problemas e depuração.

Traços

Os rastreamentos registram a "jornada" de ponta a ponta de cada solicitação do usuário, desde a interface do usuário, passando por toda a arquitetura e voltando ao usuário.

Métrica

Métricas são medidas fundamentais da integridade das aplicações e do sistema ao longo do tempo. Por exemplo, as métricas são usadas para medir quanta memória ou capacidade de CPU uma aplicação usa em cinco minutos ou quanta latência uma aplicação experimenta durante um pico de uso.

Monitoramento

A visibilidade é a principal função das plataformas de observabilidade nativas da nuvem. A capacidade de monitorar contêineres, máquinas virtuais, servidores e outros elementos de uma rede baseada em microsserviços é uma funcionalidade crítica para essas arquiteturas, nas quais o rastreamento distribuído e os mapas de dependência podem ser complicados e quase indecifráveis.

Os dashboards de observabilidade permitem que os usuários monitorem métricas de integridade da aplicação, como disponibilidade e uso de recursos, além de objetivos de negócios relevantes, como taxa de conversão ou usuários ativos. As funcionalidades de monitoramento também ajudam a esclarecer como os serviços interagem entre si (usando ferramentas como gráficos de dependência) e como se encaixam na arquitetura geral.

Análise

O monitoramento tradicional era feito com ferramentas de gerenciamento de desempenho de aplicações (APM) , que agregavam os dados coletados de cada fonte de dados para criar relatórios, dashboards e visualizações de fácil compreensão – algo semelhante à funcionalidade de monitoramento em softwares de observabilidade modernos.

Em um ambiente moderno de computação em nuvem, as ferramentas de observabilidade geralmente transferem a telemetria básica para a camada Kubernetes, em que o software de orquestração de contêineres usa ferramentas nativas para realizar a observabilidade dentro da plataforma. Permitir que o Kubernetes automatize essa atividade permite que as equipes de TI concentrem a análise de dados em service-level objectives (SLOs) e service-level indicators (SLIs).

A automação nos softwares modernos de observabilidade vai além de coleta, monitoramento e análise. As ferramentas de observabilidade também podem automatizar processos de depuração, instrumentação e atualizações de painéis de monitoramento à medida que novos serviços são adicionados à rede. Eles também podem gerenciar o manuseio de agentes, em que os agentes são pequenos componentes de software implementados em um ecossistema para coletar continuamente dados de telemetria.

Benefícios da observabilidade nativa da nuvem

Adotar a observabilidade nativa da nuvem pode oferecer às organizações uma visão mais abrangente de sistemas complexos, reduzir o mean time to repair (MTTR) e integrar ainda mais as ferramentas de automação ao fluxo de trabalho do DevOps.

Transparência do sistema

Em sistemas altamente distribuídos, um grande número de servidores sobrepostos e aplicações nativas da nuvem emitem sinais, métricas, logs e rastreamentos, e nem sempre compartilham dados de forma limpa. As ferramentas de observabilidade nativas da nuvem ajudam a superar esses gargalos, coletando dados de todo o ecossistema, permitindo que os administradores solucionem problemas em tempo real e tomem decisões baseadas em dados.

Recuperação mais rápida

Depois que os administradores (ou ferramentas automatizadas dentro da plataforma de observabilidade) identificarem correlações entre problemas na nuvem, poderão realizar uma análise de causa raiz. Por exemplo, uma plataforma pode sinalizar globalmente uma resposta lenta de aplicações que coincida com alta latência em uma região específica e, em seguida, realizar uma análise para identificar o servidor mal configurado ou com mau funcionamento responsável pelo problema.

Essa análise pode ser a diferença entre fazer a triagem de um incidente por horas e resolver um problema iminente antes que ele aconteça, reduzindo o downtime e liberando as equipes de DevOps para outras tarefas.

Maior automação

Ferramentas de inteligência artificial e aprendizado de máquina estão no centro de muitas plataformas modernas de observabilidade, detectando anomalias sem a intervenção do usuário, realizando análise de causa raiz e usando IA generativa para visualização de dados.

O grande volume de dados de telemetria produzidos em um ambiente de nuvem torna a IA e o ML inestimáveis para observabilidade baseada na nuvem. A automação da observabilidade em escala pode gerar insights que permitem às organizações automatizar também outras funções de negócios. Análise preditiva de dados, por exemplo, pode permitir que uma empresa provisione nova infraestrutura de servidores antes de períodos de alto tráfego.

Desafios da observabilidade nativa da nuvem

Por coletar e sintetizar uma quantidade tão vasta e diversa de dados, a observabilidade nativa da nuvem pode representar desafios em relação à escalabilidade e à complexidade, ao uso de múltiplas ferramentas de observabilidade e à privacidade dos dados, além da conformidade.

Escalabilidade e complexidade

As organizações devem equilibrar a visibilidade em um ambiente de nuvem complexo com restrições práticas em relação aos custos de armazenamento, desempenho das consultas e retenção de dados. Sem estratégias adequadas de amostragem e priorização, o volume de dados coletados pode sobrecarregar as plataformas de observabilidade.

A natureza expansiva e em rápida mudança dos microsserviços conteinerizados também pode significar que o monitoramento deve se estender além do nível da aplicação, incluindo os clusters e os nós de uma ferramenta de orquestração, como o Kubernetes.

Usando várias ferramentas

A maioria das organizações opera dezenas de ferramentas de monitoramento acumuladas ao longo dos anos, cada uma atendendo a equipes ou tecnologias específicas. O stack de tecnologia normalmente abrange várias linguagens de programação, sistemas legados, ambientes multinuvem, microsserviços, componentes de infraestrutura e frameworks. Isso torna a interoperabilidade desafiadora e cria dados fragmentados, o que anula o objetivo fundamental da observabilidade: criar uma visão unificada da integridade do sistema.

Privacidade e conformidade

A observabilidade nativa da nuvem pode criar desafios de conformidade ao agregar dados sensíveis de toda a empresa em plataformas. Dados de telemetria podem conter informações de identificação pessoal (PII), detalhes de cartões de crédito ou informações de saúde protegidas. Esses tipos de dados podem estar sujeitos a regulamentações como o Regulamento Geral de Proteção de Dados (RGPD), a Lei de portabilidade e responsabilidade de planos de saúde (HIPAA) e a California Consumer Privacy Act (CCPA).

Sem mascaramento de dados, tokenização, restrições geográficas e controles de acesso baseados em funções, as organizações correm o risco de expor dados confidenciais a usuários não autorizados ou violar requisitos regulatórios. Por exemplo, resolver um problema de transação para um cliente europeu pode exigir o acesso a logs que contenham informações de identificação pessoal. Se os funcionários baseados nos EUA visualizarem esses dados, essa situação pode abrir a porta para violações do RGPD.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

Observabilidade nativa da nuvem e AIOps

Implementar observabilidade nativa da nuvem é um pilar da mudança para AIOps, a aplicação de recursos de IA para automatizar, agilizar e otimizar a gestão de serviços de TI e fluxos de trabalho.

Quando as organizações têm maior visibilidade dos dados na nuvem, elas podem automatizar decisões sobre provisionamento ou solução de problemas, mesmo em um ambiente frequentemente vasto, extenso e imprevisível da nuvem. Em resumo, a observabilidade viabiliza o AIOps ao oferecer às organizações maior confiança na tomada de decisão de suas ferramentas de IA e ML.

As principais funções da IA na observabilidade nativa da nuvem são:

detecção de anomalias, em que algoritmos podem analisar dados em escala para determinar o desempenho básico do sistema e identificar rapidamente desvios;
análise da causa raiz, que vai além da correlação para identificar ações que podem ser tomadas para corrigir diretamente um erro;
análise preditiva de dados, por meio da qual modelos de IA podem prever cargas de trabalho futuras e aumentar ou diminuir a rede conforme necessário.

Observabilidade nativa da nuvem versus observabilidade full-stack

Embora os dois compartilhem semelhanças importantes, a observabilidade nativa da nuvem é diferente da prática da observabilidade full-stack. A observabilidade nativa da nuvem pode ser considerada uma evolução da observabilidade full-stack, adaptando as mesmas ferramentas e técnicas para um ambiente nativo da nuvem.

A observabilidade full stack correlaciona a telemetria em todas as camadas do stack de tecnologia. Plataformas de observabilidade full stack reúnem dados de vários sistemas em tempo real e usam IA e ML para detectar anomalias, prever falhas e gerar insights para administradores.

A observabilidade nativa da nuvem é uma evolução disso, em que as ferramentas de coleta e análise de dados usadas para observabilidade full-stack são desenvolvidas especificamente para tecnologias nativas da nuvem, integrando-se sem dificuldades a microsserviços complexos e conteinerizados.

Em resumo, enquanto a observabilidade full-stack fornece dados de telemetria abrangentes em um ambiente de TI, a observabilidade nativa da nuvem é focada especificamente em ambientes de nuvem sem servidor.

Autores

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor