Tres pilares de la observabilidad: registros, métricas y rastreos

18 de abril de 2025

Autor

Chrystal R. China

Writer, automation & ITOps

Muchas estructuras y órganos de gobierno se basan en tres pilares para ayudar a garantizar el éxito. Las prácticas de responsabilidad corporativa se centran en la sostenibilidad medioambiental, social y financiera para guiar las prácticas empresariales. 

Las empresas que buscan someterse a una transformación digital a menudo utilizan tres pilares (personas, procesos y tecnología) para guiarlos a través de la transición. Este marco anima a los responsables de la toma de decisiones a centrarse en retener a expertos tecnológicos creativos y colaborativos (personas); utilizar prácticas estructuradas y meticulosas de gestión de datos y seguridad (procesos); y confiar en herramientas y plataformas avanzadas para impulsar el progreso. 

Y los tres pilares que sustentan Scrum (un conjunto de marcos y principios que permiten la gestión ágil de proyectos) son la transparencia, la inspección y la adaptación. En cada uno de estos casos, los pilares son distintos y esenciales, pero incompletos. Cada uno tiene su propia libertad y prioridades, pero su verdadero poder radica en cómo colaboran e interactúan para apoyar objetivos más grandes. La observabilidad no es diferente.

En un contexto de TI, la observabilidad utiliza tres pilares de datos de telemetría (métricas, registros y rastreos) para hacer que las grandes redes informáticas sean más fáciles de visualizar y comprender. Permite a los desarrolladores comprender el estado interno de un sistema en función de sus resultados. Cuando una red es observable, el personal de TI puede identificar la causa raíz de cualquier problema de rendimiento mirando los datos que produce y sin ninguna prueba o codificación adicional.

Las soluciones de observabilidad utilizan los datos de salida sin procesar de un sistema para completar los análisis de datos, proporcionando a los equipos la visibilidad de la red de extremo a extremo y los conocimientos procesables que necesitan para una resolución de problemas y una depuración eficaces.

Las arquitecturas observables ayudan a los equipos de ingeniería y a los administradores de red a gestionar la complejidad de las redes informáticas modernas. Y en estos días, eso significa mantener redes informáticas masivas altamente dinámicas que a menudo incluyen configuraciones de nube híbrida y multinube y una gama de aplicaciones nativas de la nube, microservicios y contenedores Kubernetes.

Las herramientas de observabilidad, como la solución de código abierto, OpenTelemetry, proporcionan a las empresas una visión completa y contextualizada del estado del sistema. La visibilidad de pila completa ayuda a los equipos a identificar patrones de datos anómalos y cuellos de botella de rendimiento antes de que afecten a los usuarios finales. Como tal, la observabilidad puede ayudar a las empresas a minimizar el tiempo de inactividad de la red y mantener la fiabilidad del servicio en varios casos de uso.

Sin embargo, independientemente de la complejidad de la red, la observabilidad depende de los "eventos" del sistema y de sus tres pilares principales. Los pilares permiten a las plataformas de observabilidad recopilar y analizar datos de aplicaciones front-end, servicios de back-end, pipelines de CI/CD y pipelines de datos en flujo que operan a través de sistemas distribuidos.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Qué son los eventos del sistema?

La observabilidad requiere una recopilación meticulosa de datos de cada componente de una red para determinar el "qué", el "dónde" y el "por qué" de los eventos del sistema y para aclarar cómo los eventos pueden afectar al rendimiento de toda la arquitectura. Por lo tanto, los eventos son la base de la monitorización y la telemetría.

Los eventos son sucesos distintos en una red que ocurren en momentos concretos y suelen producir datos valiosos para los registros, las métricas y las trazas, lo que los hace tan integrales para la observabilidad como los tres pilares. Los acontecimientos existen en un contexto más amplio.

Cuando, por ejemplo, un cliente solicita recursos de un servidor empresarial, el cliente dirige la solicitud al endpoint de la API adecuado utilizando la URL del endpoint. El servidor recibe la solicitud, comprueba las credenciales de autenticación (como una clave API) y los permisos del cliente y, suponiendo que sean válidos, procesa la solicitud de acuerdo con las especificaciones de la API(por ejemplo, asegurándose de que la respuesta tenga el formato correcto ). A continuación, el servidor envía una respuesta al cliente con los datos solicitados.

Los eventos desencadenan acciones distintas en momentos precisos. Por lo tanto, las herramientas de observabilidad confían en ellas para iniciar los procesos de seguimiento, análisis y correlación que ayudan a los equipos de DevOps a visualizar sus entornos de TI y optimizar sus redes.

Mixture of Experts | 25 de abril, episodio 52

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Qué son las métricas?

Las métricas proporcionan conocimientos cuantitativos sobre el rendimiento del sistema mediante la medición de varios parámetros de red. Ayudan a los equipos a comprender el "qué" de los problemas del sistema. Los tipos de métricas incluyen:

  • Métricas del host: uso de memoria, disco y CPU
  • Medidas de rendimiento de la red: tiempo de actividad, latencia, rendimiento
  • Métricas de la aplicación: tiempos de respuesta, tasas de solicitudes y errores
  • Métricas del grupo de servidores: instancias totales, número de instancias en ejecución
  • Métricas de dependencias externas: disponibilidad, estado del servicio

Las métricas comunes, como el uso de la memoria y la latencia, se alinean de forma intuitiva con el estado del sistema. Sin embargo, muchas otras métricas e indicadores clave de rendimiento (KPI) pueden revelar problemas del sistema. Por ejemplo, los identificadores de sistema operativo (SO) agotados pueden ralentizar un sistema y, a menudo, requieren un reinicio para restaurar la funcionalidad.

Las métricas a menudo se agregan para proporcionar una vista resumida que utiliza paneles de control y otras visualizaciones (como gráficos de series temporales) para ayudar a los desarrolladores a evaluar rápidamente la salud general del sistema, analizar tendencias de datos y responder a problemas de red. También informan las decisiones sobre el escalado y la asignación de recursos, lo que hace que las métricas sean esenciales para una planificación eficaz de la capacidad y la gestión de la carga.

Es crítico que los equipos seleccionen cuidadosamente qué métricas rastrear y analizarlas continuamente, ya que algunas métricas pueden ayudarlos a anticipar posibles problemas antes de que ocurran.

Los equipos pueden establecer umbrales de métricas que, cuando se superan, activan alertas para notificar al personal de TI de los problemas actuales o inminentes. Las métricas también permiten que las herramientas de observabilidad detecten problemas, como la fuga de control del sistema operativo, que se acumulan con el tiempo, empezando mucho antes de que interrumpan la experiencia del cliente.

Sin embargo, las métricas a menudo proporcionan un contexto limitado, por lo que generalmente requieren correlación con registros y rastreos para brindar a los desarrolladores una comprensión integral de los eventos del sistema. Las métricas de alta resolución también generan enormes cantidades de datos que pueden ser difíciles de almacenar y gestionar de manera eficiente. Por lo tanto, la observabilidad a menudo requiere soluciones de almacenamiento a largo plazo de alta calidad que puedan manejar datos de métricas y ayudar a garantizar que permanezcan disponibles para su análisis.

¿Qué son los registros?

Los registros son registros inmutables y exhaustivos de eventos discretos que se producen en un sistema. Ayudan a los equipos a entender el "por qué" de los problemas del sistema.

Los archivos de registro almacenan información detallada sobre el comportamiento del sistema y los procesos de la aplicación, incluyendo:

  • Fechas de eventos
  • ID de transacción
  • Direcciones IP y ID de usuario
  • Detalles de eventos y procesos
  • Mensajes de error
  • Intentos de conexión
  • Cambios de configuración

Los registros de eventos pueden ser binarios, no estructurados (como en texto simple) o estructurados (como en formato JSON). Todos los archivos de registro son útiles en el contexto correcto, pero los enfoques de información de registro estructurado estructuran el texto y los metadatos a medida que se generan, lo que simplifica su análisis.

Las características de información de registro dentro de herramientas de observabilidad agregan archivos de registro de sistemas operativos, dispositivos de red, aplicaciones internas y de terceros, y dispositivos Internet de las cosas (IoT) para ayudar a los equipos de desarrollo a diagnosticar errores y comprender los fallos del sistema. Cuando se produce un error, una violación de seguridad o un problema de cumplimiento, los registros proporcionan los detalles necesarios para rastrear la causa raíz y comprender qué salió mal.

Los registros ofrecen información valiosa sobre los eventos y problemas del sistema, pero por sí solos no ofrecen una imagen completa. Como en el caso de las métricas, las herramientas de observabilidad deben analizar y correlacionar los datos de registro con las métricas y las trazas para maximizar su valor. Y, al igual que las métricas, los registros aumentan significativamente el volumen de datos, por lo que las empresas a menudo deben invertir en sofisticadas herramientas de gestión de registros para manejar la carga de datos.

Además, la información de registro exhaustiva de eventos puede ocultar información importante bajo datos menos relevantes, creando "ruido" que complica la identificación de problemas para el personal de TI. Por eso, las soluciones modernas de observabilidad se basan en flujos de trabajo de automatización impulsados por IA y machine learning (ML) para perfeccionar las prácticas de alerta y diferenciar entre alertas críticas y ruido.

¿Qué son los rastros?

Los seguimientos, que combinan algunas de las características de las métricas y los registros, mapean datos en los componentes de la red para mostrar el flujo de trabajo de una solicitud. Representan el recorrido de extremo a extremo de una solicitud a través de la red, capturando la ruta y la vida útil de cada componente involucrado en el procesamiento de la solicitud. En resumen, el rastreo ayuda a los ingenieros de fiabilidad del sitio (SRE) y a los equipos de ingeniería de software a comprender el “dónde” y el “cómo” de los eventos y problemas del sistema.

Los datos de rastreo pueden incluir:

  • La duración de los eventos y operaciones de la red
  • El flujo de paquetes de datos a través de la arquitectura
  • El orden en el que las solicitudes atraviesan los servicios de red
  • La causa raíz de los errores del sistema

El rastreo, es decir, el rastreo distribuido, es útil en arquitecturas de microservicios, donde las solicitudes pueden atravesar múltiples servicios dispersos geográficamente antes de llegar a su destino. Proporciona conocimiento sobre las dependencias e interacciones entre los diferentes componentes y servicios y puede ayudar a los equipos de TI a entender cuánto tardan los usuarios en completar acciones específicas.

Las características de rastreo en las herramientas de observabilidad son esenciales para los análisis de latencia, que ayudan a los ingenieros a identificar componentes problemáticos y servicios de bajo rendimiento que pueden crear cuellos de botella en el rendimiento de los usuarios.

Facilitan los procesos de depuración al ilustrar los flujos de solicitud-respuesta y las relaciones causales entre los elementos de la red. Y, durante el análisis de la causa raíz, las trazas ayudan a los equipos a localizar el origen de los problemas de red en flujos de trabajo complejos para una resolución de problemas más rápida y precisa.

A diferencia de las métricas y los registros, los rastreos pueden proporcionar información contextual para ayudar a enriquecer los conocimientos. Sin embargo, el rastreo por sí solo no puede revelar tendencias o patrones de datos. La configuración de los rastreos distribuidos también requiere instrumentación en todos las implementaciones de los servicios, lo que puede hacer que el proceso sea especialmente complejo y lento. Y si no se gestiona correctamente, el rastreo (y la potencia de cálculo que exige) pueden introducir más latencia en el entorno.

¿Cómo funcionan juntos los tres pilares?

La combinación de los tres pilares permite a los equipos de desarrollo y operaciones obtener una visión holística y una comprensión granular del comportamiento complejo del sistema. Mientras que las métricas se utilizan para alertar a los equipos sobre los problemas, los rastreos muestran su ruta de ejecución y los registros proporcionan el contexto necesario para resolverlos.

Juntos, ayudan a acelerar la identificación y resolución de problemas, ofreciendo a los equipos herramientas complementarias para abordar los problemas, optimizar el rendimiento de la red y permitir la observabilidad de toda la pila.

¿Existen otros "pilares"?

Las métricas, los registros y los rastreos son ampliamente conocidos como los pilares principales de la observabilidad, pero eso no excluye la existencia de otros componentes fundacionales. Algunos dirían que el contexto, la correlación y las alertas también son pilares de la observabilidad.

Después de todo, el contexto enriquece las métricas, los registros y los rastreos al proporcionar información adicional sobre el entorno de red (topología, roles de dispositivos y dependencias de aplicaciones, por ejemplo). Sin contexto, los datos de observabilidad carecerían de un significado procesable.

La correlación une las métricas, los registros, los rastreos y la información contextual para ofrecer una visión cohesiva de los eventos en las diferentes capas de la pila de redes. Y sin alertas, las herramientas de observabilidad no podrían enviar notificaciones por instrucción cuando surjan problemas.

Sin embargo, la elaboración de perfiles se está convirtiendo en otra característica clave de la observabilidad.

La creación de perfiles, también llamada creación de perfiles continuos, es el proceso de ejecutar una aplicación y recopilar continuamente datos detallados sobre el estado de ejecución del código en momentos específicos. Por ejemplo, los perfiles pueden revelar si los subprocesos de Java están en estado RUNNING o WAIT. O, si una aplicación tiene problemas de pérdida de memoria, los perfiles pueden ayudar a aclarar qué parte del código está consumiendo recursos en exceso.

Por lo tanto, los perfiles sirven como rayos X del funcionamiento interno de los componentes individuales del sistema.

La creación de perfiles es útil para identificar problemas de bajo nivel, como los que afectan a funciones individuales o bloques de código. Ayuda a los equipos de TI a identificar las rutas de código ocupadas, localizar y dejar obsoletas las rutas no utilizadas y priorizar las rutas críticas para futuros eventos e interacciones.

Aunque los perfiles no son uno de los tres pilares, las capacidades de creación de perfiles han evolucionado significativamente. Proyectos como el Berkeley Packet Filter (eBPF) ampliado para el kernel de Linux han agilizado el desarrollo de perfiles, simplificando los procesos de creación de perfiles para los equipos de desarrollo.

Los equipos de desarrollo pueden utilizar perfiles de rastreo, muestreo e instrumentación para obtener vistas más profundas y granulares del código de la aplicación. Y, cuando se utiliza junto con otros pilares de la observabilidad, la creación de perfiles puede proporcionar conocimientos en tiempo real sobre el rendimiento de las aplicaciones, acelerar el ciclo de vida del desarrollo de software y ayudar a las empresas a optimizar las estrategias de DevOps.

Soluciones relacionadas
Observabilidad automatizada full-stack

Identifique y corrija rápidamente el origen del problema. Los datos en tiempo real y de gran fidelidad ofrecen una visibilidad completa de los entornos dinámicos de aplicaciones e infraestructuras.

Más información sobre Full Stack Observability
AIOps Consulting

Aumente la automatización y las operaciones de TI con IA generativa, alineando todos los aspectos de su infraestructura de TI con las prioridades empresariales.

Más información sobre AIOps Consulting
SevOne Network Performance Management

IBM SevOne Network Performance Management es un software de monitorización y análisis que proporciona visibilidad e información en tiempo real sobre redes complejas.

Monitorice el rendimiento de la red
Dé el siguiente paso

Descubra cómo la IA para operaciones de TI ofrece los conocimientos que necesita para ayudar a impulsar un rendimiento empresarial excepcional.

Explore las soluciones AIOps Solicite una demostración en directo