La observabilidad de un pipeline de datos es su capacidad para monitorizar y entender el estado de un pipeline de datos en cualquier momento. En concreto, la observabilidad proporciona información sobre los estados internos del pipeline y cómo interactúan con los outputs del sistema.
Creemos que los pipelines de datos del mundo necesitan una mejor observabilidad de los datos. Pero, por desgracia, muy poco de lo que ocurre hoy en día en la ingeniería de datos es observable. La mayoría de los pipelines de datos se construyen para mover, pero no para monitorizar. Para medir, pero no para rastrear. Para transformar, pero no para contar. El resultado es el infame caso de la caja negra.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Usted sabe lo que entra. Usted sabe lo que sale. ¿Pero qué ocurre entre medias? ¿Y a qué se debe esta discrepancia? Lamentablemente, estos son misterios para los que la mayoría de los pipelines no se construyeron. La mayoría se diseñaron para el mejor escenario posible.
Sin embargo, la realidad se rige más estrechamente por la ley de Murphy, y en el lado del output de la caja negra, a menudo verá una serie de valores extraños y columnas crípticas que faltan. Los ingenieros de datos se rascan la cabeza y se dan cuenta de que, para corregir, primero hay que observar.
Esta guía cubrirá los siguientes puntos:
La "observabilidad" se ha convertido en una palabra de moda, por lo que probablemente sea mejor definirla: la observabilidad de los datos es el término general para monitorizar y mejorar el estado de los datos dentro de aplicaciones y sistemas como los pipelines de datos.
La “monitorización de datos” le permite conocer el estado actual de su flujo de datos o de sus datos. Le indica si los datos son completos, precisos y frescos. Le indica si sus pipelines han tenido éxito o han fracasado. La monitorización de datos puede mostrarle si algo funciona o no, pero no le da mucho contexto fuera de eso.
Como tal, la monitorización es solo una función de la observabilidad. “Observabilidad de los datos” es un término general que incluye:
Al abarcar no solo una actividad (la monitorización) sino más bien un conjunto de actividades, la observabilidad es mucho más útil para los ingenieros. La observabilidad de los datos no se limita a describir el problema. Proporciona contexto y sugerencias para ayudar a resolverlo.
"La observabilidad de los datos va más allá de la monitorización al añadir más contexto a las métricas del sistema, proporcionar una visión más profunda de las operaciones del sistema e indicar si los ingenieros necesitan intervenir y aplicar correcciones", explica Evgeny Shulman, cofundador y CTO de IBM Databand. "En otras palabras, mientras que la monitorización le dice que algún microservicio está consumiendo una cantidad determinada de recursos, la observabilidad le dice que su estado actual está asociado con fallos críticos y necesita intervenir".
Este enfoque proactivo es especialmente importante cuando se trata de pipelines de datos.
La observabilidad de un pipeline de datos se refiere a la capacidad de monitorizar y comprender el estado de un pipeline de datos en cualquier momento, especialmente respecto a sus estados internos, basándose en las outputs del sistema. Va más allá de la monitorización básica para proporcionar una comprensión más profunda de cómo se mueven y transforman los datos en un pipeline, y a menudo se asocia con métricas, información de registro y seguimiento de pipelines de datos.
Los pipelines de datos suelen implicar una serie de etapas en las que los datos se recopilan, transforman y almacenan. Esto podría incluir procesos como la extracción de datos de diferentes fuentes, la limpieza de datos, la transformación de datos (como la agregación) y la carga de los datos en una base de datos o un almacén de datos. Cada una de estas etapas puede tener diferentes comportamientos y posibles problemas que pueden afectar a la calidad de los datos, la fiabilidad y el rendimiento general del sistema.
La observabilidad proporciona conocimientos sobre cómo funciona cada etapa de la cadena de datos y cómo su funcionamiento interno se correlaciona con tipos específicos de outputs, especialmente las que no proporcionan los niveles requeridos de rendimiento, calidad o precisión. Estos conocimientos permiten a los equipos de ingeniería de datos entender qué salió mal y corregirlo.
La observabilidad de los pipelines de datos importa porque los pipelines han pasado de ser complicados a complejos (de muchos sistemas concurrentes a muchos sistemas interdependientes).
Es más probable que nunca que las aplicaciones de software no solo se beneficien de los pipelines de datos, sino que dependan de ellos. Lo mismo ocurre con los usuarios finales. Cuando los grandes proveedores como AWS tienen interrupciones y los paneles de control de las aplicaciones de todo el mundo desaparecen, puede ver las señales de que la complejidad crea dependencias peligrosas.
En este momento, el sector analítico tiene una tasa de crecimiento anual combinada del 12 % anual. Según Gartner, valdrá la asombrosa cantidad de 105 000 millones de dólares en 2027, aproximadamente el tamaño de la economía de Ucrania. A este ritmo, el volumen de datos corporativos aumenta actualmente un 62 % cada mes. ¿Todas esas empresas que almacenan y analizan todos esos datos? Están apostando su negocio por ello y por que los pipelines de datos que lo gestionan seguirán funcionando.
Una de las principales causas de los problemas de calidad de los datos y de los fallos de los pipelines son las transformaciones dentro de esos pipelines. La mayoría de la arquitectura de datos hoy en día es opaca: no se puede saber qué ocurre dentro. Se están produciendo transformaciones, pero cuando las cosas no salen como esperaban, los ingenieros de datos no tienen mucho contexto para explicar por qué.
Demasiados equipos de DataOps dedican demasiado tiempo a diagnosticar problemas sin contexto. Y si sigue su primer instinto y usa una herramienta de gestión del rendimiento de las aplicaciones para monitorizar un pipeline de DataOps, rara vez funciona.
"Los pipelines de datos se comportan de forma muy diferente a las aplicaciones de software y la infraestructura", afirma Evgeny. "Los equipos de ingeniería de datos pueden obtener conocimiento sobre los estados de los trabajos de alto nivel (o DAG) y el rendimiento de las bases de datos resumidas, pero carecerán de visibilidad sobre el nivel adecuado de información que necesitan para gestionar sus pipelines. Esta brecha hace que muchos equipos pasen mucho tiempo rastreando problemas o trabajen en un estado de paranoia constante".
Tener un equipo de datos más grande y especializado puede ayudar, pero puede perjudicar si esos miembros del equipo no se coordinan. Más personas que acceden a los datos y ejecutan sus propios pipelines y sus propias transformaciones provocan errores y afectan a la estabilidad de los datos.
Cada vez más ingenieros hoy en día se preocupan por la estabilidad de los datos y por si sus datos son aptos para el uso de sus consumidores, tanto dentro como fuera del negocio. Por ello, cada vez más equipos se interesan por la observabilidad de los datos.
La observabilidad de los datos funciona con su pipeline de datos proporcionando conocimiento sobre cómo fluyen y se procesan sus datos de principio a fin. Aquí tiene una explicación más detallada de cómo funciona la observabilidad de los datos dentro de la cadena de datos:
Las plataformas de observabilidad de los datos proporcionan conocimiento que las herramientas de monitorización por sí solas no pueden. Le dicen no solo qué salió mal, sino también qué problemas está causando y ofrecen pistas e incluso las mejores acciones a seguir para solucionarlo. Lo hace de forma continua, sin que tenga que rediseñar sus pipelines actuales o "cambiar el motor mientras está en vuelo", por así decirlo.
Sus pipelines de datos son sistemas complejos y requieren una arquitectura de observabilidad de los datos que realice una investigación constante. Necesita una plataforma de observabilidad para la monitorización de extremo a extremo, de modo que sepa dónde fallaron las cosas y por qué. Necesita una forma de rastrear las dependencias posteriores y saber, no esperar, que su solución haya solucionado el problema raíz.
Una plataforma de observabilidad de los datos debe incluir:
La plataforma también debería ofrecer suficiente orientación prescriptiva. El campo de la observabilidad de los datos y la ingeniería de datos avanza rápidamente, y es una de las mejores formas de encontrar una plataforma que evolucione tan rápido como sus problemas. Ya no basta con monitorizar. Debe observar, rastrear, alertar y reaccionar.
Vea cómo Databand de IBM proporciona monitorización de los pipelines de datos para detectar rápidamente incidencias en los mismos, como trabajos y ejecuciones fallidos, de modo que pueda gestionar el crecimiento de dichos pipelines. Si está listo para profundizar, solicite una demostración hoy mismo.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.