La observabilidad del flujo de datos es la capacidad de supervisar y comprender el estado de un flujo de datos en cualquier momento. Específicamente, la observabilidad proporciona insights sobre los estados internos del pipeline y cómo interactúan con los resultados del sistema.
Creemos que los pipelines de datos del mundo necesitan una mejor observabilidad de los datos. Pero, lamentablemente, muy poco de lo que sucede hoy en día en la ingeniería de datos es observable. La mayoría de los flujos de datos están diseñados para mover pero no para supervisar. Para medir, pero no para rastrear. Para transformar, pero no decir. El resultado es el infame caso de la caja negra.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Ya sabe lo que entra. Ya sabe lo que sale. ¿Pero qué ocurre en medio? ¿Y por qué la discrepancia? Lamentablemente, estos son misterios que la mayoría de los oleoductos no fueron construidos para resolver. La mayoría se diseñaron para el mejor de los casos.
Sin embargo, la realidad se rige más estrechamente por la ley de Murphy, y en el lado de salida de la caja negra, a menudo verá una gran cantidad de valores extraños y columnas faltantes crípticas. Los ingenieros de datos se rascan la cabeza y se dan cuenta de que, para corregir, primero hay que observar.
Esta guía cubrirá los siguientes puntos:
La "observabilidad" se ha convertido en una palabra de moda, por lo que probablemente sea mejor definirla: la observabilidad de los datos es el término general para monitorear y mejorar el estado de los datos dentro de aplicaciones y sistemas como pipelines de datos.
El "monitoreo de datos" le permite conocer el estado actual de su pipeline de datos o sus datos. Le indica si los datos son completos, precisos y frescos. Le indica si sus pipelines tuvieron éxito o fracasaron. El monitoreo de datos puede mostrar si las cosas están funcionando o no, pero no proporciona mucho contexto más allá de eso.
Por tanto, la monitorización es solo una función de la observabilidad. “Observabilidad de los datos” es un término genérico que incluye:
Al abarcar no solo una actividad, el monitoreo, sino una canasta de actividades, la observabilidad es mucho más útil para los ingenieros. La observabilidad de los datos no se limita a describir el problema. Proporciona contexto y sugerencias para ayudar a resolverlo.
"La observabilidad de los datos va más allá del monitoreo al agregar más contexto a las métricas del sistema, proporcionar una visión más profunda de las operaciones del sistema e indicar si los ingenieros deben intervenir y aplicar arreglos", explica Evgeny Shulman, cofundador y director de tecnología de IBM® Databand. “En otras palabras, mientras que el monitoreo le dice que algún microservicio está consumiendo una cantidad determinada de recursos, la observabilidad le dice que su estado actual está asociado con fallas críticas y que necesita intervenir”.
Este enfoque proactivo es particularmente importante cuando se trata de pipelines de datos.
La observabilidad del pipeline de datos se refiere a la capacidad de monitorear y comprender el estado de un pipeline de datos en cualquier momento, especialmente con respecto a sus estados internos, en función de los resultados del sistema. Va más allá del monitoreo básico para proporcionar una comprensión más profunda de cómo se mueven y transforman los datos en un pipeline, y a menudo se asocia con métricas, registro y rastreo de pipelines de datos.
Los pipelines de datos a menudo implican una serie de etapas en las que los datos se recopilan, transforman y almacenan. Esto podría incluir procesos como la extracción de datos de diferentes fuentes, la limpieza de datos, la transformación de datos (como la agregación) y la carga de los datos en una base de datos o un almacén de datos. Cada una de estas etapas puede tener diferentes comportamientos y posibles problemas que pueden afectar la calidad de los datos, la confiabilidad y el rendimiento general del sistema.
La observabilidad proporciona insight sobre cómo funciona cada etapa del pipeline de datos y cómo su funcionamiento interno se correlaciona con tipos específicos de resultados, especialmente resultados que no proporcionan los niveles requeridos de rendimiento, calidad o precisión. Estos insights permiten a los equipos de ingeniería de datos comprender qué salió mal y solucionarlo.
La observabilidad de los pipelines de datos es importante porque los pipelines han pasado de ser complicados a complejos: de muchos sistemas concurrentes a muchos sistemas interdependientes.
Es más probable que nunca que las aplicaciones de software no solo se beneficien de los pipelines de datos, sino que dependan de ellos. Lo mismo ocurre con los usuarios finales. Cuando grandes proveedores como AWS sufren interrupciones en el servicio y los paneles de control de aplicaciones de todo el mundo dejan de funcionar, se pueden observar a nuestro alrededor señales de que la complejidad crea dependencias peligrosas.
En este momento, la industria de analytics tiene una tasa de crecimiento anual combinada del 12 % anual. Según Gartner, valdrá la asombrosa cantidad de 105 000 millones USD para 2027, aproximadamente del tamaño de la economía de Ucrania. A este ritmo, el volumen de datos corporativos aumenta actualmente un 62 % cada mes. ¿Todas esas empresas que almacenan y analizan todos esos datos? Están apostando su negocio a ello y a que los pipelines de datos que lo ejecutan continuarán funcionando.
Una de las principales causas de los problemas de calidad de los datos y de los fallos en los procesos son las transformaciones que se producen dentro de dichos procesos. La mayor parte de la arquitectura de datos actual es opaca: no se puede saber lo que está sucediendo dentro. Se están produciendo transformaciones, pero cuando las cosas no salen como se espera, los ingenieros de datos no tienen mucho contexto para explicar por qué.
Demasiados equipos de DataOps pasan demasiado tiempo tratando de diagnosticar problemas sin contexto. Y si sigue su primer instinto y utiliza una herramienta de gestión del rendimiento de las aplicaciones para monitorear un pipeline de DataOps, rara vez funciona.
"Los pipelines de datos se comportan de manera muy diferente a las aplicaciones de software y la infraestructura", dice Evgeny. “Los equipos de ingeniería de datos pueden obtener insights sobre los estados de los trabajos de alto nivel (o DAG) y el rendimiento de las bases de datos resumidas, pero carecerán de visibilidad sobre el nivel adecuado de información que necesitan para gestionar sus pipelines. Esta brecha hace que muchos equipos pasen mucho tiempo rastreando problemas o trabajen en un estado de paranoia constante”.
Tener un equipo de datos más grande y especializado puede ayudar, pero puede perjudicar si esos miembros del equipo no se coordinan. Más personas que acceden a los datos y ejecutan sus propios pipelines y sus propias transformaciones causan errores y afectan la estabilidad de los datos.
Cada vez más ingenieros hoy en día se preocupan por la estabilidad de los datos y por si sus datos son aptos para el uso de sus consumidores, tanto dentro como fuera del negocio. Y así, más equipos están interesados en la observabilidad de los datos.
La observabilidad de los datos funciona con su pipeline de datos al proporcionar insights sobre cómo fluyen y se procesan sus datos de principio a fin. Aquí hay una explicación más detallada de cómo funciona la observabilidad de los datos dentro del pipeline de datos:
Las plataformas de observabilidad de los datos proporcionan insight que las herramientas de monitoreo por sí solas no pueden ofrecer. Le dicen no solo qué salió mal, sino también qué problemas está causando y ofrecen pistas e incluso las siguientes mejores acciones para arreglarlos. Lo hace continuamente, sin que tenga que rediseñar sus pipelines actuales o "cambiar el motor mientras está en vuelo", por así decirlo.
Sus pipelines de datos son sistemas complejos y requieren una arquitectura de observabilidad de los datos que realice una investigación constante. Necesita una plataforma de observabilidad para el monitoreo de extremo a extremo para saber dónde fallaron las cosas y por qué. Necesita una forma de rastrear las dependencias posteriores y saber, no esperar, que su solución arregló el problema de raíz.
Una plataforma de observabilidad de los datos debe incluir:
La plataforma también debe ofrecer mucha orientación prescriptiva. El campo de la observabilidad de los datos y la ingeniería de datos se mueve rápidamente y es una de las mejores maneras de encontrar una plataforma que evolucione tan rápido como sus problemas. Ya no basta con monitorear. Debes observar, rastrear, alertar y reaccionar.
Vea cómo Databand de IBM proporciona supervisión de pipelines de datos para detectar rápidamente incidencias de datos como tareas y ejecuciones fallidas, de modo que pueda gestionar el crecimiento de dichos pipelines. Si está listo para profundizar, reserve una demostración hoy mismo .
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.