Observabilidad del pipeline de datos: un modelo para ingenieros de datos

Vista aérea de personas trabajando en una oficina moderna

Autor

Eitan Chazbani

La observabilidad de un pipeline de datos es su capacidad para monitorizar y entender el estado de un pipeline de datos en cualquier momento. En concreto, la observabilidad proporciona información sobre los estados internos del pipeline y cómo interactúan con los outputs del sistema.

Creemos que los pipelines de datos del mundo necesitan una mejor observabilidad de los datos. Pero, por desgracia, muy poco de lo que ocurre hoy en día en la ingeniería de datos es observable. La mayoría de los pipelines de datos se construyen para mover, pero no para monitorizar. Para medir, pero no para rastrear. Para transformar, pero no para contar. El resultado es el infame caso de la caja negra.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cuidado con el escenario de la caja negra

Usted sabe lo que entra. Usted sabe lo que sale. ¿Pero qué ocurre entre medias? ¿Y a qué se debe esta discrepancia? Lamentablemente, estos son misterios para los que la mayoría de los pipelines no se construyeron. La mayoría se diseñaron para el mejor escenario posible.
Sin embargo, la realidad se rige más estrechamente por la ley de Murphy, y en el lado del output de la caja negra, a menudo verá una serie de valores extraños y columnas crípticas que faltan. Los ingenieros de datos se rascan la cabeza y se dan cuenta de que, para corregir, primero hay que observar.

Esta guía cubrirá los siguientes puntos:

  1. ¿Qué es la observabilidad de datos?
  2. ¿Qué es la observabilidad del pipeline de datos?
  3. ¿Por qué es importante la observabilidad de los datos para los pipelines?
  4. ¿Cómo se implementa la observabilidad para los pipelines de datos?
  5. ¿Cómo pueden ayudar las plataformas de observabilidad de los datos?
AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

¿Qué es la observabilidad de los datos?

La "observabilidad" se ha convertido en una palabra de moda, por lo que probablemente sea mejor definirla: la observabilidad de los datos es el término general para monitorizar y mejorar el estado de los datos dentro de aplicaciones y sistemas como los pipelines de datos.

Observabilidad de los datos frente a monitorización: ¿cuál es la diferencia?

La “monitorización de datos” le permite conocer el estado actual de su flujo de datos o de sus datos. Le indica si los datos son completos, precisos y frescos. Le indica si sus pipelines han tenido éxito o han fracasado. La monitorización de datos puede mostrarle si algo funciona o no, pero no le da mucho contexto fuera de eso.

Como tal, la monitorización es solo una función de la observabilidad. “Observabilidad de los datos” es un término general que incluye:

  • Monitorización: un panel de control que proporciona una vista operativa de su pipeline o sistema
  • Alertas: tanto para eventos esperados como para anomalías
  • Seguimiento: capacidad para establecer y realizar un seguimiento de eventos específicos
  • Comparaciones: seguimiento a lo largo del tiempo, con alertas en caso de anomalías
  • Análisis: detección automatizada de problemas que se adapta a su pipeline y al estado de los datos
  • Siguiente mejor acción: acciones recomendadas para corregir errores

Al abarcar no solo una actividad (la monitorización) sino más bien un conjunto de actividades, la observabilidad es mucho más útil para los ingenieros. La observabilidad de los datos no se limita a describir el problema. Proporciona contexto y sugerencias para ayudar a resolverlo.

"La observabilidad de los datos va más allá de la monitorización al añadir más contexto a las métricas del sistema, proporcionar una visión más profunda de las operaciones del sistema e indicar si los ingenieros necesitan intervenir y aplicar correcciones", explica Evgeny Shulman, cofundador y CTO de IBM Databand. "En otras palabras, mientras que la monitorización le dice que algún microservicio está consumiendo una cantidad determinada de recursos, la observabilidad le dice que su estado actual está asociado con fallos críticos y necesita intervenir".

Este enfoque proactivo es especialmente importante cuando se trata de pipelines de datos.

¿Qué es la observabilidad del pipeline de datos?

La observabilidad de un pipeline de datos se refiere a la capacidad de monitorizar y comprender el estado de un pipeline de datos en cualquier momento, especialmente respecto a sus estados internos, basándose en las outputs del sistema. Va más allá de la monitorización básica para proporcionar una comprensión más profunda de cómo se mueven y transforman los datos en un pipeline, y a menudo se asocia con métricas, información de registro y seguimiento de pipelines de datos.

Los pipelines de datos suelen implicar una serie de etapas en las que los datos se recopilan, transforman y almacenan. Esto podría incluir procesos como la extracción de datos de diferentes fuentes, la limpieza de datos, la transformación de datos (como la agregación) y la carga de los datos en una base de datos o un almacén de datos. Cada una de estas etapas puede tener diferentes comportamientos y posibles problemas que pueden afectar a la calidad de los datos, la fiabilidad y el rendimiento general del sistema.

La observabilidad proporciona conocimientos sobre cómo funciona cada etapa de la cadena de datos y cómo su funcionamiento interno se correlaciona con tipos específicos de outputs, especialmente las que no proporcionan los niveles requeridos de rendimiento, calidad o precisión. Estos conocimientos permiten a los equipos de ingeniería de datos entender qué salió mal y corregirlo.

¿Por qué la observabilidad de los datos es tan importante para los pipelines?

La observabilidad de los pipelines de datos importa porque los pipelines han pasado de ser complicados a complejos (de muchos sistemas concurrentes a muchos sistemas interdependientes).

Los pipelines son esenciales para un sector en rápida expansión

Es más probable que nunca que las aplicaciones de software no solo se beneficien de los pipelines de datos, sino que dependan de ellos. Lo mismo ocurre con los usuarios finales. Cuando los grandes proveedores como AWS tienen interrupciones y los paneles de control de las aplicaciones de todo el mundo desaparecen, puede ver las señales de que la complejidad crea dependencias peligrosas.

En este momento, el sector analítico tiene una tasa de crecimiento anual combinada del 12 % anual. Según Gartner, valdrá la asombrosa cantidad de 105 000 millones de dólares en 2027, aproximadamente el tamaño de la economía de Ucrania. A este ritmo, el volumen de datos corporativos aumenta actualmente un 62 % cada mes. ¿Todas esas empresas que almacenan y analizan todos esos datos? Están apostando su negocio por ello y por que los pipelines de datos que lo gestionan seguirán funcionando.

El contexto es crucial (y a menudo falta)

Una de las principales causas de los problemas de calidad de los datos y de los fallos de los pipelines son las transformaciones dentro de esos pipelines. La mayoría de la arquitectura de datos hoy en día es opaca: no se puede saber qué ocurre dentro. Se están produciendo transformaciones, pero cuando las cosas no salen como esperaban, los ingenieros de datos no tienen mucho contexto para explicar por qué.

Demasiados equipos de DataOps dedican demasiado tiempo a diagnosticar problemas sin contexto. Y si sigue su primer instinto y usa una herramienta de gestión del rendimiento de las aplicaciones para monitorizar un pipeline de DataOps, rara vez funciona.

La observabilidad mantiene a los ingenieros sincronizados (y seguros)

"Los pipelines de datos se comportan de forma muy diferente a las aplicaciones de software y la infraestructura", afirma Evgeny. "Los equipos de ingeniería de datos pueden obtener conocimiento sobre los estados de los trabajos de alto nivel (o DAG) y el rendimiento de las bases de datos resumidas, pero carecerán de visibilidad sobre el nivel adecuado de información que necesitan para gestionar sus pipelines. Esta brecha hace que muchos equipos pasen mucho tiempo rastreando problemas o trabajen en un estado de paranoia constante".

Tener un equipo de datos más grande y especializado puede ayudar, pero puede perjudicar si esos miembros del equipo no se coordinan. Más personas que acceden a los datos y ejecutan sus propios pipelines y sus propias transformaciones provocan errores y afectan a la estabilidad de los datos.

Cada vez más ingenieros hoy en día se preocupan por la estabilidad de los datos y por si sus datos son aptos para el uso de sus consumidores, tanto dentro como fuera del negocio. Por ello, cada vez más equipos se interesan por la observabilidad de los datos.

¿Cómo se implementa la observabilidad para los pipelines de datos?

La observabilidad de los datos funciona con su pipeline de datos proporcionando conocimiento sobre cómo fluyen y se procesan sus datos de principio a fin. Aquí tiene una explicación más detallada de cómo funciona la observabilidad de los datos dentro de la cadena de datos:

  • Ingesta de datos: la observabilidad comienza desde el punto en que los datos se ingieren en el pipeline. Puede monitorizar la cantidad de datos que se ingieren, la rapidez con la que se procesan y si se producen errores o retrasos.
  • Proceso de datos: a medida que los datos pasan por varias etapas de proceso de datos, las herramientas de observabilidad pueden monitorizar el funcionamiento de cada operación. Esto incluye vigilar fallos, medir la latencia, rastrear el uso de recursos y asegurarse de que los datos se transforman correctamente.
  • Almacenamiento de datos y entrega: la observabilidad sigue en la fase de almacenamiento y entrega. Puede monitorizar la rapidez con la que se escriben los datos en la base de datos o en el almacén de datos, garantizar que los datos se entregan a los destinos correctos y avisarle de cualquier problema.
  • Seguimiento de errores y solución de problemas: las herramientas de observabilidad pueden ayudar a identificar dónde se produjeron los errores, sus causas raíz y sugerir acciones de corrección. Esto es crítico para minimizar el tiempo de inactividad y garantizar la fiabilidad de su pipeline de datos.
  • Optimización del rendimiento: al monitorizar el rendimiento de su pipeline de datos, las herramientas de observabilidad pueden ayudar a identificar los cuellos de botella y las oportunidades de optimización. Esto puede conducir a un uso más eficiente de los recursos y a tiempos de procesamiento más rápidos.
  • Detección de anomalías: la observabilidad puede ayudar a identificar anomalías que podrían indicar posibles problemas o áreas de mejora. Por ejemplo, si los datos tardan mucho más en procesarse de lo habitual, esto podría indicar un problema con una etapa concreta del pipeline.
  • Alertas e informes: las herramientas de observabilidad suelen incluir características de alerta que pueden notificarle posibles problemas en tiempo real, lo que permite una respuesta rápida. También suelen ofrecer características de informes completas que pueden ayudarle a comprender el rendimiento y la estado general de su pipeline de datos.

Cómo pueden ayudar las plataformas de observabilidad de los datos

Las plataformas de observabilidad de los datos proporcionan conocimiento que las herramientas de monitorización por sí solas no pueden. Le dicen no solo qué salió mal, sino también qué problemas está causando y ofrecen pistas e incluso las mejores acciones a seguir para solucionarlo. Lo hace de forma continua, sin que tenga que rediseñar sus pipelines actuales o "cambiar el motor mientras está en vuelo", por así decirlo.

Por qué los ingenieros adoptan plataformas de observabilidad

  • Sus pipelines de datos son sistemas complejos. Requieren una arquitectura de observabilidad de los datos que realice una búsqueda constante.
  • Necesita saber dónde fallaron las cosas y por qué. Una plataforma de observabilidad proporciona una monitorización de extremo a extremo con ese mismo propósito.
  • Necesita una forma de rastrear las dependencias descendentes. Necesita saber, no esperar, que su solución aborde el problema raíz.

Componentes de una plataforma de observabilidad eficaz para pipelines de datos

Sus pipelines de datos son sistemas complejos y requieren una arquitectura de observabilidad de los datos que realice una investigación constante. Necesita una plataforma de observabilidad para la monitorización de extremo a extremo, de modo que sepa dónde fallaron las cosas y por qué. Necesita una forma de rastrear las dependencias posteriores y saber, no esperar, que su solución haya solucionado el problema raíz.

Una plataforma de observabilidad de los datos debe incluir:

  • Configuración sencilla: ¿es necesario cambiar el pipeline?
  • Seguimiento de extremo a extremo: ¿puede monitorizar las dependencias posteriores?
  • Arquitectura de observabilidad: ¿hace algo más que monitorizar?
  • Configuración del umbral: ¿puede hacer su propia detección de anomalías?
  • Administración: ¿puede monitorizar los datos en reposo?
  • Observabilidad de los datos de código abierto: ¿proporciona componentes de código abierto que puede ajustar?
  • Observabilidad de los sistemas distribuidos: ¿se pueden observar también los sistemas distribuidos?

La plataforma también debería ofrecer suficiente orientación prescriptiva. El campo de la observabilidad de los datos y la ingeniería de datos avanza rápidamente, y es una de las mejores formas de encontrar una plataforma que evolucione tan rápido como sus problemas. Ya no basta con monitorizar. Debe observar, rastrear, alertar y reaccionar.

Vea cómo Databand de IBM proporciona monitorización de los pipelines de datos para detectar rápidamente incidencias en los mismos, como trabajos y ejecuciones fallidos, de modo que pueda gestionar el crecimiento de dichos pipelines. Si está listo para profundizar, solicite una demostración hoy mismo.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data