Observabilidad del pipeline de datos: un modelo para ingenieros de datos

Vista aérea de personas trabajando en una oficina moderna

Autor

Eitan Chazbani

La observabilidad del flujo de datos es la capacidad de supervisar y comprender el estado de un flujo de datos en cualquier momento. Específicamente, la observabilidad proporciona insights sobre los estados internos del pipeline y cómo interactúan con los resultados del sistema.

Creemos que los pipelines de datos del mundo necesitan una mejor observabilidad de los datos. Pero, lamentablemente, muy poco de lo que sucede hoy en día en la ingeniería de datos es observable. La mayoría de los flujos de datos están diseñados para mover pero no para supervisar. Para medir, pero no para rastrear. Para transformar, pero no decir. El resultado es el infame caso de la caja negra.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cuidado con el escenario de la caja negra

Ya sabe lo que entra. Ya sabe lo que sale. ¿Pero qué ocurre en medio? ¿Y por qué la discrepancia? Lamentablemente, estos son misterios que la mayoría de los oleoductos no fueron construidos para resolver. La mayoría se diseñaron para el mejor de los casos.
Sin embargo, la realidad se rige más estrechamente por la ley de Murphy, y en el lado de salida de la caja negra, a menudo verá una gran cantidad de valores extraños y columnas faltantes crípticas. Los ingenieros de datos se rascan la cabeza y se dan cuenta de que, para corregir, primero hay que observar.

Esta guía cubrirá los siguientes puntos:

  1. ¿Qué es la observabilidad de datos?
  2. ¿Qué es la observabilidad del pipeline de datos?
  3. ¿Por qué es importante la observabilidad de los datos para los pipelines?
  4. ¿Cómo implementa la observabilidad para los pipelines de datos?
  5. ¿Cómo pueden ayudar las plataformas de observabilidad de los datos?
Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Qué es la observabilidad de datos?

La "observabilidad" se ha convertido en una palabra de moda, por lo que probablemente sea mejor definirla: la observabilidad de los datos es el término general para monitorear y mejorar el estado de los datos dentro de aplicaciones y sistemas como pipelines de datos.

Observabilidad de los datos versus monitoreo: ¿cuál es la diferencia?

El "monitoreo de datos" le permite conocer el estado actual de su pipeline de datos o sus datos. Le indica si los datos son completos, precisos y frescos. Le indica si sus pipelines tuvieron éxito o fracasaron. El monitoreo de datos puede mostrar si las cosas están funcionando o no, pero no proporciona mucho contexto más allá de eso.

Por tanto, la monitorización es solo una función de la observabilidad. “Observabilidad de los datos” es un término genérico que incluye:

  • Monitoreo: un panel que proporciona una vista operativa de su pipeline o sistema
  • Alertas: tanto para eventos esperados como para anomalías
  • Seguimiento: capacidad para establecer y realizar un seguimiento de eventos específicos
  • Comparaciones: monitoreo a lo largo del tiempo, con alertas de anomalías
  • Análisis: detecciónautomatizada de problemas que se adapta a su pipeline y al estado de los datos
  • Siguiente mejor acción: acciones recomendadas para arreglar errores

Al abarcar no solo una actividad, el monitoreo, sino una canasta de actividades, la observabilidad es mucho más útil para los ingenieros. La observabilidad de los datos no se limita a describir el problema. Proporciona contexto y sugerencias para ayudar a resolverlo.

"La observabilidad de los datos va más allá del monitoreo al agregar más contexto a las métricas del sistema, proporcionar una visión más profunda de las operaciones del sistema e indicar si los ingenieros deben intervenir y aplicar arreglos", explica Evgeny Shulman, cofundador y director de tecnología de IBM® Databand. “En otras palabras, mientras que el monitoreo le dice que algún microservicio está consumiendo una cantidad determinada de recursos, la observabilidad le dice que su estado actual está asociado con fallas críticas y que necesita intervenir”.

Este enfoque proactivo es particularmente importante cuando se trata de pipelines de datos.

¿Qué es la observabilidad del pipeline de datos?

La observabilidad del pipeline de datos se refiere a la capacidad de monitorear y comprender el estado de un pipeline de datos en cualquier momento, especialmente con respecto a sus estados internos, en función de los resultados del sistema. Va más allá del monitoreo básico para proporcionar una comprensión más profunda de cómo se mueven y transforman los datos en un pipeline, y a menudo se asocia con métricas, registro y rastreo de pipelines de datos.

Los pipelines de datos a menudo implican una serie de etapas en las que los datos se recopilan, transforman y almacenan. Esto podría incluir procesos como la extracción de datos de diferentes fuentes, la limpieza de datos, la transformación de datos (como la agregación) y la carga de los datos en una base de datos o un almacén de datos. Cada una de estas etapas puede tener diferentes comportamientos y posibles problemas que pueden afectar la calidad de los datos, la confiabilidad y el rendimiento general del sistema.

La observabilidad proporciona insight sobre cómo funciona cada etapa del pipeline de datos y cómo su funcionamiento interno se correlaciona con tipos específicos de resultados, especialmente resultados que no proporcionan los niveles requeridos de rendimiento, calidad o precisión. Estos insights permiten a los equipos de ingeniería de datos comprender qué salió mal y solucionarlo.

¿Por qué la observabilidad de los datos es tan importante para los pipelines?

La observabilidad de los pipelines de datos es importante porque los pipelines han pasado de ser complicados a complejos: de muchos sistemas concurrentes a muchos sistemas interdependientes.

Las tuberías son esenciales para una industria en rápida expansión

Es más probable que nunca que las aplicaciones de software no solo se beneficien de los pipelines de datos, sino que dependan de ellos. Lo mismo ocurre con los usuarios finales. Cuando grandes proveedores como AWS sufren interrupciones en el servicio y los paneles de control de aplicaciones de todo el mundo dejan de funcionar, se pueden observar a nuestro alrededor señales de que la complejidad crea dependencias peligrosas.

En este momento, la industria de analytics tiene una tasa de crecimiento anual combinada del 12 % anual. Según Gartner, valdrá la asombrosa cantidad de 105 000 millones USD para 2027, aproximadamente del tamaño de la economía de Ucrania. A este ritmo, el volumen de datos corporativos aumenta actualmente un 62 % cada mes. ¿Todas esas empresas que almacenan y analizan todos esos datos? Están apostando su negocio a ello y a que los pipelines de datos que lo ejecutan continuarán funcionando.

El contexto es crucial (y a menudo falta)

Una de las principales causas de los problemas de calidad de los datos y de los fallos en los procesos son las transformaciones que se producen dentro de dichos procesos. La mayor parte de la arquitectura de datos actual es opaca: no se puede saber lo que está sucediendo dentro. Se están produciendo transformaciones, pero cuando las cosas no salen como se espera, los ingenieros de datos no tienen mucho contexto para explicar por qué.

Demasiados equipos de DataOps pasan demasiado tiempo tratando de diagnosticar problemas sin contexto. Y si sigue su primer instinto y utiliza una herramienta de gestión del rendimiento de las aplicaciones para monitorear un pipeline de DataOps, rara vez funciona.

La observabilidad mantiene a los ingenieros sincronizados (y seguros)

"Los pipelines de datos se comportan de manera muy diferente a las aplicaciones de software y la infraestructura", dice Evgeny. “Los equipos de ingeniería de datos pueden obtener insights sobre los estados de los trabajos de alto nivel (o DAG) y el rendimiento de las bases de datos resumidas, pero carecerán de visibilidad sobre el nivel adecuado de información que necesitan para gestionar sus pipelines. Esta brecha hace que muchos equipos pasen mucho tiempo rastreando problemas o trabajen en un estado de paranoia constante”.

Tener un equipo de datos más grande y especializado puede ayudar, pero puede perjudicar si esos miembros del equipo no se coordinan. Más personas que acceden a los datos y ejecutan sus propios pipelines y sus propias transformaciones causan errores y afectan la estabilidad de los datos.

Cada vez más ingenieros hoy en día se preocupan por la estabilidad de los datos y por si sus datos son aptos para el uso de sus consumidores, tanto dentro como fuera del negocio. Y así, más equipos están interesados en la observabilidad de los datos.

¿Cómo implementa la observabilidad para los pipelines de datos?

La observabilidad de los datos funciona con su pipeline de datos al proporcionar insights sobre cómo fluyen y se procesan sus datos de principio a fin. Aquí hay una explicación más detallada de cómo funciona la observabilidad de los datos dentro del pipeline de datos:

  • Ingesta de datos: la observabilidad comienza desde el punto en que los datos se ingieren en el pipeline. Puede monitorear la cantidad de datos que se ingieren, la rapidez con la que se procesan y si hay errores o retrasos.
  • Procesamiento de datos: a medida que los datos se mueven por varias etapas de procesamiento, las herramientas de observabilidad pueden monitorear la operación de cada etapa. Esto incluye observar fallas, medir la latencia, rastrear el uso de recursos y garantizar que los datos se transformen correctamente.
  • Almacenamiento de datos y entrega: la observabilidad continúa en la fase de almacenamiento y entrega. Puede monitorear la rapidez con la que se escriben los datos en la base de datos o el almacén de datos, cerciorar de que los datos se entregan a los destinos correctos y alertarte de cualquier problema.
  • Seguimiento de errores y resolución de problemas: las herramientas de observabilidad pueden ayudar a identificar dónde ocurrieron los errores, sus causas principales e incluso sugerir acciones de corrección. Esto es crítico para minimizar el tiempo de inactividad y garantizar la fiabilidad de su pipeline de datos.
  • Optimización del rendimiento: al monitorear el rendimiento de su pipeline de datos, las herramientas de observabilidad pueden ayudar a identificar cuellos de botella y oportunidades de optimización. Esto puede conducir a un uso más eficiente de los recursos y tiempos de procesamiento más rápidos.
  • Detección de anomalías: la observabilidad puede ayudar a identificar anomalías que podrían indicar posibles problemas o áreas de mejora. Por ejemplo, si los datos tardan mucho más de lo habitual en procesarse, esto podría indicar un problema con una etapa particular del pipeline.
  • Alertas y reportes: las herramientas de observabilidad a menudo incluyen funciones de alerta que pueden notificarle sobre posibles problemas en tiempo real, lo que permite una respuesta rápida. También suelen ofrecer características de informes completas que pueden ayudarle a comprender el rendimiento y el estado general de su pipeline de datos.

Cómo pueden ayudar las plataformas de observabilidad de los datos

Las plataformas de observabilidad de los datos proporcionan insight que las herramientas de monitoreo por sí solas no pueden ofrecer. Le dicen no solo qué salió mal, sino también qué problemas está causando y ofrecen pistas e incluso las siguientes mejores acciones para arreglarlos. Lo hace continuamente, sin que tenga que rediseñar sus pipelines actuales o "cambiar el motor mientras está en vuelo", por así decirlo.

Por qué los ingenieros adoptan plataformas de observabilidad

  • Sus pipelines de datos son sistemas complejos. Requieren una arquitectura de observabilidad de los datos que realice una investigación constante.
  • Necesita saber dónde fallaron las cosas y por qué. Una plataforma de observabilidad proporciona monitoreo de extremo a extremo para ese mismo propósito.
  • Necesita una forma de rastrear las dependencias descendentes. Necesita saber, no esperar, que sus arreglos hayan abordado el problema de raíz.

Componentes de una plataforma de observabilidad eficaz para pipelines de datos

Sus pipelines de datos son sistemas complejos y requieren una arquitectura de observabilidad de los datos que realice una investigación constante. Necesita una plataforma de observabilidad para el monitoreo de extremo a extremo para saber dónde fallaron las cosas y por qué. Necesita una forma de rastrear las dependencias posteriores y saber, no esperar, que su solución arregló el problema de raíz.

Una plataforma de observabilidad de los datos debe incluir:

  • Configuración sencilla: ¿Es necesario cambiar su canalización?
  • Seguimiento de extremo a extremo: ¿puede monitorear las dependencias posteriores?
  • Arquitectura de observabilidad: ¿hace algo más que monitorear?
  • Configuración del umbral: ¿puede hacer su propia detección de anomalías?
  • Administración: ¿Puede monitorear los datos en reposo?
  • Observabilidad de los datos de código abierto: ¿proporciona componentes de código abierto que puede ajustar?
  • Observabilidad de sistemas distribuidos: ¿también puede observar sistemas distribuidos?

La plataforma también debe ofrecer mucha orientación prescriptiva. El campo de la observabilidad de los datos y la ingeniería de datos se mueve rápidamente y es una de las mejores maneras de encontrar una plataforma que evolucione tan rápido como sus problemas. Ya no basta con monitorear. Debes observar, rastrear, alertar y reaccionar.

Vea cómo Databand de IBM proporciona supervisión de pipelines de datos para detectar rápidamente incidencias de datos como tareas y ejecuciones fallidas, de modo que pueda gestionar el crecimiento de dichos pipelines. Si está listo para profundizar, reserve una demostración hoy mismo .

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data