Inicio

Temas

Linaje de datos

¿Qué es el linaje de datos?
Explore la solución de linaje de datos de IBM Regístrese para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es el linaje de datos?

El linaje de datos es el proceso de rastrear el flujo de datos a lo largo del tiempo, proporcionando una comprensión clara de dónde se originaron los datos, cómo cambiaron y su destino final dentro del canal de datos.

Las herramientas de linaje de datos proporcionan un registro de los datos a lo largo de su ciclo de vida, incluida la información de origen y cualquier transformación de datos que aplicada durante cualquier proceso ETL o ELT.

Este tipo de documentación permite a los usuarios observar y rastrear diferentes puntos de contacto a lo largo del recorrido de los datos, lo que permite a las organizaciones validar la precisión y la coherencia. Esta es una capacidad crítica para garantizar la calidad de los datos dentro de una organización. Se emplea comúnmente para obtener contexto sobre procesos históricos, así como para rastrear errores hasta la causa principal.

 

Una guía para líderes de datos

Aprenda cómo aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.

Contenido relacionado Regístrese para obtener el libro electrónico sobre almacenes de datos de IA
Linaje de datos versus procedencia de datos versus gobernanza de datos

El linaje de los datos, la procedencia de los datos y la gobernanza de los datos son términos estrechamente relacionados, que se superponen entre sí. Juntos, garantizan que una organización pueda mantener la calidad y la seguridad de los datos a lo largo del tiempo.

El gobierno de datos crea una estructura dentro de las organizaciones para administrar los activos de datos mediante la definición de propietarios de datos, términos del negocio, reglas, políticas y procesos a lo largo del ciclo de vida de los datos. Las soluciones de linaje de datos ayudan a los equipos de gobierno de datos a garantizar que los datos cumplan con estos estándares, proporcionando visibilidad sobre cómo cambian los datos dentro del canal. La procedencia de los datos se utiliza típicamente en el contexto del linaje de datos, pero se refiere específicamente a la primera instancia de esos datos o su origen.

El linaje de datos proporciona una pista de auditoría para los datos a un nivel muy granular; este tipo de detalle es increíblemente útil para depurar cualquier error de datos, lo que permite a los ingenieros de datos solucionar problemas de manera más eficiente e identificar resoluciones más rápidamente. Si bien el alcance de la gobernanza de datos es más amplio que el linaje y la procedencia de los datos, este aspecto de la gestión de datos es importante para hacer cumplir los estándares organizacionales.

Por qué las compañías emplean el linaje de datos

Los datos confiables son esenciales para impulsar una mejor toma de decisiones y la mejora de procesos en todas las facetas del negocio, desde ventas hasta recursos humanos. Sin embargo, esta información solo es valiosa si los stakeholders siguen confiando en su precisión, ya que los insights solo son tan buenos como la calidad de los datos. El linaje de datos brinda visibilidad de los cambios que pueden ocurrir como resultado de migraciones de datos, actualizaciones del sistema, errores y más, lo que garantiza la integridad de los datos a lo largo de su ciclo de vida.

El linaje de datos documenta la relación entre los datos empresariales en diversas aplicaciones comerciales y de TI. Estos detalles pueden incluir:

  • Dónde se encuentran los datos y cómo se almacenan en un entorno, como en on-premises, en un almacén de datos o en un lago de datos.
  • Cómo se pueden emplear los datos y quién es responsable de actualizarlos, emplearlos y modificarlos. Esto también incluye los roles y aplicaciones que están autorizados a acceder a segmentos específicos de datos confidenciales, por ejemplo: información de identificación personal (PII).
  • Seguimiento de los datos generados, cargados y alterados por los usuarios y aplicaciones del negocio. Por ejemplo, esto puede ser la adición de contactos a un sistema de administración de relaciones con el cliente (CRM), o puede ser una transformación de datos, como la eliminación de registros duplicados.
  • Datos creados e integrados desde diferentes partes de la organización, como hardware de red y servidores.
Cómo funciona el linaje de datos

Los metadatos permiten a los usuarios de herramientas de linaje de datos comprender completamente cómo fluyen los datos a través del canal de datos. Los metadatos son los "datos sobre los datos", que incluyen información diversa sobre los activos de datos, como el tipo, el formato, la estructura, el autor, la fecha de creación, la fecha de modificación y el tamaño del archivo. Las herramientas de linaje de datos proporcionan una imagen completa de los metadatos para guiar a los usuarios a medida que determinan la utilidad de los datos para ellos.

En los últimos años, las formas en que almacenamos y aprovechamos los datos han evolucionado junto con la evolución de big data. Las compañías están invirtiendo más en ciencia de datos para impulsar la toma de decisiones y los resultados comerciales. Sin embargo, para que puedan construir un análisis bien formado, necesitarán emplear herramientas de linaje de datos y catálogos de datos para ejercicios de descubrimiento y mapeo de datos. Mientras que las herramientas de linaje de datos muestran la evolución de los datos a lo largo del tiempo a través de metadatos, un catálogo de datos emplea la misma información para crear un inventario de búsqueda de todos los activos de datos de una organización. Juntos, permiten a los ciudadanos de datos comprender la importancia de los diferentes elementos de datos para un resultado determinado, lo cual es fundamental en el desarrollo de cualquier algoritmo deaprendizaje automático.

Casos de uso de linaje de datos

Hoy en día, las compañías tienen una necesidad cada vez mayor de insights en tiempo real, pero esos hallazgos dependen de la comprensión de los datos y su recorrido a lo largo del canal. Algunas de las formas en que los equipos pueden aprovechar las herramientas de linaje de datos de principio a fin para mejorar los flujos de trabajo incluyen:

Modelado de datos: Para crear representaciones visuales de los diferentes elementos de datos y sus correspondientes vinculaciones dentro de una empresa, las compañías deben definir las estructuras de datos subyacentes que los soportan. El linaje de datos ayuda a modelar estas relaciones, ilustrando las diferentes dependencias en todo el ecosistema de datos. Dado que los datos evolucionan con el tiempo, siempre surgen nuevas fuentes de datos, nuevas integraciones de datos que deben realizarse, etc. Como resultado, el modelo general de datos que utilizan las empresas para administrar sus datos también necesita adaptarse al entorno cambiante. El linaje de datos ayuda a reflejar con precisión estos cambios a lo largo del tiempo a través de diagramas de modelos de datos, destacando conexiones o tablas nuevas u obsoletas. Esto, a su vez, ayuda a los analistas y científicos de datos a facilitar análisis valiosos y oportunos, ya que tendrán una mejor comprensión de los conjuntos de datos.

Migración de datos: Al mover datos a un nuevo sistema de almacenamiento o incorporar un nuevo software, las organizaciones emplean la migración de datos para comprender las ubicaciones y el ciclo de vida de los datos. Dado que el linaje de datos proporciona una visión de cómo estos datos progresaron a través de la organización, ayuda a los equipos a planear estas migraciones o actualizaciones del sistema, acelerando la transición general al nuevo entorno de almacenamiento. También brinda a los equipos la oportunidad de limpiar el sistema de datos, archivando o eliminando datos antiguos e irrelevantes; esto, a su vez, puede mejorar el rendimiento general del sistema de datos reduciendo la cantidad de datos que necesita gestionar.

Cumplimiento: El linaje de datos proporciona un mecanismo de cumplimiento para auditar, mejorar la gestión de riesgos y garantizar que los datos se almacenen y procesen de acuerdo con las políticas y regulaciones de gobernanza de datos. Por ejemplo, en 2016, se creó la legislación GDPR para proteger los datos personales de las personas en la Unión Europea y el Espacio Económico Europeo, dando a las personas un mayor control de sus datos. En Estados Unidos, estados individuales, como California, desarrollaron políticas, como la California Consumer Privacy Act, que requería que las compañías informaran a los consumidores sobre la recopilación de sus datos. Este tipo de legislación hace que el almacenamiento y la seguridad de estos datos sean una prioridad máxima, y sin herramientas de linaje de datos, las organizaciones considerarían que los problemas de incumplimiento son una tarea costosa y que requiere mucho tiempo.

Análisis de impacto: Las herramientas de linaje de datos pueden proporcionar visibilidad sobre el impacto de cambios comerciales específicos, como cualquier reporte posterior. Por ejemplo, si cambia el nombre de un elemento de datos, el linaje de datos puede ayudar a los líderes a comprender a cuántos paneles podría afectar y, posteriormente, a cuántos usuarios acceden a esos informes. También puede ayudar a evaluar el impacto de los errores de datos y la exposición en toda la organización. Los errores de datos pueden ocurrir por una gran cantidad de razones, que pueden erosionar la confianza en ciertos informes de business intelligence o fuentes de datos, pero las herramientas de linaje de datos pueden ayudar a los equipos a rastrearlos hasta la fuente, lo que permite optimizaciones de procesamiento de datos y comunicación con los equipos respectivos.

Soluciones IBM
IBM Cloud Pak para datos

Prediga resultados más rápido por medio de una plataforma creada con arquitectura de tejido de datos. Recopile, organice y analice datos independientemente de dónde residan.

IBM Cloud Pak para datos
IBM Knowledge Catalog

Active datos listos para el negocio para IA y analytics con catalogación inteligente, respaldada por metadatos activos y gestión de políticas.

IBM Knowledge Catalog
Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Reserve una demostración en vivo