¿Qué es el linaje de datos?
Explore la solución de linaje de datos de IBM Regístrese para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular y pictogramas gráficos sobre lo siguiente
¿Qué es el linaje de datos?

El linaje de datos es el proceso de seguimiento del flujo de datos a lo largo del tiempo, proporcionando una comprensión clara de dónde se originaron los datos, cómo han cambiado y su destino final dentro de la canalización de datos.

Las herramientas de linaje de datos proporcionan un registro de los datos a lo largo de su ciclo de vida, incluida la información de origen y cualquier transformación de datos que se haya aplicado durante cualquier proceso ETL o ELT.

Este tipo de documentación permite a los usuarios observar y rastrear diferentes puntos de contacto a lo largo del recorrido de los datos, lo que permite a las organizaciones validar la precisión y la coherencia. Esta es una capacidad crítica para garantizar la calidad de los datos dentro de una organización. Se utiliza comúnmente para obtener contexto sobre procesos históricos, así como para rastrear errores hasta la causa raíz.

 

Guía para líderes de datos

Aprenda a aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.

Contenido relacionado Regístrese para obtener el libro electrónico sobre almacenes de datos de IA
Linaje de datos frente a procedencia de los datos frente a gobernanza de los datos

El linaje de datos, la procedencia de los datos y el gobierno de datos son términos estrechamente relacionados, que se superponen entre sí. Juntos, garantizan que una organización pueda mantener la calidad y la seguridad de los datos a lo largo del tiempo.

El gobierno de datos crea una estructura dentro de las organizaciones para gestionar los activos de datos mediante la definición de propietarios de datos, términos comerciales, reglas, políticas y procesos a lo largo del ciclo de vida de los datos. Las soluciones de linaje de datos ayudan a los equipos de gobernanza de datos a garantizar que los datos cumplan con estos estándares, lo que proporciona visibilidad sobre cómo cambian los datos dentro de la canalización. La procedencia de los datos se utiliza normalmente en el contexto del linaje de datos, pero se refiere específicamente a la primera instancia de esos datos o a su origen.

El linaje de datos proporciona un seguimiento de auditoría de los datos a un nivel muy granular; este tipo de detalle es increíblemente útil para depurar cualquier error de datos, lo que permite a los ingenieros de datos solucionar problemas de forma más eficaz e identificar las soluciones con mayor rapidez. Aunque el alcance del gobierno de datos es más amplio que el linaje y la procedencia de los datos, este aspecto de la gestión de datos es importante para hacer cumplir las normas de la organización.

Por qué las empresas utilizan el linaje de datos

Los datos fiables son esenciales para mejorar la toma de decisiones y los procesos en todas las facetas del negocio, desde las ventas hasta los recursos humanos. Sin embargo, esta información solo es valiosa si las partes interesadas siguen confiando en su precisión, ya que la información solo depende de la calidad de los datos. El linaje de datos permite ver los cambios que pueden producirse como resultado de las migraciones de datos, las actualizaciones del sistema, los errores y más, lo que garantiza la integridad de los datos a lo largo de su ciclo de vida.

El linaje de datos documenta la relación entre los datos empresariales en diversas aplicaciones empresariales y de TI. Estos detalles pueden incluir:

  • Dónde están los datos y cómo se almacenan en un entorno, como en las instalaciones, en un almacén de datos o en un data lake.
  • Cómo se pueden utilizar los datos y quién es responsable de actualizar, utilizar y modificar los datos. Esto también incluye las funciones y aplicaciones que están autorizadas a acceder a segmentos específicos de datos confidenciales, por ejemplo, información de identificación personal (PII).
  • Seguimiento de datos generados, cargados y alterados por usuarios y aplicaciones empresariales. Por ejemplo, puede ser la adición de contactos a un sistema de gestión de relaciones con los clientes (CRM) o una transformación de datos, como la eliminación de registros duplicados.
  • Datos creados e integrados desde diferentes partes de la organización, como hardware de red y servidores.
Cómo funciona el linaje de datos

Los metadatos permiten a los usuarios de herramientas de linaje de datos comprender completamente cómo fluyen los datos a través de la canalización de datos. Los metadatos son los "datos sobre los datos", que incluyen información diversa sobre los activos de datos, como el tipo, el formato, la estructura, el autor, la fecha de creación, la fecha de modificación y el tamaño del archivo. Las herramientas de linaje de datos ofrecen una imagen completa de los metadatos para guiar a los usuarios a medida que determinan qué tan útiles serán los datos para ellos.

En los últimos años, la manera de almacenar y aprovechar los datos ha evolucionado con la evolución del big data. Las empresas están invirtiendo más en ciencia de datos para impulsar la toma de decisiones y los resultados empresariales. Sin embargo, para que puedan construir un análisis bien formado, necesitarán utilizar herramientas de linaje de datos y catálogos de datos para ejercicios de descubrimiento y asignación de datos. Mientras que las herramientas de linaje de datos muestran la evolución de los datos a lo largo del tiempo a través de metadatos, un catálogo de datos utiliza la misma información para crear un inventario de búsqueda de todos los activos de datos de una organización. Juntos, permiten a los usuarios de datos comprender la importancia de los diferentes elementos de datos para un resultado determinado, lo cual es fundamental en el desarrollo de cualquier algoritmode machine learning.

Casos prácticos de linaje de datos

Hoy en día, las empresas tienen una necesidad cada vez mayor de obtener información en tiempo real, pero esos hallazgos dependen de la comprensión de los datos y su recorrido a lo largo del proceso de procesamiento. Algunas de las formas en que los equipos pueden aprovechar las herramientas de linaje de datos de extremo a extremo para mejorar los flujos de trabajo incluyen:

Modelado de datos: para crear representaciones visuales de los diferentes elementos de datos y sus correspondientes vínculos dentro de una empresa, las empresas deben definir las estructuras de datos subyacentes que los soportan. El linaje de datos ayuda a modelar estas relaciones, ilustrando las diferentes dependencias en el ecosistema de datos. Dado que los datos evolucionan con el tiempo, siempre surgen nuevas fuentes de datos, es necesario realizar nuevas integraciones de datos, etc. Como resultado, el modelo de datos general que las empresas utilizan para gestionar sus datos también debe adaptarse al entorno cambiante. El linaje de datos ayuda a reflejar con precisión estos cambios a lo largo del tiempo a través de diagramas de modelos de datos, destacando conexiones o tablas nuevas u obsoletas. Esto, a su vez, ayuda a los analistas y científicos de datos a facilitar análisis valiosos y oportunos, ya que tendrán una mejor comprensión de los conjuntos de datos.

Migración de datos: al trasladar datos a un nuevo sistema de almacenamiento o incorporar un nuevo software, las organizaciones utilizan la migración de datos para comprender las ubicaciones y el ciclo de vida de los datos. Dado que el linaje de datos proporciona una visión de cómo estos datos han progresado a través de la organización, ayuda a los equipos a planificar estas migraciones o actualizaciones del sistema, acelerando la transición general al nuevo entorno de almacenamiento. También brinda a los equipos la oportunidad de limpiar el sistema de datos, archivando o eliminando datos antiguos e irrelevantes; esto, a su vez, puede mejorar el rendimiento general del sistema de datos reduciendo la cantidad de datos que necesita gestionar.

Cumplimiento: el linaje de datos proporciona un mecanismo de cumplimiento para auditar, mejorar la gestión de riesgos y garantizar que los datos se almacenen y procesen de acuerdo con las políticas y regulaciones de gobierno de datos. Por ejemplo, en 2016, se creó la legislación GDPR para proteger los datos personales de las personas en la Unión Europea y el Espacio Económico Europeo, dando a las personas un mayor control de sus datos. En Estados Unidos, estados individuales, como California, desarrollaron políticas, como la California Consumer Privacy Act, que exigía a las empresas que informaran a los consumidores sobre la recopilación de sus datos. Este tipo de legislación hace que el almacenamiento y la seguridad de estos datos sean una prioridad máxima, y sin herramientas de linaje de datos, las organizaciones considerarían que los problemas de incumplimiento son una tarea costosa y que consume mucho tiempo.

Análisis del impacto: las herramientas de linaje de datos pueden proporcionar visibilidad sobre el impacto de cambios empresariales específicos, como cualquier informe posterior. Por ejemplo, si cambia el nombre de un elemento de datos, el linaje de datos puede ayudar a los líderes a comprender a cuántos cuadros de mando podría afectar y, posteriormente, a cuántos usuarios que acceden a esos informes. También puede ayudar a evaluar el impacto de los errores de datos y la exposición en toda la organización. Los errores de datos pueden producirse por infinidad de razones, lo que puede erosionar la confianza en determinados informes de inteligencia empresarial o fuentes de datos, pero las herramientas de linaje de datos pueden ayudar a los equipos a rastrearlos hasta la fuente, lo que permite optimizar el procesamiento de datos y la comunicación a los equipos respectivos.

Soluciones de IBM
IBM Cloud Pak for Data

Prediga los resultados con mayor rapidez utilizando una plataforma creada con una arquitectura data fabric. Recopile, organice y analice los datos, independientemente de dónde se encuentren.

IBM Cloud Pak for Data
IBM Knowledge Catalog

Active datos preparados para IA y análisis con catalogación inteligente, basada en una gestión activa de metadatos y políticas.

IBM Knowledge Catalog
Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Solicite una demostración en directo