¿Qué es el linaje de datos?

Conozca el linaje de datos y cómo las empresas lo están utilizando para mejorar sus conocimientos del negocio

Dos trabajadores sentados en un escritorio compartido, ambos mirando una pantalla de ordenador
¿Qué es el linaje de datos?

El linaje de datos es el proceso de rastrear el flujo de datos a lo largo del tiempo, facilitando la comprensión de dónde se han originado los datos, cómo han cambiado y su destino final dentro de la canalización de datos. Las herramientas de linaje de datos proporcionan un registro de los datos a lo largo de su ciclo de vida, incluida la información de origen y todas las transformaciones de datos que se hayan aplicado durante cualquier proceso de ETL o ELT. Este tipo de documentación permite a los usuarios observar y rastrear diferentes puntos de contacto a lo largo del trayecto de los datos, con lo cual las organizaciones pueden validar su precisión y coherencia. Se trata de una prestación esencial para asegurar la calidad de los datos en una organización. Normalmente se utiliza para ganar contexto sobre procesos históricos, así como para rastrear errores hasta la causa raíz.


Linaje de datos frente a procedencia de datos frente a gobierno de datos

El linaje de datos, la procedencia de datos y el gobierno de datos son términos estrechamente relacionados, que se complementan. Juntos, garantizan que una organización pueda mantener la calidad y la seguridad de los datos a lo largo del tiempo.

El gobierno de datos crea una estructura dentro de las organizaciones para gestionar los activos de datos mediante la definición de los propietarios de los datos, los términos del negocio, las reglas, las políticas y los procesos a lo largo del ciclo de vida de los datos. Las soluciones de linaje de datos ayudan a los equipos de gobierno de datos a garantizar que los datos cumplan con estos estándares, brindando visibilidad sobre los cambios de los datos dentro de la canalización. La procedencia de datos se suele utilizar en el contexto del linaje de datos, pero se refiere específicamente a la primera instancia de estos datos o su origen.

El linaje de datos proporciona un rastreo de auditoría de datos a un nivel muy granular; este tipo de detalle resulta increíblemente útil para la depuración de cualquier error en los datos, lo que permite a los ingenieros de datos identificar problemas más eficazmente e identificar resoluciones más rápidamente. Si bien el ámbito del gobierno de datos es más amplio que el linaje y la procedencia de los datos, este aspecto de la gestión de los datos es importante para garantizar el cumplimiento de los estándares de la organización.


Por qué las empresas utilizan el linaje de datos

Los datos fiables son esenciales  para dirigir mejores decisiones y reforzar todos los procesos de un negocio, desde las ventas hasta los recursos humanos. Sin embargo, esta información es valiosa solo si las partes interesadas confían en su precisión, ya que los conocimientos serán tan buenos como la calidad de los datos. El linaje de datos da visibilidad sobre los cambios que pueden ocurrir como resultado de migraciones de datos, actualizaciones del sistema, errores y más, asegurando la integridad de los datos a lo largo de todo su ciclo de vida.

El linaje de datos documenta la relación entre los datos empresariales en distintas aplicaciones de negocio y TI. Estos detalles pueden incluir:

  • Dónde están los datos y cómo se han almacenado en un entorno, por ejemplo, en local, en un depósito de datos o en un lago de datos.
  • Cómo se pueden usar los datos y quién es responsable de su actualización, uso y modificación. Esto también incluye las funciones y aplicaciones con permiso para acceder a segmentos específicos de datos confidenciales, por ejemplo, información de identificación personal (PII).
  • Seguimiento de datos generados, cargados y modificados por usuarios y aplicaciones de negocio. Por ejemplo, esto puede ser la adición de contactos a un sistema gestión de relaciones con los clientes (CRM), o una transformación de datos, como la eliminación de registros duplicados.
  • Datos creados e integrados desde diferentes partes de la organización, como servidores y hardware de red.

Cómo funciona el linaje de datos

Los metadatos permiten a los usuarios de las herramientas de linaje de datos comprender completamente cómo fluyen los datos a través de la canalización de datos. Los metadatos son los "datos sobre los datos", que incluyen información diversa sobre los datos activos, como el tipo, el formato, la estructura, el autor, la fecha de creación, la fecha de modificación y el tamaño de archivo. Las herramientas de linaje de datos proporcionan una imagen completa de los metadatos para guiar a los usuarios en la determinación de cuan útiles les resultarán los datos.

En los últimos años, las formas de almacenamiento y aprovechamiento ha evolucionado con el avance de big data. Las empresas están invirtiendo más en ciencia de datos para impulsar la toma de decisiones y los resultados del negocio. Sin embargo, para que generen un análisis bien formado, necesitarán utilizar herramientas de linaje de datos y catálogos de datos para los ejercicios de descubrimiento y correlación de datos. Mientras que las herramientas de linaje de datos muestran la evolución de los datos a lo largo del tiempo a través de metadatos, un catálogo de datos utiliza la misma información para crear un inventario con opción de búsqueda de todos los activos de datos en una organización. Juntos, permiten a los responsables de los datos comprender la importancia de los diferentes elementos de datos para un resultado determinado, lo cual resulta fundamental en el desarrollo de algoritmos de machine learning.


Casos de uso del linaje de datos

Las empresas actuales necesitan cada vez más obtener información en tiempo real, pero para ello necesitan comprender los datos y su trayecto a lo largo de toda la canalización. Algunas de las formas en que los equipos pueden aprovechar las herramientas de linaje de datos de forma integral para mejorar los flujos de trabajo incluyen:

Modelado de datos: para crear representaciones visuales de los diferentes elementos de datos y sus correspondientes vínculos dentro de una empresa, las empresas deben definir las estructuras de datos subyacentes que los soportan. El linaje de datos ayuda a modelar estas relaciones, ilustrando las diferentes dependencias a través de todo el ecosistema de datos.  Dado que los datos evolucionan a lo largo del tiempo, siempre surgen nuevos orígenes de datos, nuevas integraciones de datos que deben realizarse, etc. Como resultado, el modelo de datos global que las empresas utilizan para gestionar sus datos también necesita adaptarse al entorno cambiante. El linaje de datos ayuda a reflejar con precisión estos cambios a lo largo del tiempo a través de diagramas de modelos de datos, resaltando las conexiones o tablas nuevas u obsoletas. Esto, a su vez, ayuda a los analistas y científicos de datos a facilitar análisis valiosos y puntuales, ya que les ofrece una mejor comprensión de los conjuntos de datos.

Migración de datos: al mover datos a un nuevo sistema de almacenamiento o incorporar nuevo software, las organizaciones utilizan la migración de datos para comprender las ubicaciones y el ciclo de vida de los datos. Dado que el linaje de datos proporciona una visión del progreso de estos datos a través de la organización, también ayuda a los equipos a planificar estas migraciones o actualizaciones del sistema, acelerando la transición general al nuevo entorno de almacenamiento. También brinda a los equipos la oportunidad de limpiar el sistema de datos, archivando o eliminando datos antiguos e irrelevantes; esto, a su vez, permite mejorar el rendimiento general del sistema de datos reduciendo la cantidad de datos que es necesario gestionar.

Cumplimiento: el linaje de datos proporciona un mecanismo de cumplimiento para auditar, mejorar la gestión del riesgo y garantizar que los datos se almacenan y procesan en línea con las políticas y las normativas de gobierno de datos. Por ejemplo, en 2016, se creó la legislación de GDPR para proteger los datos personales de las personas en la Unión Europea y el Espacio Económico Europeo, ofreciéndoles un mayor control de sus datos. En Estados Unidos, algunos estados, como California, están desarrollando políticas como, por ejemplo, la CCPA (California Consumer Privacy Act), que requieren que las empresas informen a los consumidores sobre la recopilación de sus datos. Este tipo de legislación prioriza el almacenamiento y la seguridad de estos datos, y sin herramientas de linaje de datos, los problemas de incumplimiento absorberían mucho tiempo y dinero.

Análisis de impacto: las herramientas de linaje de datos pueden proporcionar visibilidad sobre el impacto de cambios específicos en el negocio, como la elaboración de informes en sentido descendente. Por ejemplo, si cambia el nombre de un elemento de datos, el linaje de datos puede ayudar a los líderes a determinar a cuántas visualizaciones podría afectar dicho cambio y, posteriormente, cuántos usuarios acceden a dichos informes. También puede ayudar a evaluar la repercusión de los errores y la exposición de los datos en toda la organización. Los errores de datos pueden ocurrir por muy distintas razones, que pueden mermar la confianza en ciertos informes de business intelligence u orígenes de datos, pero las herramientas de linaje de datos pueden ayudar a los equipos a rastrearlos hasta su origen, facilitando las optimizaciones en el procesamiento de datos y la comunicación a los respectivos equipos.


Soluciones de IBM

IBM Cloud Pak for Data

Prevea resultados más rápidamente con una plataforma creada con arquitectura de data fabric. Recopile, organice y analice datos, independientemente de dónde residan.


IBM Watson Knowledge Catalog

Active datos de negocio para IA y analítica con la catalogación de datos inteligente, con el respaldo de la gestión de políticas y metadatos activos



Dé el siguiente paso

IBM Cloud Pak for Data aprovecha los microservicios y sus prestaciones de IA y datos más destacadas para habilitar la integración inteligente de datos en sistemas distribuidos, ofreciendo a las empresas una visión completa del rendimiento del negocio. Esto facilita y acelera la recopilación, la organización y la extracción de conocimiento de los datos empresariales, lo que permite a las empresas tomar decisiones a escala. Los equipos de gestión de datos también pueden confiar en que sus datos están protegidos con los marcos de seguridad competitivos de IBM, garantizando la adhesión a las políticas normativas y reduciendo los riesgos de conformidad. Descubra cómo IBM® Cloud Pak for Data e IBM Streams le ayudan a comprender y gestionar la arquitectura de datos de su empresa a través del linaje de datos en varios entornos.