El linaje de datos es el proceso de seguimiento del flujo de datos a lo largo del tiempo, proporcionando una comprensión clara de dónde se originaron los datos, cómo han cambiado y su destino final dentro de la canalización de datos.
Las herramientas de linaje de datos proporcionan un registro de los datos a lo largo de su ciclo de vida, incluida la información de origen y cualquier transformación de datos que se haya aplicado durante cualquier proceso ETL o ELT.
Este tipo de documentación permite a los usuarios observar y rastrear diferentes puntos de contacto a lo largo del recorrido de los datos, lo que permite a las organizaciones validar la precisión y la coherencia. Esta es una capacidad crítica para garantizar la calidad de los datos dentro de una organización. Se utiliza comúnmente para obtener contexto sobre procesos históricos, así como para rastrear errores hasta la causa raíz.
Aprenda a aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.
El linaje de datos, la procedencia de los datos y el gobierno de datos son términos estrechamente relacionados, que se superponen entre sí. Juntos, garantizan que una organización pueda mantener la calidad y la seguridad de los datos a lo largo del tiempo.
El gobierno de datos crea una estructura dentro de las organizaciones para gestionar los activos de datos mediante la definición de propietarios de datos, términos comerciales, reglas, políticas y procesos a lo largo del ciclo de vida de los datos. Las soluciones de linaje de datos ayudan a los equipos de gobernanza de datos a garantizar que los datos cumplan con estos estándares, lo que proporciona visibilidad sobre cómo cambian los datos dentro de la canalización. La procedencia de los datos se utiliza normalmente en el contexto del linaje de datos, pero se refiere específicamente a la primera instancia de esos datos o a su origen.
El linaje de datos proporciona un seguimiento de auditoría de los datos a un nivel muy granular; este tipo de detalle es increíblemente útil para depurar cualquier error de datos, lo que permite a los ingenieros de datos solucionar problemas de forma más eficaz e identificar las soluciones con mayor rapidez. Aunque el alcance del gobierno de datos es más amplio que el linaje y la procedencia de los datos, este aspecto de la gestión de datos es importante para hacer cumplir las normas de la organización.
Los datos fiables son esenciales para mejorar la toma de decisiones y los procesos en todas las facetas del negocio, desde las ventas hasta los recursos humanos. Sin embargo, esta información solo es valiosa si las partes interesadas siguen confiando en su precisión, ya que la información solo depende de la calidad de los datos. El linaje de datos permite ver los cambios que pueden producirse como resultado de las migraciones de datos, las actualizaciones del sistema, los errores y más, lo que garantiza la integridad de los datos a lo largo de su ciclo de vida.
El linaje de datos documenta la relación entre los datos empresariales en diversas aplicaciones empresariales y de TI. Estos detalles pueden incluir:
Los metadatos permiten a los usuarios de herramientas de linaje de datos comprender completamente cómo fluyen los datos a través de la canalización de datos. Los metadatos son los "datos sobre los datos", que incluyen información diversa sobre los activos de datos, como el tipo, el formato, la estructura, el autor, la fecha de creación, la fecha de modificación y el tamaño del archivo. Las herramientas de linaje de datos ofrecen una imagen completa de los metadatos para guiar a los usuarios a medida que determinan qué tan útiles serán los datos para ellos.
En los últimos años, la manera de almacenar y aprovechar los datos ha evolucionado con la evolución del big data. Las empresas están invirtiendo más en ciencia de datos para impulsar la toma de decisiones y los resultados empresariales. Sin embargo, para que puedan construir un análisis bien formado, necesitarán utilizar herramientas de linaje de datos y catálogos de datos para ejercicios de descubrimiento y asignación de datos. Mientras que las herramientas de linaje de datos muestran la evolución de los datos a lo largo del tiempo a través de metadatos, un catálogo de datos utiliza la misma información para crear un inventario de búsqueda de todos los activos de datos de una organización. Juntos, permiten a los usuarios de datos comprender la importancia de los diferentes elementos de datos para un resultado determinado, lo cual es fundamental en el desarrollo de cualquier algoritmode machine learning.
Hoy en día, las empresas tienen una necesidad cada vez mayor de obtener información en tiempo real, pero esos hallazgos dependen de la comprensión de los datos y su recorrido a lo largo del proceso de procesamiento. Algunas de las formas en que los equipos pueden aprovechar las herramientas de linaje de datos de extremo a extremo para mejorar los flujos de trabajo incluyen:
Modelado de datos: para crear representaciones visuales de los diferentes elementos de datos y sus correspondientes vínculos dentro de una empresa, las empresas deben definir las estructuras de datos subyacentes que los soportan. El linaje de datos ayuda a modelar estas relaciones, ilustrando las diferentes dependencias en el ecosistema de datos. Dado que los datos evolucionan con el tiempo, siempre surgen nuevas fuentes de datos, es necesario realizar nuevas integraciones de datos, etc. Como resultado, el modelo de datos general que las empresas utilizan para gestionar sus datos también debe adaptarse al entorno cambiante. El linaje de datos ayuda a reflejar con precisión estos cambios a lo largo del tiempo a través de diagramas de modelos de datos, destacando conexiones o tablas nuevas u obsoletas. Esto, a su vez, ayuda a los analistas y científicos de datos a facilitar análisis valiosos y oportunos, ya que tendrán una mejor comprensión de los conjuntos de datos.
Migración de datos: al trasladar datos a un nuevo sistema de almacenamiento o incorporar un nuevo software, las organizaciones utilizan la migración de datos para comprender las ubicaciones y el ciclo de vida de los datos. Dado que el linaje de datos proporciona una visión de cómo estos datos han progresado a través de la organización, ayuda a los equipos a planificar estas migraciones o actualizaciones del sistema, acelerando la transición general al nuevo entorno de almacenamiento. También brinda a los equipos la oportunidad de limpiar el sistema de datos, archivando o eliminando datos antiguos e irrelevantes; esto, a su vez, puede mejorar el rendimiento general del sistema de datos reduciendo la cantidad de datos que necesita gestionar.
Cumplimiento: el linaje de datos proporciona un mecanismo de cumplimiento para auditar, mejorar la gestión de riesgos y garantizar que los datos se almacenen y procesen de acuerdo con las políticas y regulaciones de gobierno de datos. Por ejemplo, en 2016, se creó la legislación GDPR para proteger los datos personales de las personas en la Unión Europea y el Espacio Económico Europeo, dando a las personas un mayor control de sus datos. En Estados Unidos, estados individuales, como California, desarrollaron políticas, como la California Consumer Privacy Act, que exigía a las empresas que informaran a los consumidores sobre la recopilación de sus datos. Este tipo de legislación hace que el almacenamiento y la seguridad de estos datos sean una prioridad máxima, y sin herramientas de linaje de datos, las organizaciones considerarían que los problemas de incumplimiento son una tarea costosa y que consume mucho tiempo.
Análisis del impacto: las herramientas de linaje de datos pueden proporcionar visibilidad sobre el impacto de cambios empresariales específicos, como cualquier informe posterior. Por ejemplo, si cambia el nombre de un elemento de datos, el linaje de datos puede ayudar a los líderes a comprender a cuántos cuadros de mando podría afectar y, posteriormente, a cuántos usuarios que acceden a esos informes. También puede ayudar a evaluar el impacto de los errores de datos y la exposición en toda la organización. Los errores de datos pueden producirse por infinidad de razones, lo que puede erosionar la confianza en determinados informes de inteligencia empresarial o fuentes de datos, pero las herramientas de linaje de datos pueden ayudar a los equipos a rastrearlos hasta la fuente, lo que permite optimizar el procesamiento de datos y la comunicación a los equipos respectivos.
Prediga los resultados con mayor rapidez utilizando una plataforma creada con una arquitectura data fabric. Recopile, organice y analice los datos, independientemente de dónde se encuentren.
Active datos preparados para IA y análisis con catalogación inteligente, basada en una gestión activa de metadatos y políticas.