Diseño de la exportación de linajes a Collibra

Al exportar el linaje de datos, debe decidir el origen y el destino de la exportación, qué datos incluir en la exportación, si sincronizar los datos en el sistema de destino o si programar los trabajos de exportación.

Normalmente, cuando se empieza a crear un activo de exportación de linaje de datos, el sistema de destino está definido y configurado, y listo para ser utilizado en la exportación. Los metadatos del linaje de origen ya se han importado a un proyecto seleccionado. El activo de exportación del linaje de datos contiene información sobre qué datos de linaje incluir, cómo procesar los activos que ya no existen en el sistema de destino o cuándo ejecutar el trabajo de exportación.

Destino de exportación

El destino de exportación es el punto final al que desea añadir metadatos de linaje. Antes de crear el activo de exportación del linaje de datos, debe crear y configurar la instancia y la conexión de Collibra. A continuación, debe decidir cómo conectarse a esta instancia.

Instancia de Collibra

La instancia se identifica mediante una definición de fuente de datos. Cada instancia se configura con parámetros de atributos y tipos de relación. Para obtener más información, consulte Instancias de Collibra.

Conexión

Cree una conexión con Collibra en el mismo proyecto en el que desea crear el activo de exportación. Utilice los mismos detalles del punto final que en la definición de la fuente de datos que ha configurado como instancia de Collibra. Para obtener más información, consulte Conexión Collibra.

Método de conexión

Puede exportar metadatos de linaje conectándose directamente desde la plataforma o utilizando agentes Manta externos para conectarse de forma remota. Instala el agente Manta directamente en la instancia de Collibra y regístralo en la plataforma. A continuación, puede seleccionarlo al crear una exportación de linaje de datos. Para obtener más información, consulte Configuración de agentes para la importación de metadatos de linaje.

Fuente de exportación

Para identificar el linaje que se va a exportar, seleccione una definición de fuente de datos para la tecnología de origen. Puede seleccionar el linaje de origen de cualquier proyecto, el activo de importación de metadatos de linaje no tiene por qué estar en el mismo proyecto en el que se crea el activo de exportación. Para obtener la lista de fuentes de datos desde las que se puede exportar el linaje a Collibra, consulte Exportación del linaje de datos a Collibra: fuentes de datos compatibles.

Opciones avanzadas

Objetivos de exportación

Decida qué elementos del linaje desea incluir en la exportación.

Importante: Cuando configure la tarea de exportación para que se ejecute periódicamente, asegúrese de seleccionar el mismo ámbito de datos cada vez. Los datos se sincronizan en el sistema de destino y cualquier activo que se haya exportado anteriormente pero que no esté presente en la exportación actual se elimina del sistema de destino. Puede desactivar la sincronización con la configuración del modo de sincronización.
Activos de datos
Si selecciona esta opción, se crearán nuevos activos en Collibra.
Activos de transformación y relaciones de linaje
Solo se exportan las transformaciones y las relaciones de linaje. No se crean nuevos activos, excepto especificaciones de mapeo, si esta es la única opción seleccionada. Los activos existentes en Collibra se utilizan como fuentes y destinos de las relaciones exportadas. Puede elegir esta opción cuando desee crear un linaje para un catálogo de datos físicos generado por Collibra Catalog. Decida qué tipo de activos de transformación desea exportar:
  • Transformaciones que tienen al menos un origen o un destino
  • Transformaciones que tienen tanto origen como destino
  • Transformaciones que no tienen ningún linaje

Si desea exportar el linaje completo, con datos físicos, activos de transformación y relaciones de linaje, seleccione ambas opciones.

Activos deducidos
Un activo deducido es un objeto inferido que crea el sistema cuando encuentra referencias a componentes desconocidos o que faltan durante la extracción del linaje de datos. Los activos deducidos se crean para llenar los vacíos en un linaje incompleto. El activo deducido de la fuente suele denominarse servidor desconocido. Puede exportar activos deducidos cuando incluye activos de transformación y relaciones de linaje en su exportación.

Modalidad de sincronización

Cuando se configura la exportación inicial del linaje a Collibra, los datos se pueden actualizar periódicamente en el sistema de destino para garantizar que se reflejen todos los cambios recientes. En algunos casos, los activos que se exportaron anteriormente al sistema de destino ya no están presentes en la nueva exportación. Elija uno de los siguientes modos de sincronización para decidir qué hacer con los activos que están presentes en el sistema de destino, pero no en el último archivo de exportación.

Cambiar el estado de un activo que falta
Los activos que están presentes en el sistema de destino pero no en el último archivo de exportación obtienen un nuevo estado, que es Obsolete. A continuación, podrá encontrar fácilmente dichos activos y decidir gestionarlos más adelante o eliminarlos manualmente tras una verificación adicional.
Suprimir
Una vez que los datos exportados se cargan en el sistema de destino, los activos que están presentes en el sistema de destino pero no en el último archivo de exportación se eliminan automáticamente.
Sin sincronización
Cuando seleccionas este modo, los activos no se modifican ni se eliminan en el sistema de destino, solo se importan. Este modo es más rápido que los demás, pero los datos no se sincronizan.

Nivel de agregación de linajes

El nivel de agregación de linajes especifica los tipos de activos entre los que se exportan las relaciones.

Nivel de columna y tabla
El linaje exportado contiene relaciones entre ambas tablas y columnas. Es el linaje más detallado.
Nivel de tabla
El linaje exportado contiene solo relaciones entre tablas. Las columnas no se exportan en absoluto.
Nivel de columna
El linaje exportado contiene solo relaciones entre columnas. Las tablas se exportan como activos principales de las columnas, pero las relaciones entre tablas no se exportan.

Fases de exportación de linajes

El proceso de exportación del linaje de datos se divide en dos fases:

Exportar
Durante la fase de exportación, los metadatos de linaje se preparan en forma de archivo comprimido. Esta fase no se puede desactivar.
Cargar
Durante la fase de carga, el archivo de linaje comprimido se añade al sistema de destino. Se ejecuta automáticamente de forma predeterminada. Puede desactivar esta fase, por ejemplo, con fines de resolución de problemas. En tal caso, el archivo de linaje exportado no se añade al sistema de destino. Para añadirlo más tarde, edite el trabajo de exportación del linaje de datos para incluir esta fase y vuelva a iniciar el trabajo para cargar el linaje en el sistema de destino.

Planificación

Si no establece un programa, la exportación se ejecutará cuando guarde inicialmente el activo de exportación del linaje de datos. Puede volver a ejecutar la exportación manualmente en cualquier momento.

Si selecciona ejecutar la exportación según un calendario específico, defina la fecha y la hora en que desea que se ejecute el trabajo. Puede planificar ejecuciones únicas y recurrentes. Si programa una sola ejecución, el trabajo se ejecutará exactamente una vez en el día y la hora especificados. Si programa ejecuciones recurrentes, el trabajo se ejecuta por primera vez en la fecha y hora indicadas en la sección Recurrencia.

El nombre predeterminado del trabajo de exportación es «data_lineage_export_name job». Puede cambiar el nombre para que se ajuste a su esquema de nomenclatura. Puede acceder al trabajo de exportación que cree desde el activo de exportación de linaje de datos o desde la página Trabajos del proyecto.

Qué hacer a continuación

Cuando esté listo, cree un activo de exportación e inicie el primer trabajo. Para obtener más información, consulte Creación de un activo de exportación a Collibra y gestión de trabajos.