Configuración de la importación de metadatos para los activos de integración de datos

La integración de datos utiliza procesos técnicos y empresariales para combinar datos procedentes de diferentes fuentes y generar información significativa y valiosa para su empresa. Las herramientas de integración de datos pueden utilizar patrones de extracción, transformación y carga (ETL) para transformar y organizar los datos en función de las necesidades de la empresa. Estos procesos ETL transfieren los datos de los sistemas de origen a los sistemas de destino.

Puedes importar metadatos de linaje desde InfoSphere DataStage. No es posible importar recursos desde esta fuente.

InfoSphere DataStage

Al crear una importación de metadatos de linaje para InfoSphere DataStage, puede configurar opciones específicas para esta fuente de datos y definir el alcance de los datos para los que se genera el linaje. Para obtener más información sobre la importación de metadatos, consulta «Diseño de importaciones de metadatos ».

Entradas externas

Puede proporcionar recursos de « InfoSphere DataStage », como trabajos, etapas o archivos de metadatos operativos, como entradas externas en un archivo.zip. La carpeta debe tener la siguiente estructura:

  • <job_name.xml> - Los trabajos de « DataStage » en paralelo que desee analizar y los conjuntos de parámetros que utilice en dichos trabajos, en un único archivo XML exportado desde el cliente del diseñador.
  • omd_files - Una carpeta para los archivos de metadatos operativos (OMD).
    • <omd_file_name> - Archivos de metadatos operativos que se recopilan durante la ejecución de los trabajos para resolver cualquier tipo de parámetro en los mismos.
  • sql_files - Una carpeta que contiene todos los archivos SQL.
    • <sql_file_name> - Un archivo con consultas SQL.
  • DSParams - Un archivo que contiene los parámetros a nivel de proyecto o de entorno, si procede. Puedes obtener este archivo en el directorio del proyecto.
  • datastageParameterOverride.txt - Un archivo con modificaciones de los conjuntos de parámetros, en caso de que tus trabajos utilicen conjuntos de parámetros.
  • connection_definition/odbcConnectionDefinition.ini - Un archivo con las definiciones de conexión para las conexiones de ODBC. Las definiciones de las conexiones de « ODBC » no se incluyen en las exportaciones XML de « DataStage » y deben especificarse por separado.
  • datastageComponentOverrides.csv - Un archivo con modificaciones del linaje de componentes.

El formato del datastageParameterOverride.txt archivo. datastageParameterOverride.txt El archivo tiene el siguiente contenido:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

El formato del connection_definition/odbcConnectionDefinition.ini archivo. El connection_definition/odbcConnectionDefinition.ini archivo tiene el siguiente contenido. Crea una sección [Shortcut_Name] independiente para cada conexión.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • Nombre del acceso directo : El nombre de la conexión o del servidor de datos que utiliza la herramienta de integración de datos.
  • connection_type : El tipo de fuente de datos.
  • cadena_de_conexión : Una cadena de conexión de tipo « JDBC » o cualquier identificador de la base de datos, como el identificador del sistema (SID) o el nombre del host.
  • server_name : El valor depende del tipo de fuente de datos:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase ) o Teradata : el nombre del servidor.
    • FTP: El nombre del servidor.
    • Oracle y otras bases de datos: el valor se ignora.
  • nombre_de_la_base_de_datos : El valor depende del tipo de fuente de datos:
    • Oracle : El nombre de la base de datos global.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (antes Sybase ), Teradata y otras bases de datos: el nombre de la base de datos predeterminada.
    • user_name : El nombre del usuario que inicia sesión en la base de datos.

Añade una nueva línea al final de los parámetros de cada sección.

El formato del datastageComponentOverrides.csv archivo. datastageComponentOverrides.csv El archivo tiene el siguiente contenido:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

La ruta al archivo tiene el formato Job/[Shared and Local containers optional]/Stage.

Opciones avanzadas de importación

Perfil de rendimiento
Para determinadas fuentes de datos, puedes seleccionar un perfil de rendimiento. Dependiendo de tus necesidades actuales, la importación de metadatos de linaje podría ser más rápida o más completa. Puedes elegir entre los siguientes perfiles:
  • Rápido : el bajo consumo de tiempo y memoria son las prioridades de este perfil. Si el dato de entrada es muy extenso, es posible que el linaje no esté completo.
  • Equilibrado : tanto el rendimiento como la integridad del linaje son importantes. Es un equilibrio entre la exhaustividad del árbol genealógico y el tiempo y el esfuerzo que se dedican a importarlo.
  • Exhaustividad : La exhaustividad en cuanto al linaje es la prioridad en este perfil. Si el archivo de entrada es muy grande, la importación del historial puede requerir una cantidad considerable de recursos y tiempo.
  • Perfil personalizado : puedes crear tu propio perfil de rendimiento indicando los valores de las siguientes propiedades:
    • Límite de tiempo de espera del análisis del flujo de datos : especifica el tiempo máximo estimado (en segundos) tras el cual se detiene el análisis del flujo de datos de una sola entrada. El tiempo se comprueba cuando se añade cada nodo o, en algunos casos, cuando se crean bordes. Por lo tanto, en algunos casos, el tiempo de espera puede superar ligeramente el límite especificado. Si estableces el valor en 0, el análisis no se detiene. Valor de ejemplo: 60.
    • Límite de aristas en el análisis de flujo de datos : especifica el número máximo de aristas permitidas para una sola entrada durante el análisis de flujo de datos. Si se supera este límite, se eliminan todos los bordes de filtro y no se añaden más bordes de filtro. Si el límite se sigue superando incluso después de eso, el análisis se detiene y la entrada falla. Para inhabilitar el límite, establezca el valor en 0. Valor de ejemplo: 2500.
Autenticación de usuarios de proxy Oracle
Puedes utilizar la autenticación de usuario por proxy de Oracle. Establezca el valor en true para convertir los nombres de usuario de Oracle del \"USERNAME[SCHEMA_OWNER]\" formato al \"SCHEMA_OWNER\" formato. En otros casos, establezca el valor en false.
Archivos de valores
Especifique los nombres de los archivos de valores que se utilizarán en los conjuntos de parámetros por orden de prioridad. Por ejemplo, DEV1,TEST,PROD.

Más información