Configuración de la línea de productos « Azure Databricks » de Microsoft

Para importar metadatos de linaje desde Microsoft Azure Databricks, cree una conexión, una definición de origen de datos y una tarea de importación de metadatos.

Esta información se aplica al servicio IBM Manta Data Lineage.

Para importar metadatos de linaje para Microsoft Azure Databricks, siga estos pasos:

  1. Crea una definición de origen de datos.
  2. Crea una conexión con la fuente de datos en un proyecto.
  3. Crea una importación de metadatos.

Creación de una definición de origen de datos

Crea una definición de origen de datos. Selecciona « Azure Databricks » de Microsoft como tipo de origen de datos.

Establecer una conexión con Microsoft Azure Databricks

Crea una conexión con la fuente de datos en un proyecto. Para obtener más información sobre la conexión, consulte «Conexión a Microsoft Azure Databricks ».

Creación de una importación de metadatos

Crea una importación de metadatos. Más información sobre las opciones específicas de la fuente de datos de Microsoft « Azure Databricks »:

Modalidad de conexión

Puede conectarse a Microsoft Azure Databricks utilizando uno de los siguientes modos de conexión:

Listas de inclusión y exclusión

Puede incluir o excluir activos hasta el nivel de esquema. Proporcione catálogos y esquemas en el formato catálogo/esquema. Cada parte se evalúa como una expresión regular. Los activos que se añadan posteriormente en la fuente de datos también se incluirán o excluirán si cumplen las condiciones especificadas en las listas. Valores de ejemplo:

  • myCatalog/: todos los esquemas en myCatalog,
  • myCatalog/.*: todos los esquemas en myCatalog,
  • myCatalog3/mySchema1: mySchema1 de myCatalog3,
  • myCatalog4/mySchema[1-5]: cualquier esquema de mi myCatalog4 base de datos cuyo nombre comience por mySchema y termine con un dígito comprendido entre el 1 y el 5

Entradas externas

Si utilizas archivos DLL externos de Microsoft Azure Databricks, puedes añadirlos en un archivo.zip como entrada externa. Puedes organizar la estructura del archivo.zip de forma que la carpeta «dll» contenga subcarpetas o archivos que reflejen la estructura del espacio de trabajo. El archivo.zip puede tener la siguiente estructura:

<dll>
    <catalog_name_folder>
      <schema_name_folder>
        <tables>
          <table_name.sql>
        <views>
          <view_name.sql>

Opciones avanzadas de importación

Perfil de rendimiento
Para determinadas fuentes de datos, puedes seleccionar un perfil de rendimiento. Dependiendo de tus necesidades actuales, la importación de metadatos de linaje podría ser más rápida o más completa. Puedes elegir entre los siguientes perfiles:
  • Rápido : el bajo consumo de tiempo y memoria son las prioridades de este perfil. Si el dato de entrada es muy extenso, es posible que el linaje no esté completo.
  • Equilibrado : tanto el rendimiento como la integridad del linaje son importantes. Es un equilibrio entre la exhaustividad del árbol genealógico y el tiempo y el esfuerzo que se dedican a importarlo.
  • Exhaustividad : La exhaustividad en cuanto al linaje es la prioridad en este perfil. Si el archivo de entrada es muy grande, la importación del historial puede requerir una cantidad considerable de recursos y tiempo.
  • Perfil personalizado : puedes crear tu propio perfil de rendimiento indicando los valores de las siguientes propiedades:
    • Límite de tiempo de espera del análisis del flujo de datos : especifica el tiempo máximo estimado (en segundos) tras el cual se detiene el análisis del flujo de datos de una sola entrada. El tiempo se comprueba cuando se añade cada nodo o, en algunos casos, cuando se crean bordes. Por lo tanto, en algunos casos, el tiempo de espera puede superar ligeramente el límite especificado. Si estableces el valor en 0, el análisis no se detiene. Valor de ejemplo: 60.
    • Límite de aristas en el análisis de flujo de datos : especifica el número máximo de aristas permitidas para una sola entrada durante el análisis de flujo de datos. Si se supera este límite, se eliminan todos los bordes de filtro y no se añaden más bordes de filtro. Si el límite se sigue superando incluso después de eso, el análisis se detiene y la entrada falla. Para inhabilitar el límite, establezca el valor en 0. Valor de ejemplo: 2500.
Mostrar el linaje de la tabla
Generar bordes entre tablas para las que no se ha encontrado la información de linaje a nivel de columna.

Más información