Tutorial de integración de datos: Transformación de datos por lotes con DataStage

Siga este tutorial para transformar datos almacenados en tres fuentes de datos externas. Su objetivo es utilizar DataStage para transformar los datos y luego distribuir los datos transformados a un único archivo de salida.

Importante:Este tutorial requiere un proyecto de ejemplo, que puede no estar disponible en todas las regiones. Si su cuenta watsonx no está en la región de Dallas IBM Cloud, compruebe si el proyecto de muestra está disponible antes de empezar este tutorial. Busque Integración de datos en el centro de recursos.

Asegúrate de guardar el proyecto y el flujo, porque lo necesitarás para el tutorial de Integración de datos: Observar datos.

La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Como ingeniero de datos en Golden Bank, actualmente utiliza DataStage para agregar sus datos de solicitudes de hipotecas anónimas a la información de identificación personal de los solicitantes de hipotecas. Los prestamistas utilizan esta información para decidir si deben aprobar o denegar las solicitudes de hipoteca. Su dirección incorporó algunos analistas de riesgo que calculan diariamente qué tipo de interés recomiendan ofrecer a los prestatarios en cada rango de puntuación crediticia. Tienes que integrar esta información en la hoja de cálculo que compartes con los prestamistas. La hoja de cálculo incluye información sobre la puntuación crediticia de cada solicitante, la deuda total del solicitante y una tabla de consulta de tipos de interés. Por último, carga tus datos en un archivo de salida de destino CSV.

Vista previa de la guía de aprendizaje

En esta guía de aprendizaje, realizará estas tareas:

Ver vídeo Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario mostrada en el vídeo. El vídeo pretende ser un complemento del tutorial escrito.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.




Establecer los requisitos previos

Regístrese en IBM watsonx.data integración

Debe registrarse en la integración de IBM watsonx.data para comenzar con el tutorial y transformar los datos con los flujos de DataStage. Si aún no tienes una cuenta, regístrate para integrarte en IBM watsonx.data.


Crear el proyecto de ejemplo

Si ya dispone del proyecto de ejemplo para este tutorial, pase a la Tarea 1. De lo contrario, siga estos pasos:

  1. Acceda al proyecto de ejemplo Integración de datos en el centro de recursos.

  2. Pulse Crear proyecto.

  3. Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.

  4. Pulse Crear.

  5. Espere a que se complete la importación del proyecto y, a continuación, haga clic en Ver nuevo proyecto para comprobar que el proyecto y los activos se han creado correctamente.

  6. Haga clic en la pestaña Activos para ver las conexiones y el flujo DataStage.

Nota: Es posible que vea una visita guiada mostrando los tutoriales que se incluyen con este caso de uso. Los enlaces de la visita guiada abrirán estas instrucciones del tutorial.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto de ejemplo. Ya está listo para empezar el tutorial.

Proyecto de ejemplo




Tarea 1: Ejecutar un flujo existente DataStage

Comience con un flujo básico de DataStage que una los conjuntos de datos de solicitantes de hipotecas y solicitudes de hipotecas, y luego envíe el resultado a un archivo CSV en el proyecto. Siga estos pasos para ejecutar el flujo « DataStage » (Crear una cuenta de cliente):

  1. Inicio en el proyecto Integración de datos. Si no tienes el proyecto abierto, sigue estos pasos:

    1. En el menú Menú de navegaciónNavegación, seleccione Proyectos > Ver todos los proyectos.

    2. Abra el proyecto de integración de datos.

  2. Haga clic en la pestaña Activos para ver todos los activos del proyecto.

  3. Haga clic en Flujos > DataStage flujos.

  4. Haga clic en el flujo Integración de datos de la lista para abrirlo. Este flujo une las tablas «Solicitantes de hipotecas» y «Solicitudes de hipotecas » almacenadas en Db2 Warehouse, filtra los datos para obtener los registros del estado de California y crea un archivo secuencial en formato CSV como resultado.

  5. Haga clic en el icono de acercamiento AcercarAlejar y en el icono de alejamiento de la barra de herramientas para configurar la vista que prefiera del lienzo.

  6. Efectúe una doble pulsación en el nodo MORTGAGE_APPLICATIONS_1 para ver los valores.

    1. Expanda la sección Propiedades.

    2. Desplácese hacia abajo y haga clic en Vista previa de datos. Este conjunto de datos incluye información que se recoge en una solicitud de hipoteca.

    3. Pulse Cerrar.

  7. Efectúe una doble pulsación en el nodo MORTGAGE_APPLICANTS_1 para ver los valores.

    1. Expanda la sección Propiedades.

    2. Desplácese hacia abajo y pulse Vista preliminar de los datos. Este conjunto de datos incluye información sobre los solicitantes de hipotecas que pidieron un préstamo.

    3. Opcional: Visualice los datos.

      1. Haga clic en el panel Gráfico.

      2. En la lista Columnas a visualizar, seleccione ESTADO.

      3. Haga clic en Visualizar datos para ver un gráfico circular con la distribución de los datos por estados.

      4. En la sección Tipo de gráfico, haz clic en el icono Mapa de árbol para ver los mismos datos en un gráfico de mapa de árbol.

    4. Pulse Cerrar.

  8. Haga doble clic en el nodo Join_on_ID para ver la configuración.

    1. Expanda la sección Propiedades.

    2. Tenga en cuenta que la clave de unión es la columna ID.
      Clave de unión Join_on_ID

    3. Haga clic en Cancelar para cerrar la configuración.

  9. Haga clic en el Ver registro icono Registros de la barra de herramientas para poder ver el progreso del flujo.

  10. Pulse Compilar y luego Ejecutar. También puede hacer clic en Ejecutar para compilar y ejecutar el flujo DataStage. El recorrido puede durar aproximadamente un minuto.

  11. Ver los registros. Puede utilizar el total de filas y filas/seg para cada paso del flujo para verificar visualmente que el filtro funciona como se espera.

  12. Cuando la ejecución finalice correctamente, haga clic en Integración de datos en la ruta de navegación para volver al proyecto.
    Ruta de navegación

  13. En la pestaña Activos, haga clic en Datos > Activos de datos.

  14. Abra el MORTGAGE_DATA.CSV archivo. Puede ver que este archivo contiene las columnas de los conjuntos de datos de solicitantes y solicitudes de hipoteca.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el archivo resultante CSV. La siguiente tarea es editar el flujo « DataStage ».

archivo CSV




Visión general: Editar el flujo DataStage

Ahora que se ha unido al solicitante de la hipoteca y a los datos de la solicitud, está listo para editar el flujo DataStage para:

  • Tarea 2: Especifique una columna clave para la etapa Join.
  • Tarea 3: Añadir datos de puntuación crediticia de una base de datos PostgreSQL.
  • Tarea 4: Añadir una etapa Join para unir los datos de la puntuación crediticia con los datos del solicitante y de la solicitud.
  • Tarea 5: Añadir una etapa Transformador para calcular la deuda total.
  • Tarea 6: Añadir datos sobre tipos de interés de una base de datos MongoDB.
  • Tarea 7: Añadir una etapa de Búsqueda para consultar los tipos de interés de los solicitantes en función de sus puntuaciones de crédito y de los rangos de tipos de interés diarios de Golden Bank.



Tarea 2: Especificar la columna clave para la etapa Join

La identificación de una columna clave indica a DataStage que esa columna contiene valores únicos. El nodo Join_on_ID une los conjuntos de datos de solicitantes y solicitudes de hipoteca utilizando la columna ID como clave de unión. La siguiente fase consiste en unir el conjunto de datos resultante con los datos de la puntuación crediticia. Posteriormente, unirá los datos filtrados resultantes con el conjunto de datos de puntuación crediticia. La segunda unión utilizará la columna EMAIL_ADDRESS como clave de unión. En esta tarea, edite el flujo DataStage para especificar la columna EMAIL_ADDRESS como columna clave para el conjunto de datos resultante cuando se una con los datos de la puntuación crediticia.

Siga estos pasos para cambiar la configuración del nodo Join:

  1. Haga clic en Integración de datos en la ruta de navegación para volver al proyecto.
    Ruta de navegación

  2. En la pestaña Activos, haga clic en Flujos > DataStage flujos.

  3. Abra el flujo Integración de datos.

  4. Efectúe una doble pulsación en el nodo Join_on_ID para editar los valores.

  5. Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.

  6. Pulse Editar.

  7. Para el nombre de columna EMAIL_ADDRESS, seleccione Clave.

  8. Pulse Aplicar y volver para volver a los valores del nodo de Join_on_ID.

  9. Pulse Guardar para guardar los valores del nodo de Join_on_ID.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con la etapa Join_on_id editada. Ahora que ha identificado la columna EMAIL_ADDRESS como columna clave, puede añadir los datos de PostgreSQL que contienen las puntuaciones crediticias de los solicitantes.

Etapa Join_on_id




Tarea 3: Añadir datos de puntuación crediticia de una base de datos PostgreSQL

Siga estos pasos para añadir los datos de puntuación crediticia almacenados en una base de datos PostgreSQL al flujo DataStage :

  1. En la paleta de nodos, expanda la sección Conectores.

  2. Arrastre el conector del navegador de activos al lienzo junto al nodo MORTGAGE_APPLICANTS_1 nodo.

  3. Localice el activo seleccionando Conexión > Data Fabric Trial - Databases for PostgreSQL > BANKING > CREDIT_SCORE.

    Nota: Haga clic en el nombre de la conexión o del esquema en lugar de en la casilla de verificación para expandir la conexión y el esquema.

    Vista previa de la nota de crédito

  4. Haga clic en el icono Vista previa Vista para obtener una vista previa de los datos de la puntuación crediticia de cada solicitante.

  5. Pulse Añadir.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con el activo de calificación crediticia añadido. Ahora que ha añadido los datos de la puntuación crediticia al lienzo, debe unir los datos del solicitante, la solicitud y la puntuación crediticia.

Activo de datos de calificación crediticia




Tarea 4: Añadir una etapa Join para unir los datos de la calificación crediticia con los datos del solicitante y de la solicitud

Siga estos pasos para añadir otra etapa de Unión para unir la solicitud de hipoteca filtrada y los datos unidos del solicitante de hipoteca con los datos de puntuación de crédito en el flujo DataStage :

  1. En la paleta de nodos, expanda la sección Etapas.

  2. Arrastre el escenario Join al lienzo y suelte el nodo en la línea de enlace entre los nodos Filter_State_Code y Sequential_file_1 nodos.

  3. Pase el ratón por encima del conector CREDIT_SCORE_1 para ver la flecha. Conecte la flecha a la etapa Unión.

  4. Efectúe una doble pulsación en el nodo CREDIT_SCORE_1 para editar los valores.

    1. Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.

    2. Pulse Editar.

    3. Para los nombres de columna EMAIL_ADDRESS y CREDIT_SCORE, seleccione Clave.

    4. Pulse Aplicar y volver para volver a los valores del nodo de CREDIT_SCORE_1.

    5. Pulse Guardar para guardar los valores del nodo de CREDIT_SCORE_1.

  5. Efectúe una doble pulsación en el nodo Join_1 para editar los valores.

    1. Expanda la sección Propiedades.

    2. Pulse Añadir clave.

      1. Vuelva a pulsar Añadir clave.

      2. Seleccione EMAIL_ADDRESS en la lista de posibles claves.

      3. Haga clic en Aplicar.

    3. Pulse Aplicar y volver para volver a los valores del nodo de Join_1.

    4. Cambie el nombre de nodo de Join_1 por Join_on_email.

    5. Pulse Guardar para guardar los valores del nodo de Join_1.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con una segunda etapa Join añadida. Ahora que unió los datos de solicitud, solicitante y calificación crediticia, necesita agregar una etapa Transformadora para calcular la deuda total de cada solicitante.

Etapa Join_on_email




Tarea 5: Añadir una etapa Transformador para calcular la deuda total

Siga estos pasos para añadir una etapa Transformer que cree una nueva columna sumando las columnas LOAN_AMOUNT y CREDITCARD_DEBT:

  1. En la sección Etapas, arrastre la etapa Transformer al lienzo y suelte el nodo en la línea de enlace entre los nodos Join_on_email y Sequential_file_1.

  2. Efectúe una doble pulsación en el nodo Transformador para editar los valores.

  3. Pulse la pestaña Salida.

    1. Pulse Añadir columna.

    2. Desplácese hacia abajo en la lista de columnas para ver la nueva columna.

    3. Nombre de la columna TOTAL_DEBT.

    4. Haga clic en el icono Editar Editar en la columna Derivación de la fila.

    5. Haga clic en el icono de la Calculadora calculadora en la columna Derivación para abrir el generador de expresiones.

    6. Busque LOAN_AMOUNT y efectúe una doble pulsación en el nombre de columna para añadirlo a la expresión. Tenga en cuenta que el número de enlace se añade al nombre de la columna.

    7. Escriba un signo más +.

    8. Busque y CREDITCARD_DEBT, a continuación, haga doble clic en el nombre de la columna para añadirla a la expresión. Tenga en cuenta que el número de enlace se añade al nombre de la columna.

    9. Verifique que la expresión final es Link_7.LOAN_AMOUNT + Link_7.CREDITCARD_DEBT.

      Nota: Su número de enlace puede ser diferente.
    10. Pulse Aplicar y volver para volver a la página Transformador.

    11. Para el nombre de la columna CREDIT_SCORE, seleccione Clave.

  4. Haz clic en la pestaña Escenario.

    1. Seleccione la página Avanzado.

    2. Cambie el Modo de ejecución a Secuencial.

  5. Pulse Guardar y volver para volver al lienzo.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con la etapa Transformer añadida. Ahora que ha calculado la deuda total de cada solicitante, debe añadir la tabla de tipos de interés que debe ofrecer en función de los rangos de puntuación crediticia.

Etapa Transformador




Tarea 6: Añadir datos sobre tipos de interés desde una base de datos MongoDB

Siga estos pasos para incluir los tipos de interés en el flujo añadiendo un conector de activos de datos a una base de datos MongoDB :

  1. En la paleta de nodos, expanda la sección Conectores.

  2. Arrastre el conector Navegador de activos al lienzo junto al nodo CREDIT_SCORE_1.

  3. Localice el activo seleccionando Conexión > Data Fabric Prueba - Mongo DB > DOCUMENTO > DS_INTEREST_RATES.

  4. Haga clic en el icono Vista previa Vista previa para obtener una vista previa de los tipos de interés para cada rango de puntuación crediticia.
    Ver activo de datos
    Puede utilizar los valores de las columnas STARTING_LIMIT y ENDING_LIMIT para buscar el tipo de interés adecuado en función de la puntuación crediticia del solicitante. La columna ID no es necesaria, por lo que suprimirá esa columna en el paso siguiente.

  5. Pulse Añadir.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con el activo de datos de tipos de interés añadido desde la fuente externa MongoDB. Ahora que ha añadido la tabla de tipos de interés, puede buscar el tipo de interés adecuado para cada solicitante.

Activo de datos sobre tipos de interés




Tarea 7: Añadir una etapa de búsqueda para consultar los tipos de interés de los solicitantes

En función de la puntuación crediticia de cada solicitante, debe buscar el tipo de interés adecuado. Siga estos pasos para añadir una etapa de Búsqueda y especificar el rango para los límites de puntuación de crédito inicial y final para cada tipo de interés:

  1. En la sección Etapas, arrastra la etapa Búsqueda al lienzo y suelta el nodo en la línea de enlace entre las etiquetas Transformer_1 y Sequential_file_1.

  2. Conecte el conector DS_INTEREST_RATES_1 a la etapa Lookup_1.

  3. Efectúe una doble pulsación en el nodo DS_INTEREST_RATES_1 para editar los valores.

  4. Pulse la pestaña Salida.

    1. Expanda la sección Columnas y pulse Editar.

    2. Seleccione la columna _ID.

    3. Haga clic en el icono Papelera Eliminar para eliminar la columna _ID.

    4. Pulse Aplicar y volver para volver a los valores del nodo de DS_INTEREST_RATES_1.

    5. Pulse Guardar para guardar los cambios en el nodo DS_INTEREST_RATES_1.

  5. Efectúe una doble pulsación en el nodo Lookup_1 para editar los valores.

  6. Expanda la sección Propiedades.

    1. Para el campo Aplicar rango a columnas, seleccione CREDIT_SCORE. Se muestran los campos de las columnas Enlaces de referencia, Operador y Rango.

    2. Para Enlaces de referencia, seleccione Link_9.

      Nota: Su número de enlace puede ser diferente.
    3. Para el primer operador, seleccione <=.

    4. Para la primera Columna de rango, seleccione ENDING_LIMIT.

    5. Para el segundo operador, seleccione >=.

    6. Para la segunda Columna de rango, seleccione STARTING_LIMIT.

  7. Pulse la pestaña Salida.

    1. Expanda la sección Columnas y pulse Editar.

    2. Seleccione las columnas LÍMITE_INICIAL y LÍMITE_FINAL.

    3. Haga clic en el icono Papelera Eliminar para eliminar estas columnas STARTING_LIMIT y ENDING_LIMIT innecesarias.

    4. Pulse Aplicar y volver para volver a los valores del nodo de Lookup_1.

    5. Pulse Guardar para guardar los cambios en el nodo Lookup_1.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra el flujo DataStage con la etapa Lookup añadida. El flujo DataStage ya está completo. La última tarea antes de ejecutar el flujo es especificar el nombre del archivo de salida.

Etapa Búsqueda




Tarea 8: Editar el nodo Archivo secuencial y ejecutar el flujo DataStage

Siga estos pasos para editar el nodo Archivo secuencial para crear un archivo de salida final como activo de datos en el proyecto y, a continuación, compile y ejecute el flujo DataStage :

  1. Efectúe una doble pulsación en el nodo Sequential_file_1 para editar los valores.

  2. Pulse la pestaña Salida.

  3. Expanda la sección Propiedades.

  4. Para el archivo de destino, copie y pegue MORTGAGE_APPLICANTS_INTEREST_RATES.CSV para el nombre del archivo.

  5. Seleccione Crear activo de datos.

  6. En el campo Primera línea es nombres de columna, seleccione Verdadero.

  7. Pulse Guardar.

  8. Haga clic en Ejecutar para compilar y ejecutar el flujo DataStage. El trabajo tarda aproximadamente 1 minuto en completarse.

  9. Haga clic en Registros en la barra de herramientas para ver el progreso del flujo. Es normal ver advertencias durante la ejecución, y luego se ve que el flujo se ejecutó correctamente.

Icono de punto de control Comprueba tu progreso

La siguiente imagen muestra que el flujo DataStage se ha ejecutado correctamente.

DataStage ejecución completa




Tarea 9: Configurar una alerta para observar el trabajo « DataStage » (Comprobación de la actividad de los usuarios)

Después de ejecutar el flujo « DataStage », ahora puede configurar una alerta para observar el trabajo que ha creado. Para observar el estado de sus trabajos de DataStage, consulte el tutorial de integración de datos: Observar datos.


Limpieza (opcional)

Si desea volver a realizar los tutoriales del caso de uso Integración de datos, elimine los siguientes artefactos.

Artefacto Cómo eliminar
Proyecto de ejemplo de integración de datos Suprimir un proyecto

Próximos pasos

Más información