Tutorial de integración de datos: Transformación de datos por lotes con DataStage
Siga este tutorial para transformar datos almacenados en tres fuentes de datos externas. Su objetivo es utilizar DataStage para transformar los datos y luego distribuir los datos transformados a un único archivo de salida.
Asegúrate de guardar el proyecto y el flujo, porque lo necesitarás para el tutorial de Integración de datos: Observar datos.
La historia de la guía de aprendizaje es que Golden Bank necesita cumplir con un nuevo reglamento por el que no puede realizar préstamos a los solicitantes de préstamos que no estén cualificados. Como ingeniero de datos en Golden Bank, actualmente utiliza DataStage para agregar sus datos de solicitudes de hipotecas anónimas a la información de identificación personal de los solicitantes de hipotecas. Los prestamistas utilizan esta información para decidir si deben aprobar o denegar las solicitudes de hipoteca. Su dirección incorporó algunos analistas de riesgo que calculan diariamente qué tipo de interés recomiendan ofrecer a los prestatarios en cada rango de puntuación crediticia. Tienes que integrar esta información en la hoja de cálculo que compartes con los prestamistas. La hoja de cálculo incluye información sobre la puntuación crediticia de cada solicitante, la deuda total del solicitante y una tabla de consulta de tipos de interés. Por último, carga tus datos en un archivo de salida de destino CSV.
Vista previa de la guía de aprendizaje
En esta guía de aprendizaje, realizará estas tareas:
- Establezca los requisitos previos.
- Tarea 1: Ejecutar un flujo existente DataStage
- Editar el flujo de DataStage para:
- Tarea 2: Especificar una columna clave para la etapa Join
- Tarea 3: Añadir datos de puntuación crediticia de una base de datos PostgreSQL
- Tarea 4: Añadir una etapa Join para unir los datos de la calificación crediticia con los datos del solicitante y de la solicitud
- Tarea 5: Añadir una etapa Transformador para calcular la deuda total
- Tarea 6: Añadir datos sobre tipos de interés desde una base de datos MongoDB
- Tarea 7: Añadir una etapa de búsqueda para consultar los tipos de interés de los solicitantes
- Tarea 8: Editar el nodo Archivo secuencial y ejecutar el flujo DataStage
- Tarea 9: Configurar una alerta para observar el trabajo « DataStage » (Comprobación de la actividad de los usuarios).
- Limpieza (opcional)
Vea este vídeo para obtener una vista preliminar de los pasos de esta guía de aprendizaje. Puede haber ligeras diferencias en la interfaz de usuario mostrada en el vídeo. El vídeo pretende ser un complemento del tutorial escrito.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Establecer los requisitos previos
Regístrese en IBM watsonx.data integración
Debe registrarse en la integración de IBM watsonx.data para comenzar con el tutorial y transformar los datos con los flujos de DataStage. Si aún no tienes una cuenta, regístrate para integrarte en IBM watsonx.data.
Crear el proyecto de ejemplo
Si ya dispone del proyecto de ejemplo para este tutorial, pase a la Tarea 1. De lo contrario, siga estos pasos:
Acceda al proyecto de ejemplo Integración de datos en el centro de recursos.
Pulse Crear proyecto.
Si se le solicita que asocie el proyecto a una instancia de Cloud Object Storage, seleccione una instancia de Cloud Object Storage de la lista.
Pulse Crear.
Espere a que se complete la importación del proyecto y, a continuación, haga clic en Ver nuevo proyecto para comprobar que el proyecto y los activos se han creado correctamente.
Haga clic en la pestaña Activos para ver las conexiones y el flujo DataStage.
Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto de ejemplo. Ya está listo para empezar el tutorial.

Tarea 1: Ejecutar un flujo existente DataStage
Comience con un flujo básico de DataStage que una los conjuntos de datos de solicitantes de hipotecas y solicitudes de hipotecas, y luego envíe el resultado a un archivo CSV en el proyecto. Siga estos pasos para ejecutar el flujo « DataStage » (Crear una cuenta de cliente):
Inicio en el proyecto Integración de datos. Si no tienes el proyecto abierto, sigue estos pasos:
En el menú
Navegación, seleccione Proyectos > Ver todos los proyectos.
Abra el proyecto de integración de datos.
Haga clic en la pestaña Activos para ver todos los activos del proyecto.
Haga clic en Flujos > DataStage flujos.
Haga clic en el flujo Integración de datos de la lista para abrirlo. Este flujo une las tablas «Solicitantes de hipotecas» y «Solicitudes de hipotecas » almacenadas en Db2 Warehouse, filtra los datos para obtener los registros del estado de California y crea un archivo secuencial en formato CSV como resultado.
Haga clic en el icono de acercamiento
y en el icono de alejamiento de la barra de herramientas para configurar la vista que prefiera del lienzo.
Efectúe una doble pulsación en el nodo MORTGAGE_APPLICATIONS_1 para ver los valores.
Expanda la sección Propiedades.
Desplácese hacia abajo y haga clic en Vista previa de datos. Este conjunto de datos incluye información que se recoge en una solicitud de hipoteca.
Pulse Cerrar.
Efectúe una doble pulsación en el nodo MORTGAGE_APPLICANTS_1 para ver los valores.
Expanda la sección Propiedades.
Desplácese hacia abajo y pulse Vista preliminar de los datos. Este conjunto de datos incluye información sobre los solicitantes de hipotecas que pidieron un préstamo.
Opcional: Visualice los datos.
Haga clic en el panel Gráfico.
En la lista Columnas a visualizar, seleccione ESTADO.
Haga clic en Visualizar datos para ver un gráfico circular con la distribución de los datos por estados.
En la sección Tipo de gráfico, haz clic en el icono Mapa de árbol para ver los mismos datos en un gráfico de mapa de árbol.
Pulse Cerrar.
Haga doble clic en el nodo Join_on_ID para ver la configuración.
Expanda la sección Propiedades.
Tenga en cuenta que la clave de unión es la columna ID.

Haga clic en Cancelar para cerrar la configuración.
Haga clic en el
icono Registros de la barra de herramientas para poder ver el progreso del flujo.Pulse Compilar y luego Ejecutar. También puede hacer clic en Ejecutar para compilar y ejecutar el flujo DataStage. El recorrido puede durar aproximadamente un minuto.
Ver los registros. Puede utilizar el total de filas y filas/seg para cada paso del flujo para verificar visualmente que el filtro funciona como se espera.
Cuando la ejecución finalice correctamente, haga clic en Integración de datos en la ruta de navegación para volver al proyecto.

En la pestaña Activos, haga clic en Datos > Activos de datos.
Abra el MORTGAGE_DATA.CSV archivo. Puede ver que este archivo contiene las columnas de los conjuntos de datos de solicitantes y solicitudes de hipoteca.
Comprueba tu progreso
La siguiente imagen muestra el archivo resultante CSV. La siguiente tarea es editar el flujo « DataStage ».

Visión general: Editar el flujo DataStage
Ahora que se ha unido al solicitante de la hipoteca y a los datos de la solicitud, está listo para editar el flujo DataStage para:
- Tarea 2: Especifique una columna clave para la etapa Join.
- Tarea 3: Añadir datos de puntuación crediticia de una base de datos PostgreSQL.
- Tarea 4: Añadir una etapa Join para unir los datos de la puntuación crediticia con los datos del solicitante y de la solicitud.
- Tarea 5: Añadir una etapa Transformador para calcular la deuda total.
- Tarea 6: Añadir datos sobre tipos de interés de una base de datos MongoDB.
- Tarea 7: Añadir una etapa de Búsqueda para consultar los tipos de interés de los solicitantes en función de sus puntuaciones de crédito y de los rangos de tipos de interés diarios de Golden Bank.
Tarea 2: Especificar la columna clave para la etapa Join
La identificación de una columna clave indica a DataStage que esa columna contiene valores únicos. El nodo Join_on_ID une los conjuntos de datos de solicitantes y solicitudes de hipoteca utilizando la columna ID como clave de unión. La siguiente fase consiste en unir el conjunto de datos resultante con los datos de la puntuación crediticia. Posteriormente, unirá los datos filtrados resultantes con el conjunto de datos de puntuación crediticia. La segunda unión utilizará la columna EMAIL_ADDRESS como clave de unión. En esta tarea, edite el flujo DataStage para especificar la columna EMAIL_ADDRESS como columna clave para el conjunto de datos resultante cuando se una con los datos de la puntuación crediticia.
Siga estos pasos para cambiar la configuración del nodo Join:
Haga clic en Integración de datos en la ruta de navegación para volver al proyecto.

En la pestaña Activos, haga clic en Flujos > DataStage flujos.
Abra el flujo Integración de datos.
Efectúe una doble pulsación en el nodo Join_on_ID para editar los valores.
Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.
Pulse Editar.
Para el nombre de columna EMAIL_ADDRESS, seleccione Clave.
Pulse Aplicar y volver para volver a los valores del nodo de Join_on_ID.
Pulse Guardar para guardar los valores del nodo de Join_on_ID.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con la etapa Join_on_id editada. Ahora que ha identificado la columna EMAIL_ADDRESS como columna clave, puede añadir los datos de PostgreSQL que contienen las puntuaciones crediticias de los solicitantes.

Tarea 3: Añadir datos de puntuación crediticia de una base de datos PostgreSQL
Siga estos pasos para añadir los datos de puntuación crediticia almacenados en una base de datos PostgreSQL al flujo DataStage :
En la paleta de nodos, expanda la sección Conectores.
Arrastre el conector del navegador de activos al lienzo junto al nodo MORTGAGE_APPLICANTS_1 nodo.
Localice el activo seleccionando Conexión > Data Fabric Trial - Databases for PostgreSQL > BANKING > CREDIT_SCORE.
Nota: Haga clic en el nombre de la conexión o del esquema en lugar de en la casilla de verificación para expandir la conexión y el esquema.
Haga clic en el icono Vista previa
para obtener una vista previa de los datos de la puntuación crediticia de cada solicitante.
Pulse Añadir.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con el activo de calificación crediticia añadido. Ahora que ha añadido los datos de la puntuación crediticia al lienzo, debe unir los datos del solicitante, la solicitud y la puntuación crediticia.

Tarea 4: Añadir una etapa Join para unir los datos de la calificación crediticia con los datos del solicitante y de la solicitud
Siga estos pasos para añadir otra etapa de Unión para unir la solicitud de hipoteca filtrada y los datos unidos del solicitante de hipoteca con los datos de puntuación de crédito en el flujo DataStage :
En la paleta de nodos, expanda la sección Etapas.
Arrastre el escenario Join al lienzo y suelte el nodo en la línea de enlace entre los nodos Filter_State_Code y Sequential_file_1 nodos.
Pase el ratón por encima del conector CREDIT_SCORE_1 para ver la flecha. Conecte la flecha a la etapa Unión.
Efectúe una doble pulsación en el nodo CREDIT_SCORE_1 para editar los valores.
Pulse la pestaña Salida y expanda la sección Columnas para ver una lista de las columnas del conjunto de datos unido.
Pulse Editar.
Para los nombres de columna EMAIL_ADDRESS y CREDIT_SCORE, seleccione Clave.
Pulse Aplicar y volver para volver a los valores del nodo de CREDIT_SCORE_1.
Pulse Guardar para guardar los valores del nodo de CREDIT_SCORE_1.
Efectúe una doble pulsación en el nodo Join_1 para editar los valores.
Expanda la sección Propiedades.
Pulse Añadir clave.
Vuelva a pulsar Añadir clave.
Seleccione EMAIL_ADDRESS en la lista de posibles claves.
Haga clic en Aplicar.
Pulse Aplicar y volver para volver a los valores del nodo de Join_1.
Cambie el nombre de nodo de Join_1 por
Join_on_email.Pulse Guardar para guardar los valores del nodo de Join_1.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con una segunda etapa Join añadida. Ahora que unió los datos de solicitud, solicitante y calificación crediticia, necesita agregar una etapa Transformadora para calcular la deuda total de cada solicitante.

Tarea 5: Añadir una etapa Transformador para calcular la deuda total
Siga estos pasos para añadir una etapa Transformer que cree una nueva columna sumando las columnas LOAN_AMOUNT y CREDITCARD_DEBT:
En la sección Etapas, arrastre la etapa Transformer al lienzo y suelte el nodo en la línea de enlace entre los nodos Join_on_email y Sequential_file_1.
Efectúe una doble pulsación en el nodo Transformador para editar los valores.
Pulse la pestaña Salida.
Pulse Añadir columna.
Desplácese hacia abajo en la lista de columnas para ver la nueva columna.
Nombre de la columna
TOTAL_DEBT.Haga clic en el icono Editar
en la columna Derivación de la fila.
Haga clic en el icono de la
calculadora en la columna Derivación para abrir el generador de expresiones.
Busque
LOAN_AMOUNTy efectúe una doble pulsación en el nombre de columna para añadirlo a la expresión. Tenga en cuenta que el número de enlace se añade al nombre de la columna.Escriba un signo más
+.Busque y
CREDITCARD_DEBT, a continuación, haga doble clic en el nombre de la columna para añadirla a la expresión. Tenga en cuenta que el número de enlace se añade al nombre de la columna.Verifique que la expresión final es
Link_7.LOAN_AMOUNT + Link_7.CREDITCARD_DEBT.Nota: Su número de enlace puede ser diferente.Pulse Aplicar y volver para volver a la página Transformador.
Para el nombre de la columna CREDIT_SCORE, seleccione Clave.
Haz clic en la pestaña Escenario.
Seleccione la página Avanzado.
Cambie el Modo de ejecución a Secuencial.
Pulse Guardar y volver para volver al lienzo.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con la etapa Transformer añadida. Ahora que ha calculado la deuda total de cada solicitante, debe añadir la tabla de tipos de interés que debe ofrecer en función de los rangos de puntuación crediticia.

Tarea 6: Añadir datos sobre tipos de interés desde una base de datos MongoDB
Siga estos pasos para incluir los tipos de interés en el flujo añadiendo un conector de activos de datos a una base de datos MongoDB :
En la paleta de nodos, expanda la sección Conectores.
Arrastre el conector Navegador de activos al lienzo junto al nodo CREDIT_SCORE_1.
Localice el activo seleccionando Conexión > Data Fabric Prueba - Mongo DB > DOCUMENTO > DS_INTEREST_RATES.
Haga clic en el icono Vista previa
para obtener una vista previa de los tipos de interés para cada rango de puntuación crediticia.

Puede utilizar los valores de las columnas STARTING_LIMIT y ENDING_LIMIT para buscar el tipo de interés adecuado en función de la puntuación crediticia del solicitante. La columna ID no es necesaria, por lo que suprimirá esa columna en el paso siguiente.Pulse Añadir.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con el activo de datos de tipos de interés añadido desde la fuente externa MongoDB. Ahora que ha añadido la tabla de tipos de interés, puede buscar el tipo de interés adecuado para cada solicitante.

Tarea 7: Añadir una etapa de búsqueda para consultar los tipos de interés de los solicitantes
En función de la puntuación crediticia de cada solicitante, debe buscar el tipo de interés adecuado. Siga estos pasos para añadir una etapa de Búsqueda y especificar el rango para los límites de puntuación de crédito inicial y final para cada tipo de interés:
En la sección Etapas, arrastra la etapa Búsqueda al lienzo y suelta el nodo en la línea de enlace entre las etiquetas Transformer_1 y Sequential_file_1.
Conecte el conector DS_INTEREST_RATES_1 a la etapa Lookup_1.
Efectúe una doble pulsación en el nodo DS_INTEREST_RATES_1 para editar los valores.
Pulse la pestaña Salida.
Expanda la sección Columnas y pulse Editar.
Seleccione la columna _ID.
Haga clic en el icono
Eliminar para eliminar la columna _ID.
Pulse Aplicar y volver para volver a los valores del nodo de DS_INTEREST_RATES_1.
Pulse Guardar para guardar los cambios en el nodo DS_INTEREST_RATES_1.
Efectúe una doble pulsación en el nodo Lookup_1 para editar los valores.
Expanda la sección Propiedades.
Para el campo Aplicar rango a columnas, seleccione CREDIT_SCORE. Se muestran los campos de las columnas Enlaces de referencia, Operador y Rango.
Para Enlaces de referencia, seleccione Link_9.
Nota: Su número de enlace puede ser diferente.Para el primer operador, seleccione <=.
Para la primera Columna de rango, seleccione ENDING_LIMIT.
Para el segundo operador, seleccione >=.
Para la segunda Columna de rango, seleccione STARTING_LIMIT.
Pulse la pestaña Salida.
Expanda la sección Columnas y pulse Editar.
Seleccione las columnas LÍMITE_INICIAL y LÍMITE_FINAL.
Haga clic en el icono
Eliminar para eliminar estas columnas STARTING_LIMIT y ENDING_LIMIT innecesarias.
Pulse Aplicar y volver para volver a los valores del nodo de Lookup_1.
Pulse Guardar para guardar los cambios en el nodo Lookup_1.
Comprueba tu progreso
La siguiente imagen muestra el flujo DataStage con la etapa Lookup añadida. El flujo DataStage ya está completo. La última tarea antes de ejecutar el flujo es especificar el nombre del archivo de salida.

Tarea 8: Editar el nodo Archivo secuencial y ejecutar el flujo DataStage
Siga estos pasos para editar el nodo Archivo secuencial para crear un archivo de salida final como activo de datos en el proyecto y, a continuación, compile y ejecute el flujo DataStage :
Efectúe una doble pulsación en el nodo Sequential_file_1 para editar los valores.
Pulse la pestaña Salida.
Expanda la sección Propiedades.
Para el archivo de destino, copie y pegue
MORTGAGE_APPLICANTS_INTEREST_RATES.CSVpara el nombre del archivo.Seleccione Crear activo de datos.
En el campo Primera línea es nombres de columna, seleccione Verdadero.
Pulse Guardar.
Haga clic en Ejecutar para compilar y ejecutar el flujo DataStage. El trabajo tarda aproximadamente 1 minuto en completarse.
Haga clic en Registros en la barra de herramientas para ver el progreso del flujo. Es normal ver advertencias durante la ejecución, y luego se ve que el flujo se ejecutó correctamente.
Comprueba tu progreso
La siguiente imagen muestra que el flujo DataStage se ha ejecutado correctamente.

Tarea 9: Configurar una alerta para observar el trabajo « DataStage » (Comprobación de la actividad de los usuarios)
Después de ejecutar el flujo « DataStage », ahora puede configurar una alerta para observar el trabajo que ha creado. Para observar el estado de sus trabajos de DataStage, consulte el tutorial de integración de datos: Observar datos.
Limpieza (opcional)
Si desea volver a realizar los tutoriales del caso de uso Integración de datos, elimine los siguientes artefactos.
| Artefacto | Cómo eliminar |
|---|---|
| Proyecto de ejemplo de integración de datos | Suprimir un proyecto |
Próximos pasos
Prueba otros tutoriales:
Vea otro caso práctico de integración de datos.