InfoSphere DataStage

InfoSphere DataStage es una herramienta de integración de datos que permite a los usuarios mover y transformar datos entre sistemas de destino operativos, de transacciones y analíticos.

La transformación y el movimiento de datos es el proceso mediante el cual se seleccionan, convierten y correlacionan datos de origen en el formato que requieren los sistemas de destino. El proceso manipula datos para que sean conformes con las reglas de negocio, de dominio y de integridad y con otros datos en el entorno de destino.

InfoSphere DataStage proporciona conectividad directa a aplicaciones empresariales como orígenes o destinos, garantizando que los datos más relevantes, completos y precisos se integren en el proyecto de integración de datos.

Al utilizar las funciones de proceso paralelo de plataformas de hardware multiprocesador,InfoSphere DataStage permite a la organización resolver problemas empresariales a gran escala. Se pueden procesar grandes volúmenes de datos en un proceso por lotes, en tiempo real, o como un servicio web, en función de las necesidades del proyecto.

Los especialistas en integración de datos pueden utilizar los cientos de funciones de transformación ya incorporadas para acelerar el tiempo de desarrollo y simplificar el proceso de transformación de datos. Las funciones de transformación se pueden modificar y reutilizar, disminuyendo el coste global de desarrollo e incrementando la eficacia en la creación, despliegue y gestión de infraestructura de integración de datos.

Como parte de la suite de InfoSphere Information Server, InfoSphere DataStage utiliza el repositorio de metadatos compartido para integrarse con otros componentes, incluidas las funciones de creación de perfiles de datos y de calidad de datos. Una consola de operaciones intuitiva y basada en web permite a los usuarios ver y analizar el entorno de tiempo de ejecución, mejorar la productividad y acelerar la resolución de problemas.

Balanced Optimization

Balanced Optimization le ayuda a mejorar el rendimiento de los diseños de trabajo de InfoSphere DataStage que utilizan conectores para leer o escribir datos de origen. Puede diseñar el trabajo y, a continuación, utilizar Balanced Optimization para rediseñar el trabajo automáticamente según las preferencias indicadas.

Por ejemplo, puede sacar el máximo provecho del rendimiento minimizando la cantidad de entrada y salida (E/S) que se utiliza y equilibrando el proceso en los entornos de origen, intermedio y de destino. A continuación, puede examinar el nuevo diseño de trabajo optimizado y guardarlo como nuevo trabajo. El diseño del trabajo raíz permanece sin cambios.

Puede utilizar las características de Balanced Optimization de InfoSphere DataStage para impulsar conjuntos de proceso de integración de datos y E/S de datos relacionados en un sistema de gestión de base de datos (DBMS) o en un clúster Hadoop.

Integración con Hadoop

InfoSphere DataStage incluye componentes y etapas adicionales que permiten la integración entre InfoSphere Information Server y Apache Hadoop. Utilice estos componentes y etapas para acceder a e interactuar con archivos en el sistema de archivos distribuido Hadoop (HDFS).

Hadoop es la infraestructura de software de código abierto que se utiliza para gestionar con fiabilidad grandes volúmenes de datos estructurados y no estructurados. HDFS es un sistema de archivos distribuido, escalable y portable escrito para la infraestructura de Hadoop. Esta infraestructura permite que las aplicaciones trabajen con miles de nodos y petabytes de datos en un entorno paralelo. La escalabilidad y la capacidad se pueden incrementar añadiendo nodos sin interrupción, lo que da como resultado una solución rentable que se puede ejecutar en varios servidores.

InfoSphere DataStage proporciona una escalabilidad masiva mediante la ejecución de trabajos en el motor paralelo de InfoSphere Information Server. Al dar soporte a la integración con Hadoop, InfoSphere DataStage permite que la organización saque el máximo provecho de la escalabilidad en la cantidad de integración de almacenamiento y datos necesarios para que los proyectos de Hadoop sean satisfatorios.

Etapa Big Data File
La etapa Big Data File permite que InfoSphere DataStage intercambie datos con orígenes Hadoop para que pueda incluir información empresarial en los resultados analíticos. A continuación, estos resultados se pueden aplicar a otras soluciones de TI.
etapa Oozie Workflow Activity
La etapa Oozie Workflow Activity permite la integración entre Oozie y InfoSphere DataStage. Oozie es un sistema de flujo de trabajo que se puede utilizar para gestionar trabajos Hadoop.