IBM Architecture Guide to Data Fabric

Visión general

El tejido de datos es un patrón arquitectónico orientado a ampliar el uso de los datos en toda una organización, independientemente del tipo de formatos de datos, las fuentes de datos, la ubicación de los datos y el uso de los datos. Los diversos aspectos del ciclo de vida de los datos, desde el acceso a datos hasta su consumo, que cubre Data Fabric son la detección de datos, el gobierno de datos, la calidad de los datos, la clasificación de datos, la asociación del contexto empresarial, el linaje de datos, el autoservicio y la operacionalización de datos para que los datos correctos estén disponibles en el lugar y el momento adecuados. Haga clic para ver la guía adicional.

La Reference Architecture for Data Fabric es una plantilla que las empresas pueden utilizar como guía para ayudarlas a implementar varios componentes de Data Fabric en sus respectivos entornos. La arquitectura de referencia de Data Fabric tiene cinco módulos clave: Meta Data Import, Meta Data Enrichment, Meta Data Cataloging, Data Curation y Transformation and Data Consumption. Estos módulos son clave para aprovechar los beneficios de Data Fabric mencionados anteriormente.

La arquitectura de referencia cubre los componentes clave, los pasos implicados y las decisiones de arquitectura para cada módulo que pueden ayudar en la realización del objetivo de los cinco módulos. También cubre las diversas opciones tecnológicas disponibles en el panorama tecnológico de IBM para implementar los componentes y los pasos. Para el módulo Data Consumption, el patrón de consumo genérico se cubre con el supuesto de que los detalles de cada caso de uso de consumo estarían cubiertos por la arquitectura de referencia respectiva de cada caso de uso.

También debería ser de interés la Data and AI Reference Architecture.

Diagrama que muestra una arquitectura de tejido de datos

Resumen de IBM Z

IBM Z Systems Data Fabric Reference Architecture es una especialización del patrón arquitectónico más amplio de IBM Data and Analytics Data Fabric que está orientado a amplificar el uso de datos en una organización, independientemente del tipo de formatos de datos, fuentes de datos, ubicación de datos y uso de datos. Los diversos aspectos del ciclo de vida de los datos, desde el acceso a los datos hasta su consumo, que cubre Data Fabric son la detección de datos, el gobierno de datos, la calidad de los datos, la clasificación de datos, la asociación del contexto empresarial, el linaje de datos, el autoservicio y la operacionalización de datos para que los datos correctos estén disponibles en el lugar y el momento adecuados. Consulte la guía adicional:

Al especializarse en el patrón arquitectónico más amplio de Data Fabric con respecto a los IBM Z Systems, se profundiza en dos aspectos:

• Tratar el gobierno y el acceso a diversas fuentes de datos en sistemas IBM Z Systems (por ejemplo, VSAM, IMS, DB2...)
• Linux en IBM Z o LinuxONE (MongoDB...) y
• Implementación de componentes de la arquitectura Data Fabric para toda la empresa en sistemas IBM Z Systems y Linux en IBM Z/LinuxONE. La solución incluye componentes que se ejecutan en zSystems / LinuxONE y/o sistemas externos.

La Reference Architecture for Data Fabric es una plantilla que las empresas pueden utilizar como guía para ayudarlas a implementar varios componentes de Data Fabric en sus respectivos entornos. La arquitectura de referencia de Data Fabric tiene cinco módulos clave: Meta Data Import, Meta Data Enrichment, Meta Data Cataloging, Data Curation & Transformation y Data Consumption. Estos módulos son clave para aprovechar los beneficios de Data Fabric mencionados anteriormente.

La arquitectura de referencia cubre los componentes clave, los pasos implicados y las decisiones de arquitectura para cada módulo que pueden ayudar en la realización del objetivo de los cinco módulos. También cubre las diversas opciones tecnológicas disponibles en el panorama tecnológico de IBM para implementar los componentes y los pasos. Para el módulo Data Consumption, el patrón de consumo genérico se cubre con el supuesto de que los detalles de cada caso de uso de consumo estarían cubiertos por la arquitectura de referencia respectiva de cada caso de uso.

La modernización de la aplicación para la arquitectura IBM Z detalla aún más los patrones arquitectónicos para un acceso moderno y más fácil a los datos del sistema de registro (SOR) en IBM Z y LinuxONE, así como a varios patrones centrados en la Integración de datos. Esto es esencial para obtener perspectivas para el valor empresarial basado en datos, ya que las aplicaciones comparten datos del sistema de registro (SOR) ya sea mediante acceso directo, replicación, caché o conceptos de virtualización de datos que combinan activos de datos a lo largo de la empresa.

También debe ser de interés la Data, Analytics and AI Reference Architecture:

Diagrama que representa una arquitectura de referencia de tejido de datos

Nombre

Enunciado del problema o cuestión

Suposiciones

Motivación

Ubicación, gravedad y soberanía de los datos

AD01

Es necesario disponer de métodos adecuados de control y acceso a datos para respaldar la disponibilidad y los requisitos normativos.

El método de implementación seleccionado tendrá un impacto directo en los costes, la viabilidad para respaldar los requisitos de latencia, el cumplimiento de la normativa y la satisfacción general del cliente.

Es necesario disponer de métodos adecuados de control y acceso a datos para respaldar la disponibilidad y los requisitos normativos.

El traslado y la replicación de datos deben minimizarse para mejorar la simplicidad, el gobierno, los costes y las preocupaciones regulatorias, al mismo tiempo que se proporciona una plataforma efectiva, resiliente y flexible para el análisis (incluido el análisis profundo, la optimización de decisiones y las cargas de trabajo de IA).

El método de implementación seleccionado tendrá un impacto directo, en los costes, la viabilidad para soportar los requisitos de latencia, el cumplimiento de la normativa y la satisfacción general del cliente.

En función de la ubicación de los datos, determine si se debe mover o acceder a los datos de forma virtual en función de la carga de trabajo, la latencia y las consideraciones normativas, justo a tiempo.

Organización y relaciones de los catálogos de conocimientos

AD02

Es posible que las organizaciones deban admitir la existencia de múltiples catálogos en función de diversos tipos de requisitos, incluida, por ejemplo, la existencia de ecosistemas híbridos multinube en los que los catálogos deben estar conectados virtualmente. Otras estructuras de catálogo pueden basarse en consideraciones de proyectos, LOB y corporativas. También puede haber necesidad de instancias de desarrollo experimentales/entorno aislado dentro de una organización.

La instanciación del catálogo debe implementarse de manera que respalde las necesidades de la organización sin que sea demasiado compleja de gestionar y recorrer.

Las elecciones de catálogo influirán en la capacidad de la organización para aprovechar los datos a través de los ecosistemas corporativos y, potencialmente, los ecosistemas de business partner.

Activos y relaciones de datos, incluida la captura y el enriquecimiento de metadatos

AD03

Los activos de datos se están creando y consumiendo a un ritmo cada vez mayor. Las organizaciones ya no pueden depender de procesos manuales y poco automatizados para respaldar la captura y catalogación de activos de datos y sus metadatos relacionados.

La automatización es clave para capturar y enriquecer a tiempo los metadatos creados para los distintos activos de datos.

Sin automatización, la organización no podrá mantener un catálogo actual y utilizable de activos de datos, lo que a su vez limitará la capacidad de la organización para aprovechar sus activos de datos y avanzar en su progreso hacia convertirse en una organización basada en datos.

Garantía del método adecuado de transformación y curación en función de la carga de trabajo disponible y conocimiento de los requisitos no funcionales

AD04

Las organizaciones requerirán varios tipos de implementaciones (por ejemplo, en tiempo real, casi en tiempo real (streaming), por lotes (micro/mini/grande) para cargas de trabajo pequeñas, medianas, grandes y extremadamente grandes que necesitan procesamiento de transformación y curación.

Independientemente de la ruta de implementación, las transformaciones y la curación de los datos deben mantenerse coherentes para que las funciones adecuadas de ciencia de datos, análisis e informes sean precisas.

Seleccionar el método adecuado de transformación de datos y curación garantizará que la organización pueda cumplir sus objetivos en diversos casos de uso, incluyendo IA fiable, Cliente 360 y desarrollo de perspectivas.

Recursos

Qué es una arquitectura de tejido de datos

Lea sobre las seis capacidades básicas de una arquitectura de tejido de datos en esta entrada de blog.