Guía de tejido de datos de IBM Architecture

Descripción general

El tejido de datos es un patrón arquitectónico orientado a amplificar el uso de datos en toda una organización, independientemente del tipo de formatos de datos, fuentes de datos, ubicación de datos y uso de datos. Los diversos aspectos del ciclo de vida de los datos, desde el acceso a los datos hasta el consumo, que cubre el tejido de datos son el descubrimiento de datos, la gobernanza de datos, la calidad de datos, la clasificación de datos, la asociación de contexto empresarial, el linaje de datos, el autoservicio y la operacionalización de datos para que los datos correctos estén disponibles en lugar y momento adecuados. Haga clic para ver una orientación adicional.

La arquitectura de referencia del tejido de datos es una plantilla que las empresas pueden utilizar como guía que puede ayudarlas a implementar varios componentes de tejido de datos en sus respectivos entornos. La arquitectura de referencia del tejido de datos tiene cinco módulos clave: importación de metadatos, enriquecimiento de metadatos, catalogación de metadatos, curaduría y transformación de datos y consumo de datos. Estos módulos son clave para aprovechar los beneficios del tejido de datos mencionados anteriormente.

La arquitectura de referencia abarca los componentes clave, los pasos necesarios y las decisiones de arquitectura para cada módulo, lo que puede ayudar a alcanzar el objetivo de los cinco módulos. También cubre las diversas opciones de tecnología disponibles en el ámbito tecnológico de IBM para implementar los componentes y los pasos. Para el módulo de consumo de datos, el patrón de consumo genérico se abarca con el supuesto de que los detalles de cada caso de uso de consumo estarían cubiertos por la arquitectura de referencia respectiva de cada caso de uso.

También debería ser de interés la arquitectura de referencia general de datos e IA.

Diagrama que representa una arquitectura de tejido de datos

Resumen de IBM Z

La arquitectura de referencia de tejido de datos de IBM Z Systems es una especialización del patrón arquitectónico más amplio de los datos y tejido de datos de analytics de IBM que está orientada a amplificar el uso de datos en una organización, independientemente del tipo de formatos de datos, fuentes de datos, ubicación de datos y uso de datos. Los diversos aspectos del ciclo de vida de los datos, desde el acceso a los datos hasta el consumo, que cubre el tejido de datos son el descubrimiento de datos, la gobernanza de datos, la calidad de datos, la clasificación de datos, la asociación del contexto empresarial, el linaje de datos, el autoservicio y la operacionalización de datos para que los datos correctos estén disponibles en el lugar y momento adecuados. Consulte la orientación adicional:

Especializar el patrón arquitectónico más amplio de tejido de datos con respecto a los sistemas IBM Z, profundiza en dos aspectos:

• Tratar la gobernanza y el acceso a diversas fuentes de datos en IBM z Systems (por ejemplo, VSAM, IMS, Db2, etc.)
• Linux on IBM Z o LinuxONE (MongoDB, etc.) e
• Implementar los componentes de arquitectura tejido de datos en toda la empresa en IBM z Systems y Linux on IBM Z/LinuxONE. La solución incluye componentes que se ejecutan en zSystems/LinuxONE o sistemas externos.

La arquitectura de referencia del tejido de datos es una plantilla que las empresas pueden utilizar como guía que puede ayudarlas a implementar varios componentes de tejido de datos en sus respectivos entornos. La arquitectura de referencia del tejido de datos tiene cinco módulos clave: importación de metadatos, enriquecimiento de metadatos, catalogación de metadatos, curaduría y transformación de datos y consumo de datos. Estos módulos son clave para aprovechar los beneficios del tejido de datos mencionados anteriormente.

La arquitectura de referencia abarca los componentes clave, los pasos necesarios y las decisiones de arquitectura para cada módulo, lo que puede ayudar a alcanzar el objetivo de los cinco módulos. También cubre las diversas opciones de tecnología disponibles en el ámbito tecnológico de IBM para implementar los componentes y los pasos. Para el módulo de consumo de datos, el patrón de consumo genérico se abarca con el supuesto de que los detalles de cada caso de uso de consumo estarían cubiertos por la arquitectura de referencia respectiva de cada caso de uso.

La modernización de la aplicación para la arquitectura IBM Z detalla aún más los patrones arquitectónicos para un acceso moderno y más fácil a los datos del sistema de registro (SOR) en IBM Z y LinuxONE, así como varios patrones centrados en la integración de datos. Esto es esencial para obtener insight del valor empresarial basado en datos, ya que las aplicaciones comparten datos del sistema de registro (SOR) ya sea mediante acceso directo, replicación, almacenamiento en caché o conceptos de virtualización de datos que combinan los activos de datos de toda la empresa.

También debe ser de interés la arquitectura general de referencia de datos, analytics e IA:

Diagrama que representa una arquitectura de referencia de tejido de datos

Nombre

Descripción del problema o la cuestión

Supuestos

Motivación

Ubicación, gravedad y soberanía de datos

AD01

Es necesario implementar métodos adecuados de control y acceso a los datos para garantizar la disponibilidad y el cumplimiento de los requisitos normativos.

El movimiento y la replicación de datos deben minimizarse para mejorar la simplicidad, la gobernanza, los costos y las preocupaciones regulatorias, al tiempo que se proporciona una plataforma eficaz, resiliente y flexible para los analytics (incluido el analytics profundo, la optimización de las decisiones y las cargas de trabajo de la IA).

El método de implementación seleccionado tendrá un impacto directo en los costos, la viabilidad para respaldar los requisitos de latencia, el cumplimiento normativo y la satisfacción general del cliente.

Es necesario implementar métodos adecuados de control y acceso a los datos para garantizar la disponibilidad y el cumplimiento de los requisitos normativos.

El movimiento y la replicación de datos deben minimizarse para mejorar la simplicidad, la gobernanza, los costos y las preocupaciones normativas, al mismo tiempo que se proporciona una plataforma efectiva, resiliente y flexible para el analytics (incluido el analytics profundo, la optimización de las decisiones y las cargas de trabajo de la IA).

El método de implementación seleccionado tendrá un impacto directo en los costos, la viabilidad para respaldar los requisitos de latencia, el cumplimiento normativo y la satisfacción general del cliente.

En función de dónde se encuentren los datos, determine si los datos deben moverse o hay acceder a ellos virtualmente en función de la carga de trabajo, la latencia y las consideraciones normativas, justo a tiempo.

Organización y relaciones de los catálogos de conocimientos

AD02

Es posible que las organizaciones deban admitir la existencia de múltiples catálogos en función de diversos tipos de requisitos, incluida, por ejemplo, la existencia de ecosistemas híbridos de multinube donde los catálogos deben estar conectados virtualmente. Otras estructuras de catálogo pueden basarse en consideraciones de proyectos, líneas de negocio y corporativas. También puede haber la necesidad de instancias de desarrollo experimentales/sandbox dentro de una organización.

La creación de instancias del catálogo debe implementarse de manera que satisfaga las necesidades de la organización sin resultar excesivamente compleja de gestionar y recorrer.

Las opciones del catálogo afectarán la capacidad de la organización para aprovechar los datos en todos los ecosistemas corporativos y, potencialmente, en los ecosistemas de los asociados de negocios.

Activos de datos y relaciones, como la captura y el enriquecimiento de metadatos

AD03

Los activos de datos se están creando y consumiendo a un ritmo cada vez mayor. Las organizaciones ya no pueden depender de procesos manuales y poco automatizados para respaldar la captura y catalogación de activos de datos y sus metadatos relacionados.

La automatización es clave para capturar y enriquecer los metadatos creados para los distintos activos de datos de manera oportuna.

Sin automatización, la organización no podrá mantener un catálogo actual y utilizable de activos de datos, lo que a su vez limitará la capacidad de la organización para aprovechar sus activos de datos y avanzar en su transformación hacia una organización basada en datos.

Garantizar el método adecuado de transformación y curaduría en función de la carga de trabajo disponible y teniendo en cuenta los requisitos no funcionales.

AD04

Las organizaciones requerirán varios tipos de implementaciones (por ejemplo, en tiempo real, casi en tiempo real (transmisión), por lotes (micro/mini/grandes) para cargas de trabajo pequeñas, medianas, grandes y extremadamente grandes que necesitan procesamiento de transformación y curaduría.

Independientemente de la ruta de implementación, las transformaciones y la curaduría de los datos deben seguir siendo coherentes para que las funciones adecuadas de ciencia de datos, analytics e informes sean precisas.

La selección del método apropiado de transformación y curaduría de datos garantizará que la organización pueda cumplir con sus objetivos en diversos casos de uso, incluyendo IA confiable, Customer 360 y desarrollo de insights.

Recursos

Qué es una arquitectura de tejido de datos

Lea sobre las seis capacidades principales de una arquitectura de tejido de datos en esta entrada en el blog.

Datos y tejido de datos de analytics