Um guia de arquitetura da IBM para malha de dados

Visão geral

Malha de dados é um padrão de arquitetura voltado para ampliar o uso de dados em uma organização, independentemente do tipo de formato dos dados, fontes dos dados, localização dos dados e uso dos dados. Os vários aspectos do ciclo de vida dos dados, do acesso aos dados ao consumo, que são cobertos pela malha de dados são: descoberta de dados, gestão de dados, qualidade de dados, classificação de dados, associação de contexto de negócios, linhagem de dados, autoatendimento e operacionalização de dados para disponibilizar os dados certos no lugar e na hora certos. Clique para ver orientações adicionais.

A arquitetura de referência para malha de dados é um modelo que pode ser usado por empresas como um guia para ajudá-las a implementar vários componentes da malha de dados em seus respectivos ambientes. A arquitetura de referência da malha de dados possui cinco módulos principais, a saber: Importação de Meta Dados, Enriquecimento de Meta Dados, Catalogação de Meta Dados, Curadoria e Transformação de Dados e Consumo de Dados. Esses módulos são fundamentais para obter o benefício da malha de dados mencionada anteriormente.

A arquitetura de referência abrange os principais componentes, as etapas envolvidas e as decisões de arquitetura para cada módulo, o que pode auxiliar na concretização do objetivo dos cinco módulos. Ela também abrange as diversas opções de tecnologia disponíveis no cenário de tecnologia da IBM para implementar os componentes e as etapas. Para o módulo de consumo de dados, o padrão de consumo genérico é abordado, partindo-se do pressuposto de que os detalhes de cada caso de uso de consumo seriam cobertos pela respectiva arquitetura de referência de cada caso de uso.

Também é interessante observar a Arquitetura de Referência de Dados e IA em sua totalidade.

Diagrama representando uma arquitetura de malha de dados

Visão geral do IBM® Z

A arquitetura de referência da malha de dados do IBM z Systems é uma especialização do padrão arquitetônico mais amplo da malha de dados e análises da IBM, que é voltada para ampliar o uso dos dados em uma organização, independentemente do tipo de formato dos dados, fontes dos dados, localização dos dados e uso dos dados. Os vários aspectos do ciclo de vida dos dados, do acesso aos dados ao consumo, são cobertos pela malha de dados: descoberta dos dados, gestão dos dados, qualidade dos dados, classificação dos dados, associação de contexto de negócios, linhagem dos dados, autoatendimento e operacionalização dos dados para disponibilizar os dados certos no lugar e na hora certos. Consulte orientações adicionais:

A especialização no padrão arquitetônico mais amplo da malha de dados em relação ao IBM Z systems detalha dois aspectos:

• Lidar com governança e acesso a várias fontes de dados nos sistemas IBM Z (por exemplo, VSAM, IMS, Db2, …)
• Linux no IBM Z ou LinuxONE (MongoDB,...) e
• Implementação de componentes da arquitetura de malha de dados em toda a empresa no IBM Z Systems e Linux no IBM Z/LinuxONE. A solução inclui componentes que são executados no zSystems / LinuxONE e/ou em sistemas externos.

A arquitetura de referência para malha de dados é um modelo que pode ser usado por empresas como um guia para ajudá-las a implementar vários componentes da malha de dados em seus respectivos ambientes. A arquitetura de referência da malha de dados possui cinco módulos principais , a saber: Importação de Metadados, Enriquecimento de Metadados, Catalogação de Metadados, Curadoria e Transformação de dados e Consumo de dados. Esses módulos são fundamentais para obter os benefícios da malha de dados mencionados anteriormente.

A arquitetura de referência abrange os principais componentes, as etapas envolvidas e as decisões de arquitetura para cada módulo, o que pode auxiliar na concretização do objetivo dos cinco módulos. Ela também abrange as diversas opções de tecnologia disponíveis no cenário de tecnologia da IBM para implementar os componentes e as etapas. Para o módulo de consumo de dados, o padrão de consumo genérico é abordado, partindo-se do pressuposto de que os detalhes de cada caso de uso de consumo seriam cobertos pela respectiva arquitetura de referência de cada caso de uso.

A modernização de aplicação para o IBM Z architecture detalha ainda mais os padrões arquitetônicos para um acesso moderno e mais fácil aos dados do sistema de registro (SOR) no IBM Z e no LinuxONE, bem como vários padrões centrados na integração de dados. Isso é essencial para obter insights sobre valor de negócios baseado em dados, já que as aplicações compartilham os dados do sistema de registro (SOR) por meio de acesso direto, replicação, cache ou conceitos de virtualização de dados que combinam os ativos de dados em toda a empresa.

Também deve ser de interesse a arquitetura geral de referência de dados, análises e IA:

Diagrama representando uma arquitetura de referência de malha de dados

Nome

Declaração de problema ou questão

Suposições

Motivação

Localização, gravidade e soberania dos dados

AD01

Os métodos adequados de controle e acesso aos dados precisam estar em vigor para dar suporte à disponibilidade e aos requisitos regulatórios.

O método de implementação selecionado terá um impacto direto nos custos, na viabilidade do suporte aos requisitos de latência, na conformidade regulatória e na satisfação geral do cliente.

Os métodos adequados de controle e acesso aos dados precisam estar em vigor para dar suporte à disponibilidade e aos requisitos regulatórios.

A movimentação e a replicação dos dados devem ser minimizadas para melhorar a simplicidade, a governança, os custos e as preocupações regulatórias, ao mesmo tempo em que fornecem uma plataforma eficaz, resiliente e flexível para análise de dados (incluindo análise de dados profunda, otimização de decisões e cargas de trabalho de IA).

O método de implementação selecionado terá um impacto direto nos custos, na viabilidade do suporte aos requisitos de latência, na conformidade regulatória e na satisfação geral do cliente.

Com base na localização dos dados, determine se os dados devem ser migrados ou acessados virtualmente com base na carga de trabalho, latência e considerações regulatórias, no momento certo.

Organização e relações dos catálogos de conhecimento

AD02

As organizações podem precisar oferecer suporte à existência de vários catálogos, dependendo de vários tipos de requisitos, incluindo, por exemplo, a existência de ecossistemas híbridos multinuvem onde os catálogos precisam ser virtualmente conectados. Outras estruturas de catálogos podem ser baseadas em considerações de projeto, LOB e corporativas. Também pode haver a necessidade de instâncias de desenvolvimento experimentais/de área de testes dentro de uma organização.

A instanciação de catálogo deve ser implementada de forma a atender às necessidades organizacionais sem ser excessivamente complexa de gerenciar e percorrer.

As escolhas do catálogo afetarão a capacidade da organização de aproveitar os dados nos ecossistemas corporativos e, possivelmente, nos ecossistemas de parceiros de negócios.

Relações e ativos de dados, incluindo captura e enriquecimento de metadados

AD03

Os ativos de dados estão sendo criados e consumidos a um ritmo cada vez maior. As organizações não podem mais depender de processos manuais e vagamente automatizados para dar suporte à captura e catalogação de ativos de dados e seus metadados relacionados.

A automação é fundamental para capturar e enriquecer os dados de metadados criados para os vários ativos de dados em tempo hábil.

Sem automação, a organização não será capaz de manter um catálogo atual e utilizável de ativos de dados, o que, por sua vez, sufocará a capacidade da organização de aproveitar seus ativos de dados para promover seu progresso em se tornar uma organização baseado em dados.

Garantir o método apropriado de transformação e seleção com base na carga de trabalho em questão e contabilizar os requisitos não funcionais

AD04

As organizações precisarão de vários tipos de implementações (por exemplo, tempo real, quase em tempo real (streaming), lote (micro/mini/grande) para cargas de trabalho pequenas, médias, grandes e extremamente grandes que requerem processamento de transformação e seleção.

Independentemente do caminho de implementação, as transformações e a seleção dos dados devem permanecer consistentes para que as funções apropriadas de ciência de dados, análise de dados e relatórios sejam precisas.

Selecionar o método apropriado de transformação de dados e curadoria garantirá que a organização atinja seus objetivos em vários casos de uso, incluindo IA confiável, Customer 360 e desenvolvimento de insights.

Recursos

O que é uma arquitetura de malha de dados

Leia sobre os seis recursos principais de uma arquitetura de malha de dados nesta postagem do blog.

Análise de dados e malha de dados