Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, a distribuição e o consumo . Ela define o plano para os dados e a maneira como eles irão fluir pelos sistemas de armazenamento de dados. Ela é fundamental para as operações de processamento de dados e aplicativos de inteligência artificial (IA).
O design de uma arquitetura de dados deve ser voltado para os requisitos de negócios, usados pelos arquitetos de dados e engenheiros de dados para definir o respectivo modelo de dados e as estruturas de dados básicas, que servirão de apoio. Esses projetos geralmente viabilizam uma necessidade de negócio, como uma iniciativa de criação de relatórios ou de ciência de dados.
À medida novo que novas fontes de dados surgem por meio de tecnologias emergentes, como a Internet das Coisas (IoT), uma boa arquitetura de dados garante que os dados sejam gerenciáveis e úteis, servindo de apoio ao gerenciamento do ciclo de vida de dados. Mais especificamente, ela pode evitar armazenamento de dados redundantes, melhorar a qualidade dos dados por meio de limpeza e deduplicação e possibilitar novos aplicativos. Arquiteturas de dados modernas também fornecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões geográficas, quebrando silos de dados sem a enorme complexidade decorrente de armazenar tudo no mesmo local.
Arquiteturas de dados modernas muitas vezes otimizam plataformas em cloud para gerenciamento e processamento de dados. Embora tenha maior custo, a escalabilidade de sua capacidade de computação possibilita que tarefas importantes de procesamento de dados sejam concluídas rapidamente. A escalabilidade de armazenamento também ajuda a lidar com o crescente volume de dados e para assegurar que todos os dados relevante estejam disponíveis para melhorar a qualidade dos aplicativos de treinamento de IA.
A documentação da arquitetura de dados inclui três tipos de modelo de dados
Uma arquitetura de dados pode ser desenvolvida a partir de estruturas de arquitetura empresarial conhecidas, incluindo TOGAF, DAMA-DMBOK 2 e a Zachman Framework for Enterprise Architecture.
The Open Group Architecture Framework (TOGAF)
Esta metodologia de arquitetura empresarial foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é membro Platinum.
Existem quatro pilares na arquitetura:
Sendo assim, TOGAF fornece uma estrutura completa para design e implementação da arquitetura de TI de uma empresa, incluindo sua arquitetura de dados.
DAMA-DMBOK 2
DAMA International, originalmente fundado como Data Management Association International, é uma organização sem fins lucrativos dedicada ao desenvolvimento do gerenciamento e dados e informações. O Data Management Body of Knowledge, DAMA-DMBOK 2, abrange arquitetura de dados, além de controle e ética, design e modelagem de dados, armazenamento, segurança e integração.
Zachman Framework for Enterprise Architecture
Desenvolvida originalmente por John Zachman na IBM em 1987, esta estrutura utiliza uma matriz de seis camadas de contextual a detalhada, mapeado de acordo com seis perguntas, como por que, como e o que. Ela oferece uma maneira formal para organizar e analisar dados, mas não inclui métodos para fazê-lo.
A arquitetura de dados demonstra uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham em conjunto. Isso inclui diversos repositórios diferentes de armazenamento de dados, como data lakes, data warehouses, data marts, bancos de dados, etc. Juntos, eles podem criar arquiteturas de dados, como data fabrics e data meshes, cada vez mais difundidas. Essas arquiteturas dão maior ênfase aos dados como produtos, criando uma padronização dos metadados e proporcionando maior democratização de dados por toda uma organização, por meio de APIs.
A seção a seguir detalha cada um desses tipos de componentes de armazenamento e de arquitetura de dados:
Tipos de sistemas de gerenciamento de dados
Tipos de arquiteturas de dados
Data fabric: Uma data fabric é uma arquitetura que se concentra na automação de integração de dados, engenharia de dados e controle em uma cadeia de valor de dados entre fornecedores e consumidores de dados. Um exemplo de data fabric é baseado na noção de "metadados ativos", que utiliza conhecimento gráfico, semântica, mineração de dados e tecnologia de aprendizado de máquina (ML) para descobrir padrões em vários tipos de metadados (por exemplo, logs de sistema, redes sociais, etc.). Em seguida, ela aplica esse insight para automatizar e orquestrar a cadeia de valor de dados. Por exemplo, ela pode permitir que um consumidor de dados encontre um produto de dados e fornecer esse produto automaticamente a ele. O aumento do acesso a dados entre produtos de dados e consumidores de dados leva a uma redução nos silos de dados e proporciona uma visão mais completa dos dados da organização. Data fabrics são uma tecnologia emergente, com enorme potencial, e podem ser usadas para melhorar a definição de perfil de clientes, detecção de fraudes e a manutenção preventiva. De acordo com a Gartner, as data fabrics reduzem o tempo de design de integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.
Data meshes: Uma data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios. Ao utilizar uma data mesh, a organização não deve pensar nos dados como subproduto de um processo e sim como um produto por si só. Produtores de dados agem como proprietários de produtos de dados. Como especialistas no assunto, os produtores de dados podem usar seu entendimento dos principais consumidores de dados para criar APIs para esse público. Essas APIs também podem ser acessadas de outras partes da organização, fornecendo acesso mais amplos aos dados gerenciados .
Sistemas mais tradicionais de armazenamento, como data lakes e data warehouses, podem ser utilizados como diversos repositórios de dados descentralizados para compor uma data mesh. Uma data mesh também pode trabalhar em conjunto com uma data fabric, com a automação da data fabric permitindo que novos produtos de dados sejam criados mais rapidamente ou reforçando o controle global.
Uma arquitetura de dados bem construída pode oferecer às empresas diversos benefícios essenciais, que incluem:
Conforme as organizações desenvolvem seus roadmaps para os aplicativos do amanhã, incluindo cargas de trabalho de IA, blockchain e Internet das Coisas (IoT), elas precisam de uma arquitetura de dados moderna que possa suportar os requisitos de dados.
As sete principais características de uma arquitetura de dados moderna são:
O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análise de dados, em qualquer cloud.
Desenvolva, execute e gerencie modelos de IA. Prepare dados e desenvolva modelos em qualquer cloud usando códigos de software livre ou modelagem visual. Preveja e otimize os seus resultados.
Conheça o Db2 on Cloud, um banco de dados SQL em cloud totalmente gerenciado, configurado e otimizado para desempenho robusto.