Início
topics
Arquitetura de dados
Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, distribuição e consumo. Ela define o blueprint dos dados e a forma como eles fluem pelos sistemas de armazenamento de dados. É fundamental para operações de processamento de dados e aplicações de inteligência artificial (IA).
O projeto de uma arquitetura de dados deve ser orientado por requisitos de negócios, que arquitetos de dados e engenheiros de dados usam para definir o respectivo modelo de dados e as estruturas de dados subjacentes que o suportam. Esses projetos normalmente facilitam uma necessidade de negócios, como uma iniciativa de geração de relatórios ou de ciência de dados.
À medida que surgem novas fontes de dados por meio de tecnologias emergentes, como a Internet das coisas (IoT), uma boa arquitetura de dados garante que os dados sejam gerenciáveis e úteis, suportando o gerenciamento do ciclo de vida dos dados. Mais especificamente, ela pode evitar o armazenamento redundante de dados, melhorar a qualidade dos dados por meio de limpeza e eliminação de duplicação e habilitar novas aplicações. As arquiteturas de dados modernas também fornecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões, eliminando silos de dados sem a enorme complexidade de armazenar tudo em um só lugar.
As arquiteturas de dados modernas geralmente aproveitam as plataformas de nuvem para gerenciar e processar dados. Embora possa ser mais caro, sua escalabilidade de computação permite que tarefas importantes de processamento de dados sejam concluídas rapidamente. A escalabilidade do armazenamento também ajuda a lidar com o aumento do volume de dados e a garantir que todos os dados relevantes estejam disponíveis para melhorar a qualidade do treinamento de aplicações de IA.
Aprenda os fundamentos e as melhores práticas para ajudar suas equipes a acelerar a IA responsável.
A documentação de arquitetura de dados inclui três tipos de modelos de dados:
Uma arquitetura de dados pode se basear em frameworks populares de arquitetura corporativa, incluindo TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.
The Open Group Architecture Framework (TOGAF)
Essa metodologia de arquitetura corporativa foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é Membro Platinum.
Existem quatro pilares na arquitetura:
Dessa forma, o TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo sua arquitetura de dados.
DAMA-DMBOK 2
A DAMA International, originalmente fundada como Data Management Association International, é uma organização sem fins lucrativos dedicada a aprimorar o gerenciamento de dados e informações. Seu Corpo de Conhecimento de Gerenciamento de Dados, DAMA-DOMBOK 2, abrange arquitetura de dados, bem como governança e ética, modelagem e projeto de dados, armazenamento, segurança e integração.
Zachman Framework for Enterprise Architecture
Originalmente desenvolvido por John Zachman na IBM em 1987, esse framework utiliza uma matriz de seis camadas, da contextual à detalhada, mapeadas em relação a seis perguntas, como por que, como e o quê. Ele fornece uma maneira formal de organizar e analisar dados, mas não inclui métodos para fazer isso.
Uma arquitetura de dados demonstra uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham juntos. Isso inclui vários repositórios de armazenamento de dados diferentes, como data lakes, data warehouses, data marts, bancos de dados etc. Juntos, eles podem criar arquiteturas de dados, como tecidos de dados e malhas de dados, que estão crescendo cada vez mais em popularidade. Essas arquiteturas colocam mais foco nos dados como produtos, criando mais padronização em relação aos metadados e mais democratização dos dados nas organizações por meio de APIs.
A seção a seguir se aprofunda em cada um desses componentes de armazenamento e tipos de arquitetura de dados:
Tipos de sistemas de gerenciamento de dados
Tipos de arquiteturas de dados
Malha de dados: uma malha de dados é uma arquitetura focada na automação da integração de dados, engenharia de dados e governança em uma cadeia de valor de dados entre provedores e consumidores de dados. Uma malha de dados é baseada na noção de "metadados ativos", que utiliza gráficos de conhecimento, semântica, mineração de dados e tecnologia de aprendizado de máquina (ML) para descobrir padrões em vários tipos de metadados (por exemplo, logs do sistema, redes sociais etc.). Em seguida, aplica esses insights para automatizar e orquestrar a cadeia de valor dos dados. Por exemplo, ela pode permitir que um consumidor de dados encontre um produto de dados e tenha esse produto de dados provisionado automaticamente. O aumento do acesso a dados entre os produtos de dados e os consumidores de dados leva a uma redução nos silos de dados e fornece uma visão mais completa dos dados da organização. Malhas de dados é uma tecnologia emergente com enorme potencial e pode ser usada para aprimorar a criação de perfis de clientes, a detecção de fraude e a manutenção preventiva. De acordo com a Gartner, as malhas de dados reduzem o tempo de design da integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.
Data mesh: uma data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios. Usando uma data mesh, a organização precisa parar de pensar nos dados como um subproduto de um processo e começar a pensar neles como um produto por si só. Os produtores de dados atuam como proprietários dos produtos de dados. Como especialistas no assunto, os produtores de dados podem usar seu entendimento sobre os consumidores primários de dados para projetar APIs para eles. Essas APIs também podem ser acessadas de outras partes da organização, proporcionando acesso mais amplo aos dados gerenciados.
Sistemas de armazenamento mais tradicionais, como data lakes e data warehouses, podem ser usados como vários repositórios de dados descentralizados para criar uma data mesh. Uma data mesh também pode funcionar com um data fabric, com a automação do data fabric permitindo que novos produtos de dados sejam criados mais rapidamente ou impondo governança global.
Uma arquitetura de dados bem construída pode oferecer às empresas vários benefícios importantes, que incluem:
Enquanto as organizações constroem o roteiro para as aplicações do futuro – incluindo cargas de trabalho de IA, blockchain e Internet das coisas (IoT) – elas precisam de uma arquitetura de dados moderna que possa atender aos requisitos de dados.
As sete principais características de uma arquitetura de dados moderna são:
O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análises, em qualquer nuvem.
O watsonx é uma plataforma de IA e dados com três componentes principais e um conjunto de assistentes de IA desenvolvidos para ajudar você a escalar e acelerar o impacto da IA com dados confiáveis em toda a empresa.
Saiba mais sobre o Db2 on Cloud, um cloud database SQL totalmente gerenciado, configurado e otimizado para um desempenho robusto.
Leia o smartpaper sobre como criar uma base de dados robusta para IA, concentrando-se em três áreas principais de gerenciamento de dados: acesso, governança, privacidade e conformidade.
A malha de dados pode ajudar as empresas que investem em IA, aprendizado de máquina, Internet das coisas e edge computing a obter mais valor de seus dados.