Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, distribuição e consumo. Ela define o plano dos dados e a forma como eles fluem pelos sistemas de armazenamento de dados. Ela é fundamental para operações de processamento de dados e para aplicações de inteligência artificial (IA).
O projeto de uma arquitetura de dados deve ser orientado por requisitos de negócios e demandas de dados, que arquitetos e engenheiros de dados utilizam para definir o modelo de dados correspondente e as estruturas subjacentes que o sustentam. Esses designs normalmente atendem a uma estratégia ou necessidade de negócios, como uma iniciativa de relatórios ou de ciência de dados.
À medida que surgem novas fontes de dados oriundas de tecnologias emergentes, como a Internet das Coisas (IoT), uma boa arquitetura de dados garante que os dados permaneçam gerenciáveis e úteis, oferecendo suporte ao gerenciamento do ciclo de vida dos dados. Mais especificamente, ela evita armazenamento redundante de dados, melhora a qualidade dos dados por meio de limpeza e deduplicação e permite novas aplicações, como IA generativa.
Arquiteturas de dados modernas também oferecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões. Elas eliminam silos de dados sem a grande complexidade de armazenar tudo em um único local.
Arquiteturas de dados modernas costumam usar plataformas de nuvem para gerenciar e processar dados. Embora possa ser mais caro, seu poder de escalabilidade computacional permite concluir rapidamente tarefas importantes de processamento de dados. A escalabilidade de armazenamento também ajuda a lidar com o aumento do volume de dados e garante que todos os dados relevantes estejam disponíveis para aprimorar a qualidade do treinamento de aplicações de IA.
A documentação de arquitetura de dados inclui 3 tipos de modelos de dados:
Uma arquitetura de dados pode basear-se em frameworks consagrados de arquitetura corporativa, como TOGAF, DAMA-DMBOK 2 e o Zachman Framework for Enterprise Architecture.
Essa metodologia de arquitetura corporativa foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é Membro Platinum.
A arquitetura possui 4 pilares:
O TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo a arquitetura de dados.
A DAMA International, fundada originalmente como Data Management Association International, é uma organização sem fins lucrativos dedicada ao avanço do gerenciamento de dados e informações. O seu Data Management Body of Knowledge, o DAMA-DMBOK 2, abrange arquitetura de dados, governança e ética, modelagem e design de dados, armazenamento, segurança e integração.
Desenvolvido originalmente por John Zachman na IBM em 1987, esse framework usa uma matriz de seis camadas, do contexto ao detalhe, mapeadas contra seis perguntas, por quê, como, o quê, entre outras. Ele fornece uma forma formal de organizar e analisar dados, mas não inclui métodos de execução.
Uma arquitetura de dados oferece uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham em conjunto. Isso engloba várias plataformas de dados e repositórios de armazenamento de dados, como data lakes, data warehouses, data marts, bancos de dados e muito mais.
Juntas, essas soluções podem criar arquiteturas de dados, como malha de dados e data meshes, que ganham cada vez mais popularidade. Essas arquiteturas destacam os dados como produtos, promovendo maior padronização de metadados e maior democratização de dados em toda a organização por meio de interface de programação de aplicativos (APIs).
A próxima seção aprofunda cada um desses componentes de armazenamento e tipos de arquitetura de dados:
Um data warehouse agrega dados de diferentes fontes relacionais em toda a empresa em um único repositório central e consistente. Após a extração, os dados passam por um processo de extração, transformação e carregamento (ETL) em um pipeline de dados, passando por diversas transformações de dados para atender ao modelo de dados predefinido. Quando entram no sistema de armazenamento de dados, os dados passam a sustentar diferentes aplicações de business intelligence (BI) e de ciência de dados.
Um data mart é uma versão mais direcionada de um data warehouse, com um subconjunto reduzido de dados importantes para uma única equipe ou um grupo específico de stakeholders, como o setor de RH. Como contêm um subconjunto menor de dados, os data marts permitem que um departamento ou unidade de negócios obtenha insights mais específicos e com maior agilidade do que ao utilizar o conjunto completo do data warehouse.
Os data marts surgiram originalmente como resposta às dificuldades que as organizações enfrentavam para configurar data warehouses na década de 1990. A integração de dados de toda a organização naquela época exigia vários esforços de codificação manual e consumia muito tempo. O escopo mais limitado dos data marts os tornou mais simples e rápidos de implementar do que os data warehouses centralizados.
Enquanto os data warehouses armazenam dados processados, um data lake armazena dados brutos, geralmente em volumes de petabytes. Um data lake pode armazenar dados estruturados e não estruturados, o que o torna exclusivo de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é útil para analistas de dados, cientistas de dados, engenheiros de dados e desenvolvedores, permitindo acesso a dados para exercícios de descoberta de dados e projetos de aprendizado de máquina (ML).
Os data lakes foram criados originalmente como resposta à incapacidade do data warehouse de lidar com o crescimento do volume, da velocidade e da variedade do big data. Embora os data lakes sejam mais lentos que os data warehouses, eles também são mais baratos, pois exigem pouca ou nenhuma preparação dos dados antes da ingestão. Atualmente, eles continuam a evoluir como parte dos esforços de migração de dados para a nuvem.
Os data lakes atendem a uma ampla variedade de casos de uso, pois os objetivos de negócio para os dados não precisam estar definidos no momento da coleta. No entanto, dois casos de uso principais incluem a exploração em ciência de dados e os esforços de backup e recuperação de dados.
Cientistas de dados podem usar os data lakes para provas de conceito. As aplicações de aprendizado de máquina se beneficiam da capacidade de armazenar dados estruturados e não estruturados no mesmo lugar, o que não é possível com um sistema de banco de dados relacional.
Os data lakes também podem ser usados para testar e desenvolver projetos de análise de big data. Quando a aplicação é desenvolvida e os dados úteis são identificados, é possível exportar os dados para um data warehouse para uso operacional e utilizar automação para fazer a aplicação escalar.
Os data lakes também podem ser usados para backup e recuperação de dados, graças à sua capacidade de escalar com baixo custo. Pelas mesmas razões, os data lakes são úteis para armazenar dados “por precaução”, cujas necessidades de negócio ainda não foram definidas. Armazenar os dados agora garante sua disponibilidade futura, conforme surgem novas iniciativas.
Um data lakehouse é uma plataforma de dados que mescla aspectos de data warehouses e data lakes em uma solução de gerenciamento de dados.
Um lakehouse combina armazenamento de baixo custo com um mecanismo de consulta de alto desempenho e governança inteligente de metadados. Isso permite que as organizações armazenem grandes volumes de dados estruturados e não estruturados e usem esses dados com facilidade em esforços de IA, aprendizado de máquina e análise de dados.
Um banco de dados é o repositório digital básico para armazenar, gerenciar e proteger dados. Tipos de bancos de dados diferentes armazenam dados de maneiras diferentes. Por exemplo, bancos de dados relacionais (também chamados de "bancos de dados SQL") armazenam dados em tabelas definidas com linhas e colunas. Bancos de dados não relacionais (também chamados de bancos de dados " NoSQL") podem armazená-los como várias estruturas de dados, incluindo pares de valores-chave ou gráficos.
A malha de dados é uma arquitetura que foca na automação da integração de dados, engenharia de dados e governança na cadeia de valor dos dados entre fornecedores e consumidores.
Uma malha de dados se baseia no conceito de “metadados ativos” que utilizam catálogos de dados, gráficos de conhecimento, semântica, mineração de dados e tecnologia de aprendizado de máquina para descobrir padrões em diferentes tipos de metadados (por exemplo, logs de sistema, redes sociais e outros). Em seguida, aplica esse insight para automatizar e orquestrar a cadeia de valor dos dados.
Por exemplo, uma malha de dados pode permitir que um consumidor de dados encontre um produto de dados e o receba automaticamente. O aumento no acesso aos dados entre produtos e consumidores de dados reduz os silos e oferece uma visão mais completa dos dados da organização.
As malhas de dados são uma tecnologia emergente com enorme potencial. Eles podem ser usados para aprimorar o perfil do cliente, a detecção de fraudes e a manutenção preventiva. Segundo a Gartner, as malhas de dados reduzem o tempo de design da integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.
Uma malha de dados é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios.
Usando uma data mesh, a organização precisa parar de pensar nos dados como um subproduto de um processo e começar a pensar neles como um produto por si só. Os produtores de dados atuam como proprietários dos produtos de dados. Como especialistas no assunto, os produtores de dados usam seu conhecimento sobre os principais consumidores desses dados para criar APIs específicas para eles. Outros setores da organização também podem acessar essas APIs, o que amplia o acesso aos dados gerenciados.
Sistemas de armazenamento mais tradicionais, como data lakes e data warehouses, funcionam como repositórios de dados descentralizados que viabilizam a aplicação de um data mesh. O data mesh também pode operar em conjunto com a malha de dados, cuja automação acelera a criação de novos produtos de dados e garante a aplicação da governança global.
Uma arquitetura de dados bem estruturada oferece diversos benefícios essenciais para as empresas, como:
Podem existir campos de dados redundantes entre diferentes fontes, o que gera risco de inconsistências, imprecisões e perda de oportunidades de integração de dados. Uma boa arquitetura de dados padroniza o armazenamento e pode reduzir duplicações, promovendo mais qualidade e análises integradas.
Arquiteturas de dados bem planejadas ajudam a resolver problemas comuns em data lakes mal gerenciados, conhecidos como “data swamps”. Um data swamp não segue padrões adequados nem práticas de qualidade e gestão de dados, dificultando a geração de insights.
Arquiteturas de dados fortalecem os padrões de governança e segurança, garantindo o controle adequado dos fluxos de dados. Ao melhorar a qualidade e a governança de dados, as arquiteturas de dados podem ajudar a garantir que os dados sejam armazenados de uma forma que os torne úteis agora e no futuro.
Os dados geralmente ficam isolados devido a limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais visam facilitar a integração de dados entre domínios, para que diferentes regiões geográficas e funções de negócios tenham acesso aos dados umas das outras. Isso leva a uma compreensão melhor e mais consistente de métricas comuns, como despesas, receitas e seus respectivos fatores. Ele também permite uma visão mais holística de clientes, produtos e regiões geográficas para informar a tomada de decisões baseada em dados.
Uma arquitetura de dados moderna pode lidar com como os dados são gerenciados ao longo do tempo. Os dados geralmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Com o tempo, as equipes podem migrar os dados para tipos de armazenamento mais baratos e lentos, mantendo-os disponíveis para relatórios e auditorias, sem os custos do armazenamento de alto desempenho.
À medida que constroem seus roteiros para as aplicações do futuro, incluindo IA, blockchain e cargas de trabalho de Internet das Coisas (IoT), as organizações precisam de uma arquitetura de dados moderna que atenda às exigências desses dados.
As principais características de uma arquitetura de dados moderna são:
Use soluções de bancos de dados da IBM para atender a diversas necessidades de cargas de trabalho em toda a nuvem híbrida.
Explore o IBM Db2, um banco de dados relacional que oferece alto desempenho, escalabilidade e confiabilidade para armazenar e gerenciar dados estruturados. Está disponível como SaaS no IBM Cloud ou para auto-hospedagem.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.