A arquitetura de dados demonstra uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham em conjunto. Isso inclui diversos repositórios diferentes de armazenamento de dados, como data lakes, data warehouses, data marts, bancos de dados, etc. Juntos, eles podem criar arquiteturas de dados, como data fabrics e data meshes, cada vez mais difundidas. Essas arquiteturas dão maior ênfase aos dados como produtos, criando uma padronização dos metadados e proporcionando maior democratização de dados por toda uma organização, por meio de APIs.

A seção a seguir detalha cada um desses tipos de componentes de armazenamento e de arquitetura de dados:

Tipos de sistemas de gerenciamento de dados

Data warehouses: Um data warehouse agrega dados de diferentes fontes de dados relacionais de uma empresa em único repositório, consistente e centralizado. Após a extração, os dados fluem por um pipeline de dados ETL, passando por diversas transformações para atender ao modelo de dados predefinido. Uma vez carregados no data warehouse, os dados são encarregados de apoiar diferentes aplicativos de inteligência de negócios (BI) e ciência de dados.

Data marts: Um data mart é uma versão centrada um data warehouse que contém um subconjunto menor de dados importantes e necessários para uma única equipe ou um grupo específico de usuários dentro de uma organização, como o departamento de RH. Por conter um subconjunto menor de dados, os data marts permitem que um departamento ou linha de negócios descubram insights especializados mais rapidamente em comparação com o conjunto mais amplo de dados de um data warehouse. Os data marts surgiram em resposta às dificuldades enfrentadas pelas organizações na configuração dos data warehouses na década de 1990. Naquela época, integrar dados de toda a organização exigia um grande volume de codificação manual, além de ser praticamente inviável. O escopo mais limitado dos data marts os tornava mais simples e rápidos de implementar do que os data warehouses centralizados.

Data Lakes: Enquanto os data warehouses armazenam dados processados, um data lake hospeda dados não processados, geralmente petabytes deles. Um data lake pode armazenar dados estruturados e não estruturados, o que o diferencia de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é particularmente útil para cientistas de dados, engenheiros de dados e desenvolvedores, permitindo que acessem dados para exercícios de descoberta de dados e projetos de aprendizado de máquina. Os data lakes foram criados como resposta à incapacidade dos data warehouses em lidar com o aumento no volume, velocidade e variedade de big data. Embora os data lakes sejam mais lentos que os data warehouses, eles também são mais baratos, pois há pouca ou nenhuma preparação de dados antes da ingestão. Atualmente, eles continuam a evoluir parte dos esforços de migração para a cloud. Data lakes ofecerem suporte a diversos casos de uso, uma vez que os objetivos de negócios dos dados não precisam ser definidos no momento da coleta de dados. No entanto, dois dos principais incluem a exploração para ciência de dados e esforços de backup e recuperação. Os cientistas de dados podem usar data lakes para provas de conceitos. Aplicativos de aprendizado de máquina podem aproveitar a capacidade de armazenamento de dados estruturados e não estruturados no mesmo local, o que não é possível com um sistema de banco de dados relacional. Data lakes também podem ser usados para testar e desenvolver projetos de análise de Big Data. Quando o aplicativo tiver sido desenvolvido e os dados úteis identificados, os dados poderão ser exportados para um data warehouse para uso opercional; além disso, é possível usar automização para ajustar a escala do aplicativo. Data lakes também podem ser usados para backup e recuperação de dados, graças à sua capacidade de ajustar escala com baixo custo. Pelas mesmas razões, os data lakes são bons para armazenar dados nos casos em que as necessidade de negócios ainda não tenham sido definidas. Armazenar os dados agora significa que estarão disponíveis posteriormente, à medida que novas iniciativas surgirem.

Tipos de arquiteturas de dados

Data fabric: Uma data fabric é uma arquitetura que se concentra na automação de integração de dados, engenharia de dados e controle em uma cadeia de valor de dados entre fornecedores e consumidores de dados. Um exemplo de data fabric é baseado na noção de "metadados ativos", que utiliza conhecimento gráfico, semântica, mineração de dados e tecnologia de aprendizado de máquina (ML) para descobrir padrões em vários tipos de metadados (por exemplo, logs de sistema, redes sociais, etc.). Em seguida, ela aplica esse insight para automatizar e orquestrar a cadeia de valor de dados. Por exemplo, ela pode permitir que um consumidor de dados encontre um produto de dados e fornecer esse produto automaticamente a ele. O aumento do acesso a dados entre produtos de dados e consumidores de dados leva a uma redução nos silos de dados e proporciona uma visão mais completa dos dados da organização. Data fabrics são uma tecnologia emergente, com enorme potencial, e podem ser usadas para melhorar a definição de perfil de clientes, detecção de fraudes e a manutenção preventiva. De acordo com a Gartner, as data fabrics reduzem o tempo de design de integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.

Data meshes: Uma data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios. Ao utilizar uma data mesh, a organização não deve pensar nos dados como subproduto de um processo e sim como um produto por si só. Produtores de dados agem como proprietários de produtos de dados. Como especialistas no assunto, os produtores de dados podem usar seu entendimento dos principais consumidores de dados para criar APIs para esse público. Essas APIs também podem ser acessadas de outras partes da organização, fornecendo acesso mais amplos aos dados gerenciados .

Sistemas mais tradicionais de armazenamento, como data lakes e data warehouses, podem ser utilizados como diversos repositórios de dados descentralizados para compor uma data mesh. Uma data mesh também pode trabalhar em conjunto com uma data fabric, com a automação da data fabric permitindo que novos produtos de dados sejam criados mais rapidamente ou reforçando o controle global.