A arquitetura de plataforma de dados tem uma história interessante. Na virada do milênio, as empresas começaram a perceber que a carga de trabalho de relatórios e business intelligence exigia uma nova solução em vez das aplicações transacionais. Surgiu uma plataforma de leitura otimizada que pode integrar dados de várias aplicações. Era o data warehouse.
Em outra década, a internet e os dispositivos móveis começaram a gerar dados de volume, variedade e velocidade imprevistos. Era necessária uma solução de plataforma de dados diferente. Assim, surgiu o data lake, que lida com dados estruturados e não estruturados com um grande volume.
Mais uma década se passou. E ficou claro que o data lake e o data warehouse não são mais suficientes para lidar com a complexidade dos negócios e a nova carga de trabalho das empresas. É muito caro. O valor dos projetos de dados é difícil de realizar. As plataformas de dados são difíceis de alterar. O tempo exigia uma nova solução, novamente.
Adivinhe? Desta vez, pelo menos três soluções diferentes de plataformas de dados estão surgindo: data lakehouse, malha de dados e data mesh. Embora isso seja encorajador, também está criando confusão no mercado. Os conceitos e valores estão sobrepostos. Às vezes, surgem diferentes interpretações dependendo de quem está sendo consultado.
Este artigo visa aliviar essas confusões. Os conceitos serão explicados. E então será introduzido um framework que mostrará como esses três conceitos podem se interligar ou ser usados em conjunto.
O conceito de lakehouse foi popularizado pela Databricks. Eles o definiram como: “Um data lakehouse é uma nova arquitetura aberta de gerenciamento de dados que combina a flexibilidade, a eficiência de custo e a escala dos data lakes com o gerenciamento de dados e as transações ACID dos data warehouses, permitindo business intelligence (BI) e aprendizado de máquina (ML) em todos os dados.”
Enquanto os data warehouses tradicionais faziam uso de um processo de extrair-transformar-carregar(ETL) para ingestão de dados, os data lakes dependem de um processo de extrair-carregar-transformar (ELT). Dados extraídos de múltiplas fontes são carregados em armazenamento BLOB barato, depois transformados e persistidos em um data warehouse, que usa block storage caro.
Essa arquitetura de armazenamento é inflexível e ineficiente. A transformação deve ser realizada continuamente para manter o armazenamento do BLOB e do data warehouse sincronizado, adicionando custos. E a transformação contínua ainda é demorada. Quando os dados estiverem prontos para análise, os insights que eles podem produzir estarão obsoletos em relação ao estado atual dos sistemas transacionais.
Além disso, o armazenamento de data warehouse não consegue suportar cargas de trabalho como Inteligência artificial (IA) ou aprendizado de máquina (ML), que exigem grandes quantidades de dados para treinamento de modelos. Para essas cargas de trabalho, os fornecedores de data lake geralmente recomendam extrair os dados em arquivos simples para serem usados exclusivamente para fins de treinamento e teste do modelo. Isso adiciona uma etapa de ETL extra, tornando os dados ainda mais obsoletos.
O data lakehouse foi criado para resolver esses problemas. A camada de armazenamento do data warehouse é removida das arquiteturas de lakehouse. Em vez disso, a transformação de dados é realizada dentro do armazenamento. Várias APIs são adicionadas para que diferentes tipos de cargas de trabalho possam usar os mesmos blocos de armazenamento. Essa é uma arquitetura adequada para a nuvem, já que o AWS S3 ou o Azure DLS2 podem fornecer o armazenamento necessário.
A malha de dados representa uma nova geração de arquitetura de plataforma de dados. Ele pode ser definido como: Uma coleção vagamente acoplada de serviços distribuídos, que permite que os dados certos sejam disponibilizados na forma certa, no momento e no local certos, a partir de fontes heterogêneas de naturezas transacionais e analíticas, em qualquer nuvem e on- plataformas de instalações, geralmente via autoatendimento, atendendo a requisitos não funcionais, incluindo custo-benefício, desempenho, governança, segurança e conformidade.
O objetivo da malha de dados é disponibilizar dados onde e quando forem necessários, abstraindo as complexidades tecnológicas envolvidas na movimentação, transformação e integração de dados, para que qualquer pessoa possa usar os dados. Algumas das principais características da malha de dados são:
Uma malha de dados é composta por uma rede de nós de dados (por exemplo, plataformas de dados e bancos de dados), todos interagindo entre si para fornecer maior valor. Os nós de dados estão espalhados por todo o ecossistema de computação híbrida e multinuvem da empresa.
Uma malha de dados pode consistir em múltiplos data warehouses, data lakes, dispositivos de IoT/edge e bancos de dados transacionais. Ele pode incluir tecnologias que vão desde Oracle, Teradata e Apache Hadoop até Snowflake no Azure, RedShift na AWS ou MS SQL no data center local, para citar apenas algumas.
A malha de dados abrange todas as fases do ciclo de vida de dados-informações-insights. Um nó da malha pode fornecer dados brutos para outro que, por sua vez, realiza análises. Essas análises podem ser expostas como APIs REST dentro da malha, para que possam ser consumidas por sistemas transacionais de registro para tomada de decisão.
A malha de dados foi projetada para reunir os mundos analítico e transacional. Aqui, tudo é um nó, e os nós interagem entre si por meio de uma variedade de mecanismos. Algumas delas exigem movimentação de dados, enquanto outras permitem acesso a dados sem movimentação. A ideia subjacente é que os silos de dados (e a diferenciação) acabarão por desaparecer nessa arquitetura.
As políticas de segurança e governança são aplicadas sempre que os dados viajam ou são acessados em toda a malha de dados. Assim como o Istio aplica a governança de segurança aos contêineres no Kubernetes, a malha de dados aplicará políticas aos dados de acordo com princípios semelhantes, em tempo real.
A malha de dados promove a descoberta de dados. Aqui, os ativos podem ser publicados em categorias, criando um mercado para toda a empresa. Esse mercado oferece um mecanismo de pesquisa, utilizando metadados e um gráfico de conhecimento para permitir a descoberta de ativos. Isso permite o acesso aos dados em todos os estágios do seu ciclo de vida do valor.
O advento da malha de dados abre novas oportunidades para transformar culturas e modelos operacionais empresariais. Como as malhas de dados são distribuídas, mas inclusivas, seu uso promove a governança federada, mas unificada. Isso tornará os dados mais confiáveis e fidedignos. O mercado facilitará para os stakeholders de toda a empresa descobrirem e usarem os dados para inovar. Diversas equipes acharão mais fácil colaborar e gerenciar ativos de dados compartilhados com um senso de propósito comum.
A malha de dados é uma arquitetura abrangente, na qual algumas novas tecnologias (por exemplo, virtualização de dados) desempenham um papel fundamental. Mas permite que bancos de dados e plataformas de dados existentes participem de uma rede, onde um catálogo de dados ou mercado de dados pode ajudar na descoberta de novos ativos. Os metadados desempenham um papel fundamental aqui na descoberta dos ativos de dados.
Data mesh como conceito é lançada pela Thoughtworks. Ela o definiu como:"...Uma arquitetura de dados analíticos e um modelo operacional em que os dados são tratados como um produto e pertencem às equipes que mais intimamente conhecem e consomem os dados." O conceito baseia-se em quatro princípios: propriedade do domínio, dados como produto, plataformas de dados de autoatendimento e governança computacional federada.
Malha de dados e data mesh como conceitos têm sobreposições. Por exemplo, ambos recomendam uma arquitetura distribuída – ao contrário de plataformas centralizadas, como datawarehouse, data lake e data lakehouse. Ambos querem destacar a ideia de um produto de dados oferecido por meio de um mercado.
Também existem diferenças. Como fica claro na definição acima, diferentemente da malha de dados, a data mesh consiste em dados analíticos. É mais restrito em foco do que a malha de dados. Em segundo lugar, ela enfatiza o modelo operacional e a cultura, o que significa que vai além de apenas uma arquitetura como a malha de dados. A natureza do produto de dados pode ser genérica na malha de dados, enquanto a data mesh prescreve claramente a propriedade orientada ao domínio dos produtos de dados.
Claramente, esses três conceitos têm seu próprio foco e força. No entanto, a sobreposição é evidente.
O lakehouse se destaca dos outros dois. É uma tecnologia nova, como as suas antecessoras. Ele pode ser codificado. Existem vários produtos no mercado, incluindo Databricks, Azure Synapse e Amazon Athena.
A data mesh exige um novo modelo operacional e mudança cultural. Muitas vezes, essas mudanças culturais exigem uma mudança na mentalidade coletiva da empresa. Como resultado, a data mesh pode ser revolucionária por natureza. Ela pode ser construída do zero em uma parte menor da organização antes de se espalhar para o restante dela.
A malha de dados não possui pré-requisitos como data mesh. Não espera essa mudança cultural. Ele pode ser construído usando ativos existentes, onde a empresa investiu ao longo dos anos. Assim, sua abordagem é evolutiva.
Então, como uma empresa pode adotar todos esses conceitos?
Ele pode adotar a adoção de um lakehouse como parte de sua própria jornada de evolução de plataforma de dados. Por exemplo, um banco pode se livrar do seu data warehouse de uma década de idade e entregar todos os casos de uso de BI e IA a partir de uma única plataforma de dados, implementando um lakehouse.
Se a empresa for complexa e tiver várias plataformas de dados, se a descoberta de dados for um desafio, se a entrega de dados em diferentes partes da organização for difícil, a malha de dados pode ser uma boa arquitetura a ser adotada. Junto com os nós da plataforma de dados existentes, um ou vários nós de lakehouse também podem participar. Até mesmo os bancos de dados transacionais também podem se juntar à rede de malha como nós para oferecer ou consumir ativos.
Para lidar com a complexidade do negócio, se a empresa embarcar em uma mudança cultural em direção à propriedade de dados orientada pelo domínio, promove o autoatendimento na descoberta de dados e adota a governança federada – ela está em uma jornada de data mesh. Se a arquitetura da malha de dados já estiver em vigor, a empresa pode usá-la como um facilitador chave em sua jornada de data mesh. Por exemplo, o mercado de malha de dados pode oferecer produtos de dados centrados em domínio – um resultado-chave da data mesh – a partir dele. A descoberta orientada por metadados, já estabelecida como um recurso por meio da malha de dados, pode ser útil na descoberta de novos produtos de dados que surgem da data mesh.
Cada empresa pode analisar suas respectivas metas de negócios e decidir qual ponto de entrada se adapta melhor a elas. Mas mesmo que os pontos de entrada ou motivações possam ser diferentes, uma empresa pode facilmente usar todos os três conceitos juntos em sua busca pela centricidade dos dados.
Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.
O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.
Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.