O que é uma malha de dados?

Autores

Staff Editor

IBM Think

Staff Writer

IBM Think

O que é um data mesh?

Um data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios, como marketing, vendas ou atendimento ao cliente. Os produtores de dados de domínio tratam seus dados como um produto, permitindo que os usuários corporativos encontrem, compreendam e utilizem facilmente os dados de toda a organização.

Esse projeto baseado em domínio lida com muitos dos gargalos operacionais encontrados em sistemas de dados centralizados e monolíticos. No entanto, a adoção de um data mesh não torna obsoletos os sistemas tradicionais de armazenamento de dados (como data lakes ou data warehouses). Em vez disso, seus papéis mudam, deixando de servir como plataformas de dados únicas e centralizadas para dar suporte a múltiplos repositórios de dados descentralizados.

O conceito de data mesh foi introduzido e popularizado por Zhamak Dehghani, diretora de tecnologias emergentes da empresa de consultoria de TI ThoughtWorks. Ela propôs essa arquitetura de dados distribuída como uma solução para os desafios inerentes às arquiteturas de dados centralizadas, como acessibilidade limitada e silos organizacionais.

O data mesh é comumente comparado a uma arquitetura de microsserviços, em que uma única aplicação é composta por muitos serviços menores e fracamente acoplados, porque ambos enfatizam a descentralização, a autonomia e a escalabilidade.

Por que usar uma malha de dados?

Todos os dias, as organizações criam e coletam grandes quantidades de dados. Cada departamento ou unidade de negócios gera conjuntos de dados que muitas vezes são armazenados em repositórios díspares e são normalmente gerenciados por uma equipe de dados centralizada.

Essa separação cria silos de dados, coleções isoladas de dados analíticos e operacionais que impedem o compartilhamento de dados, reduzem a qualidade dos dados e enfraquecem a tomada de decisão baseada em dados. Os silos de dados também limitam a eficácia das iniciativas de big data, aprendizado de máquina (ML) e inteligência artificial (IA).

Na verdade, de acordo com o IBM Data Differentiator, 82% das empresas relatam que os silos de dados atrapalham seus fluxos de trabalho críticos, e 68% dos dados corporativos permanecem sem análise.

As arquiteturas de data mesh distribuídas lidam com esses desafios descentralizando a propriedade e o gerenciamento dos dados. Em vez de depender de uma equipe de dados centralizada e pipelines tradicionais, a propriedade dos dados é transferida para as equipes de domínio. Essas equipes gerenciam seus próprios dados e os fornecem como um produto para o restante da organização por meio de uma infraestrutura de dados de autoatendimento.

Essa abordagem de dados como produto enfatiza a acessibilidade, a governança e a utilidade. Ela se baseia no princípio de que dados, assim como qualquer produto de consumo de alta qualidade, devem ser gerenciados e organizados para atender às necessidades específicas de dados de seus usuários.

O que é um produto de dados?

Um produto de dados é um ativo reutilizável e autônomo que inclui dados, metadados, semântica e modelos. Ele foi projetado para um caso de uso específico e para atender a uma ampla gama de usuários em toda a empresa, ajudando-os a extrair um valor comercial significativo dos dados que, de outra forma, poderiam estar isolados.

Os produtos de dados são desenvolvidos com uma abordagem baseada em product thinking e na aplicação de princípios tradicionais de desenvolvimento de produto. Essa abordagem envolve compreender as necessidades de dados dos usuários, priorizar funcionalidades de alto valor e iterar com base no feedback.

Produtos de dados eficazes devem ser detectáveis, compreensíveis, interoperáveis, compartilháveis, seguros e reutilizáveis.

Análise detalhada: o que é um produto de dados?

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Como funciona um data mesh?

O paradigma do data mesh é mais do que apenas uma implementação técnica. Envolve uma mudança cultural na forma como as organizações pensam sobre a propriedade e acesso aos dados. Tradicionalmente, as organizações tratavam os dados de domínio como um subproduto de um processo ou sistema. No entanto, como a data mesh trata os dados como um produto, as equipes de domínio se tornam proprietárias dos produtos de dados.

De acordo com Zhamak Dehghani, existem quatro princípios fundamentais do data mesh:¹

Propriedade e arquitetura de dados descentralizadas orientadas por domínio
Dados como produto
Infraestrutura de dados de autoatendimento como plataforma
Governança computacional federada

Propriedade e arquitetura de dados descentralizadas orientadas por domínio

Tradicionalmente, uma infraestrutura centralizada ou uma equipe de engenharia de dados manteria a propriedade dos dados em todos os domínios. Em um modelo de data mesh, essa propriedade é descentralizada e passa para as equipes de domínio, aquelas mais próximas dos dados e mais familiarizadas com a forma como são utilizados. Os proprietários desses dados são responsáveis por produzir produtos de dados adaptados a esses usos específicos.

As equipes de domínio também gerenciam seus próprios pipelines de extração, transformação, carregamento (ETL)/extração,carregamento, transformação (ELT) em uma arquitetura de data mesh. No entanto, essa responsabilidade não elimina a necessidade de uma equipe centralizada de engenharia de dados. Em vez disso, seu papel passa a ser o de fornecer e manter as melhores soluções de infraestrutura de dados para armazenar e distribuir os produtos de dados.

Dados como um produto

Uma abordagem de dados como produto (DaaP) trata os conjuntos de dados como produtos comercializáveis que podem ser oferecidos a diversos usuários dentro e fora de uma organização. Os produtos de dados de domínio são disponibilizados aos usuários de toda a organização por meio de interfaces de programação de aplicativos (APIs) ou plataformas de compartilhamento de dados.

Dessa forma, uma abordagem de data mesh permite uma integração de dados mais flexível e produtos de dados interoperáveis. Os dados de vários domínios podem ser prontamente consumidos para análise de dados, ciência de dados, aprendizado de máquina e outros casos de uso.

Infraestrutura de dados de autoatendimento como uma plataforma

Uma plataforma de dados de autoatendimento possui ferramentas que ajudam equipes de domínio com conhecimento menos especializado em desenvolvimento de produtos a criar, manter e compartilhar novos produtos de dados. A equipe da plataforma de dados pode fornecer serviços de dados, como armazenamento de dados escalável, orquestração de pipeline de dados, linhagem de dados e muito mais.

A plataforma de autoatendimento também pode ter diferentes planos, ou camadas, para atender a diferentes usuários. Dehghani lista três exemplos: um plano de provisionamento de infraestrutura de dados, um plano de experiência do desenvolvedor de produtos de dados e um plano de supervisão de data mesh.

Governança federada e gerenciamento de pipeline

Em um ecossistema de data mesh, as equipes de domínio são responsáveis por definir as políticas de governança de dados relacionadas à documentação, qualidade e acesso. Isso inclui manter definições semânticas, catalogar os metadados e definir as permissões e políticas de uso.

Essa padronização viabiliza o acesso a dados por autoatendimento em toda a organização, enquanto uma equipe centralizada de governança de dados estabelece e mantém os padrões organizacionais.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Data mesh versus malha de dados

Malha de dados e data mesh são arquiteturas de dados complementares. Na verdade, as malhas de dados geralmente melhoram a funcionalidade e possibilitam a implementação de um data mesh.

Uma malha de dados usa sistemas inteligentes e automatizados para derrubar silos, gerenciar ativos de dados e otimizar o gerenciamento de dados em escala. Ela se concentra na automação da ingestão de dados, integração de dados, engenharia de dados e governança. Por exemplo, uma malha de dados pode automatizar partes importantes de uma data mesh, como a criação de produtos de dados e o gerenciamento de seu ciclo de vida.

Saiba mais sobre as diferenças entre malha de dados e data mesh

Benefícios de um data mesh

As organizações que adotam arquiteturas de data mesh podem experimentar uma série de benefícios, incluindo:

Democratização e descoberta de dados
Eficiência de custos
Flexibilidade para escalar
Dívida técnica reduzida
Interoperabilidade melhorada
Segurança e conformidade maiores

Democratização e descoberta de dados

As arquiteturas de data mesh podem facilitar o acesso a dados de autoatendimento, tornando os conjuntos de dados detectáveis e utilizáveis. Essa democratização amplia o acesso aos dados para além das equipes técnicas, como cientistas de dados, engenheiros de dados e desenvolvedores. Com uma governança adequada, essa abordagem também pode reduzir os silos de dados e os gargalos operacionais, permitindo uma tomada de decisão mais rápida e ágil.

Eficiências de custos

A arquitetura distribuída de data mesh pode incentivar a adoção de plataformas e pipelines de dados em nuvem para fluxo de dados em tempo real. Essas ferramentas podem melhorar a visibilidade dos custos de armazenamento e processamento, permitindo uma melhor alocação de recursos e orçamento para as equipes de engenharia.

Flexibilidade para escalar

Quando as organizações implementam o data mesh na infraestrutura de nuvem, as equipes de dados podem escalar os recursos de armazenamento e computação conforme necessário. Por exemplo, se for necessária mais capacidade de computação para concluir um trabalho em horas em vez de dias, a empresa poderá provisionar facilmente nós de computação temporários adicionais.

Dívida técnica reduzida

A distribuição da responsabilidade pelo pipeline de dados por domínio elimina a complexidade e a colaboração necessárias para manter um sistema de dados centralizado. Essa abordagem descentralizada reduz as tensões e dívidas técnicas e acelera a entrega aos consumidores de dados.

Interoperabilidade melhorada

O data mesh incentiva as equipes de domínio a concordarem com campos e formatos de dados padronizados e independentes de domínio (como tipo de campo, metadados e sinalizadores de esquema). Essas regras compartilhadas facilitam a integração e a reutilização, tornando rápida e fácil a aplicação de regras relevantes em todos os domínios.

Segurança e conformidade reforçadas

As arquiteturas de data mesh ajudam a impor regras de dados e controles de acesso no nível de domínio por meio de regras padronizadas e observabilidade incorporada. Essa postura sólida de governança ajuda a garantir que as organizações estejam seguindo as regulamentações relacionadas a dados confidenciais, como a Lei de portabilidade e responsabilidade de planos de saúde dos EUA (HIPAA).

Casos de uso de um data mesh

Por meio da propriedade de domínio e de um ecossistema de dados descentralizado, as arquiteturas de data mesh ajudam as organizações a melhorar a acessibilidade e a usabilidade dos dados em uma variedade de casos de uso, incluindo:

Dashboards de business intelligence (BI)

Conjuntos de dados detectáveis, de propriedade do domínio e selecionados dão suporte a iniciativas de BI. As equipes podem adicionar facilmente esses conjuntos de dados a dashboards de BI e visualizações de dados sem a assistência técnica de uma equipe central de engenharia de dados.

Assistentes virtuais automatizados

Chatbots e agentes virtuais têm um melhor desempenho quando têm acesso a dados relevantes e de qualidade. Uma arquitetura de data mesh ajuda a disponibilizar mais fontes de dados de alta qualidade de vários domínios para esses sistemas.

Experiência do cliente

As organizações podem obter uma visão mais unificada de seus clientes ao combinar dados padronizados de clientes de vários domínios. Essa visão pode melhorar a experiência geral do cliente, inclusive os esforços de personalização e segmentação.

Projetos de aprendizado de máquina e IA

Os dados padronizados reduzem o tempo que os cientistas de dados precisam gastar combinando dados de vários domínios. Essa economia de tempo acelera o processamento de dados e aumenta o número de modelos que podem migrar para um ambiente de produção.

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta

Leia o guia do líder de dados para saber como tornar os dados de sua organização preparados para IA.

Recursos

Renderização 3D de vários ícones alinhados, como um microfone e uma câmera

Agentes de IA baseados em dados. O seu já está pronto?

Seus dados são sua vantagem competitiva. Saiba como liberá-los de forma segura e gerar ROI mensurável com base na IA neste breve webinar.

Gerenciamento de dados explicado

O Techsplainers da IBM detalha os fundamentos dos dados para IA, desde os conceitos-chave até os casos de uso do mundo real. Episódios claros e rápidos ajudam você a aprender os fundamentos com agilidade.

Renderização 3D de vários ícones alinhados, como um botão de volume e uma área de transferência

Unifique e acesse seus dados para ajudar a escalar sua IA

Aprenda por que o caminho para dados preparados para IA geralmente começa com o acesso efetivo a dados estruturados e não estruturados, e os desafios que podem impedir os líderes de dados.

Custos indiretos jurídicos transformados em insights estratégicos

Saiba como um agente jurídico impulsionado por IA ajuda a acelerar a tomada de decisão, reduzir o trabalho manual e melhorar a conformidade.

AI Academy: Construindo uma estratégia de dados para IA corporativa

Neste episódio, Cathy Reese explica como as organizações de hoje precisam de uma estratégia de dados preparada para a IA avançada e que exigirá que elas aproveitem seus ativos de dados de maior qualidade.

Renderização 3D de vários ícones alinhados, como uma câmera e aviões de papel

O data lakehouse híbrido e aberto para IA

Simplifique o acesso aos dados e automatize sua gestão. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escalabilidade da IA e da análise, com todos os seus dados, em qualquer lugar.

Relatório do custo das violações de dados 2025

Os custos das violações de dados atingiram novo patamar. Receba insights atualizados sobre ameaças à cibersegurança e seus impactos financeiros nas organizações.

Representação 3D de duas linhas de vários ícones, como uma câmera, um botão de volume e uma área de transferência

O guia do líder de dados para preparar dados para IA

Entenda as etapas praticáveis que os líderes de dados podem seguir para superar os desafios dos dados, estabelecer a base para uma estrutura de dados confiável e preparar os dados da organização para a IA.

Representação 3D de vários ícones alinhados, como uma câmera, botão de volume e uma área de transferência

Como a diretoria executiva está transformando informações em impacto

Explore insights de 1.700 CDOs neste relatório de setores para líderes de dados.

Soluções relacionadas

IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets

IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data

Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados

Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Notas de rodapé

¹"Data Mesh Principles and Logical Architecture," Martin Fowler, 3 de dezembro de 2020.