O que é arquitetura de dados?

Imagem de um edifício geométrico moderno de vidro

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

O que é arquitetura de dados?

Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, a distribuição e o consumo — definindo o blueprint de como os dados fluem pelos sistemas de armazenamento de dados. É fundamental para operações de processamento de dados e aplicações de inteligência artificial (IA).

O projeto de uma arquitetura de dados geralmente se baseia em requisitos de negócios e necessidades de dados, que são o que os data architects e engenheiros de dados usam para definir o modelo de dados e as estruturas de dados subjacentes que o suportam. O projeto normalmente facilita uma estratégia de negócios ou necessidade de negócios, como geração de relatórios ou uma iniciativa de ciência de dados.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Por que a arquitetura de dados é importante?

À medida que as organizações escalam seus dados, a necessidade de uma arquitetura bem estruturada e adaptável tornou-se primordial. E, no entanto, 94% dos líderes de dados listaram a ausência de uma arquitetura de dados definida entre seus principais desafios.1

Uma arquitetura de dados moderna pode ajudar a unificar e padronizar os dados empresariais, permitindo o compartilhamento de dados contínuo entre domínios de negócios. Ela também fornece uma base escalável para casos de uso avançados, como análise de dados em tempo real e IA generativa, ajudando as equipes a extrair valor dos dados de forma mais rápida e confiável.

Conforme tecnologias como a Internet das coisas (IoT) geram novas fontes de dados, uma arquitetura bem projetada garante que os dados permaneçam gerenciáveis, integrados e úteis durante todo o seu ciclo de vida. Pode reduzir a redundância, melhorar a qualidade de dados e ajudar a eliminar silos ao conectar sistemas em toda a empresa.

Quando bem feita, a arquitetura de dados não é apenas uma estrutura técnica: é um recurso estratégico que transforma dados brutos em um ativo reutilizável.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Termos-chave na arquitetura de dados

A arquitetura de dados reúne vários conceitos sobrepostos. Os itens a seguir podem ajudar a definir o cenário:

  • Plataforma: o ambiente de tecnologia subjacente que hospeda e executa os sistemas de dados. Inclui ferramentas baseadas na nuvem ou locais.
  • Modelo de dados: uma representação detalhada de como os dados são organizados em um sistema. Define entidades, relacionamentos e formatos.
  • Framework: Uma metodologia estratégica usada para projetar e gerenciar arquitetura empresarial. Frameworks fornecem abordagens estruturadas para alinhar sistemas de dados com objetivos de negócios.
  • Padrão: uma solução repetível para um desafio arquitetônico comum. Padrões como malha de dados ou data mesh descrevem formas testadas de melhorar a escalabilidade, a governança ou a acessibilidade.

Tipos de arquiteturas de dados

A arquitetura de dados moderna tende a seguir uma das duas abordagens fundamentais: centralizada ou descentralizada. Esses modelos orientam como os dados empresariais são coletados, armazenados e governados.

Arquiteturas centralizadas trazem dados para plataformas unificadas (como data lakes ou data warehouses) gerenciadas sob um único modelo de governança de dados. Isso ajuda a reduzir a redundância, melhorar a qualidade de dados e proporcionar compatibilidade com a modelagem de dados estruturados usando structured query language (SQL) e outros bancos de dados relacionais.

Arquiteturas descentralizadas distribuem a propriedade de dados entre domínios de negócios. As equipes gerenciam dados localmente, muitas vezes usando sistemas de bancos de dados não relacionais (também chamados de "bancos de dados NoSQL") ou pipelines baseados em eventos com seus próprios esquemasmetadados e controles de acesso. Essa abordagem é compatível com a integração e processamento de dados em tempo real, fluxo de dados e casos de uso de aprendizado de máquina (ML).

A maioria das organizações combina os dois modelos para equilibrar escalabilidade,integração de dados e agilidade. Essa abordagem híbrida pode ajudar na compatibilidade com diferentes fontes de dados, reduzir silos de dados e permitir operações nativas da nuvem em plataformas como AWS ou Microsoft Azure.

Independentemente do modelo de arquitetura que uma organização adota, o sucesso depende da estrutura dos dados subjacentes. É aí que entra a modelagem de dados.

Quais são os três tipos de modelos de dados?

Enquanto a arquitetura de dados se concentra em como os dados fluem entre os sistemas, a modelagem de dados se concentra em como os dados são estruturados dentro desses sistemas. Os modelos de dados definem a forma, os relacionamentos e as restrições das informações à medida que elas migram por uma arquitetura.

Normalmente, a documentação da arquitetura de dados inclui três tipos de modelos:

  • Modelos de dados conceituais
  • Modelos de dados lógicos
  • Modelos de dados físicos

Modelos de dados conceituais

Também chamados de "modelos de domínios", os modelos de dados conceituais oferecem uma visão holística do que o sistema conterá, como ele será organizado e quais business rules se aplicam. Esses modelos são geralmente criados durante os estágios iniciais do planejamento do projeto e incluem classes de entidades (itens definidos a serem rastreados no modelo de dados), suas características e restrições, os relacionamentos entre elas e quaisquer requisitos relevantes de segurança ou integridade de dados.

Modelos de dados lógicos

Os modelos de dados lógicos são menos abstratos do que os conceituais e fornecem mais detalhes sobre as entidades e relacionamentos dentro de um determinado domínio. Eles seguem uma notação formal de modelagem de dados e definem atributos de dados (como tipos e comprimentos de dados), ao mesmo tempo em que ilustram como as entidades estão conectadas. É importante ressaltar que os modelos lógicos permanecem independentes de tecnologia e não incluem requisitos específicos do sistema.

Modelos de dados físicos

Modelos de dados físicos são os mais detalhados dos três modelos de dados, descrevendo como o banco de dados será implementado. Eles definem estruturas de tabelas, índices, formatos de armazenamento e considerações de desempenho. Esses modelos se concentram nos aspectos técnicos de como os dados estruturados são armazenados e acessados, e são usados para orientar a criação, configuração e otimização de esquemas.

Os modelos de dados moldam a estrutura das informações dentro de um sistema. A partir daí, frameworks mais amplos orientam como os modelos e os sistemas em torno deles são implementados.

Frameworks populares de arquitetura de dados

Uma arquitetura de dados pode basear-se em frameworks consagrados de arquitetura corporativa, como TOGAF, DAMA-DMBOK 2 e o Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Essa metodologia de arquitetura empresarial foi desenvolvida em 1995 pelo The Open Group. Sua arquitetura consiste de quatro pilares:

  • A arquitetura de negócios define a estrutura organizacional, a estratégia de dados e os processos da empresa.
  • A arquitetura de dados descreve os ativos de dados conceituais, lógicos e físicos e como eles são armazenados e gerenciados durante todo o seu ciclo de vida.
  • A arquitetura de aplicaões representa os sistemas de aplicações e como eles se relacionam com os principais processos de negócios e entre si.
  • A arquitetura técnica retrata a infraestrutura de dados (hardware, software e rede) necessária para compatibilidade com as aplicações de missão crítica.

O TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo a arquitetura de dados.

DAMA-DMBOK 2

A DAMA International, fundada originalmente como Data Management Association International, é uma organização sem fins lucrativos dedicada ao avanço do gerenciamento de dados e informações. Seu Data Management Body of Knowledge, DAMA-DMBOK 2, abrange arquitetura de dados, governança e ética, modelagem e design de dados, armazenamento, segurança e integração.

Zachman Framework for Enterprise Architecture

Originalmente desenvolvido por John Zachman na IBM em 1987, esse framework utiliza uma matriz de seis camadas (do contexto ao detalhe) mapeadas em relação a seis perguntas (como o quê, por que e como). Ele fornece uma forma formal de organizar e analisar dados, mas não inclui métodos de execução.

Componentes da arquitetura de dados

Uma arquitetura de dados é criada a partir de vários componentes interdependentes que gerenciam como os dados são migrados, armazenados, governados e acessados. Esses elementos formam a base operacional dos sistemas de dados, dando suporte a tudo, desde a ingestão até a análise de dados.

Os componentes da arquitetura de dados normalmente se enquadram em quatro grandes categorias, cada um com várias subcategorias:

Fluxo e integração

Os dados são capturados de fontes externas e internas e migrados para o sistema para processamento e armazenamento.

Pipelines de dados

Os pipelines ingerem, transformam e transportam dados de seu ponto de origem até onde são processados e armazenados. Esses sistemas podem seguir padrões em lote, como extrair, transformar, carregar (ETL) e extrair, carregar, transformar (ELT). Eles também podem transmitir dados quase em tempo real. Os pipelines modernos geralmente incluem lógica de transformação, verificações de qualidade e validação de esquemas como parte do fluxo.

APIs e conectores

Interfaces de programação de aplicativos (APIs) e conectores criados previamente permitem uma integração sem dificuldades entre sistemas de dados, aplicações e ferramentas de análise de dados. Eles fornecem uma forma padronizada de otimizar o acesso aos dados em diferentes plataformas e são fundamentais para a troca de dados em tempo real.

Sistemas de armazenamento

Uma vez ingeridos, os dados são armazenados em sistemas escaláveis (tanto estruturados quanto não estruturados), onde ficam disponíveis para uso e análise adicionais.

Data warehouses

Um data warehouse agrega dados de diferentes fontes de dados relacionais em uma empresa em um repositório único, central e consistente. Após a extração, os dados fluem por um pipeline ETL, passando por diversas transformações para atender ao modelo de dados predefinido. Quando carregados no sistema do data warehouse, os dados ficam disponíveis para compatibilidade com várias aplicações de business intelligence (BI) e ciência de dados.

Data marts

Um data mart é uma versão focada de um data warehouse que contém um subconjunto menor de dados relevantes para uma única equipe ou grupo de stakeholders. Ao estreitar o escopo, os data marts permitem insights mais rápidos e direcionados do que trabalhar com o conjunto de dados mais amplo do warehouse.

Data lakes

Um data lake armazena dados brutos não processados (incluindo formatos estruturados e não estruturados) em escala. Ao contrário dos data warehouses, os data lakes não exigem modelagem de dados ou preparação antecipada de dados, tornando-os ideais para cargas de trabalho de big data.

Data lakehouses

Um data lakehouse combina aspectos de data warehouse e data lake em uma solução de gerenciamento de dados. Ele combina armazenamento de baixo custo com um mecanismo de consulta de alto desempenho e governança de metadados inteligente.

Bancos de dados

Um banco de dados é o repositório digital básico para armazenar, gerenciar e proteger dados. Tipos de bancos de dados diferentes armazenam dados de maneiras diferentes. Por exemplo, os bancos de dados relacionais (também chamados de "SQL databases") armazenam dados em tabelas com linhas e colunas definidas. Os NoSQL databases podem armazená-los como várias estruturas de dados, incluindo pares de valores-chave ou gráficos.

Governança e metadados

À medida que os dados fluem e se acumulam, as ferramentas de governança garantem que eles estejam bem organizados, seguros e possam ser descobertos durante todo o ciclo de vida.

Catálogos de dados

Um catálogo de dados é um inventário centralizado dos ativos de dados de uma organização. Ele usa metadados para fornecer contexto sobre cada conjunto de dados, incluindo sua origem, estrutura, propriedade, histórico de uso e qualidade. Os catálogos de dados ajudam os usuários a encontrar e avaliar dados, apoiam os esforços de governança e conformidade e facilitam a colaboração entre equipes.

Linhagem e observabilidade

As ferramentas de linhagem rastreiam a jornada dos dados entre os sistemas, mostrando como eles foram transformados e onde se originam. Essa visibilidade é essencial para auditorias, solução de problemas e compreensão de dependências. As plataformas de observabilidade podem complementar a linhagem ao monitorar o desempenho dos pipelines e as métricas de qualidade de dados.  

Acesso e consumo

Por fim, os dados chegam às pessoas e aos sistemas que os utilizam por meio de dashboards, consultas ou ferramentas incorporadas que orientam as decisões.

Ferramentas de dashboards e análise de dados

As plataformas de business intelligence podem melhorar o acesso aos dados por meio de visualizações e dashboards. Essas ferramentas ajudam os usuários não técnicos a interpretar tendências, monitorar os principais indicadores de desempenho (KPIs) e tomar decisões baseadas em dados.

Mecanismos de consulta e computação

Endpoints SQL e outras interfaces de consulta permitem que analistas e cientistas de dados explorem e analisem dados diretamente. Ferramentas como o Apache Spark e o IBM watsonx.data fornecem a camada de computação necessária para executar consultas em conjuntos de dados distribuídos em escala.

Produtos de dados incorporados

Algumas arquiteturas são compatíveis com a entrega de dados diretamente em aplicações, fluxos de trabalho ou APIs. Esses produtos de dados incorporados trazem insights sobre as operações diárias, permitindo a tomada de decisão baseada em dados.

Treinamento em IA e ML

Os dados de toda a arquitetura também podem alimentar os fluxos de trabalho de IA e ML. Os dados de treinamento geralmente são obtidos de data lakes, transformados por meio de pipelines e usados para desenvolver e treinar novamente os modelos. Esses modelos podem ser implementados em produtos, dashboards ou processos de negócios para aprimorar a automação e a previsão.

Como a arquitetura de dados é implementada?

A implementação de uma arquitetura de dados envolve a tradução das necessidades de negócios em um roteiro para coleta, organização, segurança e acessibilidade de dados. Embora não haja duas implementações idênticas, a maioria segue uma abordagem em fases que vai do planejamento à execução.

Etapa 1: Alinhar às metas de negócios

O processo começa estabelecendo aquilo de que a empresa precisa de seus dados, seja para possibilitar o aprendizado de máquina ou para apoiar a conformidade. Isso informa as prioridades arquitetônicas, as fontes de dados a serem incluídas e os sistemas que precisam de integração.

Etapa 2: Definir modelos e governança de dados

Data architects desenvolvem modelos de dados conceituais, lógicos e físicos para orientar a estrutura e o fluxo. Esses modelos ajudam a identificar as principais entidades, relacionamentos, requisitos de dados e controles de acesso. Ao mesmo tempo, as políticas de governança são estabelecidas para definir a propriedade, os direitos de acesso e as regras do ciclo de vida dos dados.

Etapa 3: Projetar a arquitetura

Com modelos e políticas em vigor, as equipes projetam a própria arquitetura selecionando tecnologias para armazenamento, integração, gerenciamento de metadados e consumo. Isso inclui definir como os dados serão migrados entre os sistemas e onde eles residirão nos sistemas de armazenamento.

Etapa 4: Construir e integrar

Normalmente, a implementação envolve a implantação de pipelines de ingestão, o estabelecimento de APIs, a configuração de camadas de governança e a habilitação de pontos de acesso, como dashboards ou endpoints de consulta. Os requisitos de segurança e conformidade são incorporados durante esse estágio para proteger os dados.

Etapa 5: Monitorar, evoluir e expandir

Uma vez implementada, uma arquitetura de dados deve ser continuamente monitorada e refinada. Volumes de dados crescem; casos de uso evoluem; regulamentos mudam. As organizações frequentemente revisitam e otimizam novamente suas arquiteturas, principalmente à medida que adotam plataformas de nuvem e seguem padrões de arquitetura modernos.

Características principais de uma arquitetura de dados moderna

À medida que as organizações escalam, o mesmo acontece com a necessidade de uma arquitetura de dados flexível e Resilient. A arquitetura de dados moderna prioriza a interoperabilidade, o acesso em tempo real e a capacidade de gerenciar dados como produto, não apenas como um ativo. Também permite maior padronização, gerenciamento de metadados e democratização por meio de APIs.

As principais características de uma arquitetura de dados moderna incluem:

  • Design nativo da nuvem, oferecendo escalabilidade elástica e alta disponibilidade.
  • Pipelines de dados inteligentes, combinando integração em tempo real, fluxo de dados e análise de dados cognitiva.
  • Integração sem dificuldades baseada em APIs com aplicações modernas e legadas.
  • Habilitação de dados em tempo real, incluindo validação, classificação e governança.
  • Serviços desacoplados e extensíveis, apoiando o crescimento modular e a interoperabilidade aberta.
  • Organização baseada em domínios, usando eventos e microsserviços para refletir as estruturas de negócios.
  • Otimização integrada, equilibrando desempenho, custo e simplicidade.

Padrões da arquitetura de dados moderna

As organizações que modernizam sua infraestrutura de dados estão adotando novas estratégias de dados que refletem a complexidade dos ambientes híbridos multinuvem atuais. Essa mudança deu origem a novos padrões arquitetônicos, principalmente malhas de dados e data meshes.

Malha de dados

A malha de dados concentra-se na automação da integração e do gerenciamento de dados em ambientes híbridos. Ela usa metadados ativos e aprendizado de máquina para descobrir relacionamentos entre sistemas e orquestrar fluxos de dados. Uma malha de dados pode fornecer produtos de dados automaticamente e entregá-los sob demanda, melhorando a eficiência operacional e reduzindo os silos de dados.

Data mesh

A data mesh descentraliza a propriedade de dados ao alinhar a arquitetura aos domínios de negócios. Ela incentiva os produtores de dados (aqueles mais próximos da fonte) a tratar os dados como um produto e projetar APIs tendo os consumidores em mente. Esse modelo ajuda a eliminar gargalos e oferece suporte à democratização de dados escalável em toda a empresa.

E, embora essas abordagens sejam diferentes, elas não são mutuamente exclusivas. Muitas organizações implementam elementos de ambas, usando a automação de uma malha para escalar a governança descentralizada de uma mesh.

Benefícios das arquiteturas de dados

Uma arquitetura de dados bem construída pode oferecer vantagens significativas às empresas, incluindo:

  • Reduzindo a redundância
  • Melhorando a qualidade dos dados
  • Possibilitando a integração
  • Gerenciamento do ciclo de vida dos dados

Redução da redundância

A sobreposição de campos de dados em diferentes fontes pode levar a inconsistências, imprecisões e oportunidades perdidas de integração de dados. Uma boa arquitetura de dados pode padronizar como os dados são armazenados, podendo reduzir a redundância, permitindo análises holísticas e de melhor qualidade.

Melhoria da qualidade de dados

Arquiteturas de dados bem planejadas podem resolver alguns dos desafios de data lakes mal gerenciados, também conhecidos como “data swamps”. Um data swamp não tem padrões de dados apropriados (incluindo práticas de qualidade e gestão de dados) para fornecer insights significativos. As arquiteturas de dados podem ajudar a impor padrões de gestão de dados e segurança de dados, permitindo a supervisão apropriada dos pipelines de dados.

Habilitação da integração

Os dados geralmente são isolados devido a limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais visam facilitar a integração de dados entre domínios, para que diferentes regiões geográficas e funções de negócios tenham acesso aos dados umas das outras. Isso pode levar a uma compreensão melhor e mais consistente das métricas comuns e permite uma visão mais holística da empresa para informar a tomada de decisão baseada em dados.

Gerenciamento do ciclo de vida de dados

Uma arquitetura de dados moderna pode lidar com a forma como os dados são gerenciados ao longo do tempo. Os dados geralmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Com o tempo, os dados podem ser migrados para tipos de armazenamento mais baratos e lentos, para que permaneçam disponíveis para relatórios e auditorias, mas sem o custo de armazenamento de alto desempenho.

Soluções relacionadas
Ferramentas e soluções de análise de dados

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Análise de dados do IBM Cognos

Apresentamos o Cognos Analytics 12.0, insights impulsionados por IA para maior eficiácia na tomada de decisão.

Explore o IBM Cognos Analytics
Dê o próximo passo

Para prosperar, as empresas devem utilizar os dados para conquistar a fidelidade do cliente, automatizar processos de negócios e inovar com soluções orientadas por IA.

Explore soluções de análise de dados Conheça os serviços de análise de dados