O que é arquitetura de dados?

By Tom Krantz , Alexandra Jonker

O que é arquitetura de dados?

Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta e transformação até a distribuição e o consumo, definindo o blueprint de como eles fluem pela organização. Ela é fundamental para as operações de processamento de dados e aplicações de inteligência artificial (IA).

O projeto de uma arquitetura de dados geralmente se baseia em requisitos de negócios e necessidades de dados, que os arquitetos de dados e engenheiros de dados usam para definir o modelo de dados e as estruturas de dados subjacentes que o suportam.O projeto normalmente facilita uma estratégia de negócios ou necessidade de negócios, como geração de relatórios ou uma iniciativa de ciência de dados.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Por que a arquitetura de dados é importante?

À medida que as organizações escalam seus dados, a necessidade de uma arquitetura bem estruturada e adaptável tornou-se primordial. E, no entanto, 94% dos líderes de dados listaram a ausência de uma arquitetura de dados definida entre seus principais desafios.¹

Uma arquitetura de dados moderna pode ajudar a unificar e padronizar os dados empresariais, permitindo o compartilhamento de dados contínuo entre domínios de negócios. Ela também fornece uma base escalável para casos de uso avançados, como análise de dados em tempo real e IA generativa, ajudando as equipes a extrair valor dos dados de forma mais rápida e confiável.

Conforme tecnologias como a Internet das coisas (IoT) geram novas fontes de dados, uma arquitetura bem projetada garante que os dados permaneçam gerenciáveis, integrados e úteis durante todo o seu ciclo de vida. Pode reduzir a redundância, melhorar a qualidade de dados e ajudar a eliminar silos ao conectar sistemas em toda a empresa.

Quando bem feita, a arquitetura de dados não é apenas uma estrutura técnica: é um recurso estratégico que transforma dados brutos em um ativo reutilizável.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Termos-chave na arquitetura de dados

A arquitetura de dados reúne vários conceitos sobrepostos. Os itens a seguir podem ajudar a definir o cenário:

Plataforma: o ambiente de tecnologia subjacente que hospeda e executa os sistemas de dados. Inclui ferramentas baseadas na nuvem ou locais.

Modelo de dados: uma representação detalhada de como os dados são organizados em um sistema. Define entidades, relacionamentos e formatos.

Framework: Uma metodologia estratégica usada para projetar e gerenciar arquitetura empresarial. Frameworks fornecem abordagens estruturadas para alinhar sistemas de dados com objetivos de negócios.

Componente: um elemento funcional que desempenha uma função específica na arquitetura. Os exemplos incluem pipelines para movimentação, data lakes para armazenamento bruto e catálogos para gerenciamento de metadados.

Padrão: uma solução repetível para um desafio arquitetônico comum. Padrões como malha de dados ou data mesh descrevem formas testadas de melhorar a escalabilidade, a governança ou a acessibilidade.

Tipos de arquiteturas de dados

A arquitetura de dados moderna tende a seguir uma das duas abordagens fundamentais: centralizada ou descentralizada. Esses modelos orientam como os dados empresariais são coletados, armazenados e governados.

Arquiteturas centralizadas trazem dados para plataformas unificadas (como data lakes ou data warehouses) gerenciadas sob um único modelo de governança de dados. Isso ajuda a reduzir a redundância, melhorar a qualidade de dados e proporcionar compatibilidade com a modelagem de dados estruturados usando structured query language (SQL) e outros bancos de dados relacionais.

Arquiteturas descentralizadas distribuem a propriedade de dados entre domínios de negócios. As equipes gerenciam dados localmente, muitas vezes usando sistemas de bancos de dados não relacionais (também chamados de "bancos de dados NoSQL") ou pipelines baseados em eventos com seus próprios esquemas, metadados e controles de acesso. Essa abordagem é compatível com a integração e processamento de dados em tempo real, fluxo de dados e casos de uso de aprendizado de máquina (ML).

A maioria das organizações combina os dois modelos para equilibrar escalabilidade,integração de dados e agilidade. Essa abordagem híbrida pode ajudar na compatibilidade com diferentes fontes de dados, reduzir silos de dados e permitir operações nativas da nuvem em plataformas como AWS ou Microsoft Azure.

Independentemente do modelo de arquitetura que uma organização adota, o sucesso depende da estrutura dos dados subjacentes. É aí que entra a modelagem de dados.

Quais são os três tipos de modelos de dados?

Enquanto a arquitetura de dados se concentra em como os dados fluem entre os sistemas, a modelagem de dados se concentra em como os dados são estruturados dentro desses sistemas. Os modelos de dados definem a forma, os relacionamentos e as restrições das informações à medida que elas migram por uma arquitetura.

Normalmente, a documentação da arquitetura de dados inclui três tipos de modelos:

Modelos de dados conceituais
Modelos de dados lógicos
Modelos de dados físicos

Modelos de dados conceituais

Também chamados de "modelos de domínios", os modelos de dados conceituais oferecem uma visão holística do que o sistema conterá, como ele será organizado e quais business rules se aplicam. Esses modelos são geralmente criados durante os estágios iniciais do planejamento do projeto e incluem classes de entidades (itens definidos a serem rastreados no modelo de dados), suas características e restrições, os relacionamentos entre elas e quaisquer requisitos relevantes de segurança ou integridade de dados.

Modelos de dados lógicos

Os modelos de dados lógicos são menos abstratos do que os conceituais e fornecem mais detalhes sobre as entidades e relacionamentos dentro de um determinado domínio. Eles seguem uma notação formal de modelagem de dados e definem atributos de dados (como tipos e comprimentos de dados), ao mesmo tempo em que ilustram como as entidades estão conectadas. É importante ressaltar que os modelos lógicos permanecem independentes de tecnologia e não incluem requisitos específicos do sistema.

Modelos de dados físicos

Modelos de dados físicos são os mais detalhados dos três modelos de dados, descrevendo como o banco de dados será implementado. Eles definem estruturas de tabelas, índices, formatos de armazenamento e considerações de desempenho. Esses modelos se concentram nos aspectos técnicos de como os dados estruturados são armazenados e acessados, e são usados para orientar a criação, configuração e otimização de esquemas.

Os modelos de dados moldam a estrutura das informações dentro de um sistema. A partir daí, frameworks mais amplos orientam como os modelos e os sistemas em torno deles são implementados.

Frameworks populares de arquitetura de dados

Uma arquitetura de dados pode basear-se em frameworks consagrados de arquitetura corporativa, como TOGAF, DAMA-DMBOK 2 e o Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Essa metodologia de arquitetura empresarial foi desenvolvida em 1995 pelo The Open Group. Sua arquitetura consiste de quatro pilares:

A arquitetura de negócios define a estrutura organizacional, a estratégia de dados e os processos da empresa.

A arquitetura de dados descreve os ativos de dados conceituais, lógicos e físicos e como eles são armazenados e gerenciados durante todo o seu ciclo de vida.

A arquitetura de aplicaões representa os sistemas de aplicações e como eles se relacionam com os principais processos de negócios e entre si.

A arquitetura técnica retrata a infraestrutura de dados (hardware, software e rede) necessária para compatibilidade com as aplicações de missão crítica.

O TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo a arquitetura de dados.

DAMA-DMBOK 2

A DAMA International, fundada originalmente como Data Management Association International, é uma organização sem fins lucrativos dedicada ao avanço do gerenciamento de dados e informações. Seu Data Management Body of Knowledge, DAMA-DMBOK 2, abrange arquitetura de dados, governança e ética, modelagem e design de dados, armazenamento, segurança e integração.

Zachman Framework for Enterprise Architecture

Originalmente desenvolvido por John Zachman na IBM em 1987, esse framework utiliza uma matriz de seis camadas (do contexto ao detalhe) mapeadas em relação a seis perguntas (como o quê, por que e como). Ele fornece uma forma formal de organizar e analisar dados, mas não inclui métodos de execução.

Componentes da arquitetura de dados

Uma arquitetura de dados é construída a partir de múltiplos componentes interdependentes que gerenciam como os dados são migrados, armazenados, acessados e governados. Esses elementos formam a base operacional dos sistemas de dados, dando suporte a tudo, desde a ingestão até a análise de dados.

Os componentes da arquitetura de dados normalmente se enquadram em quatro grandes categorias, cada um com várias subcategorias:

Fluxo e integração

Os dados são capturados de fontes externas e internas e migrados para o sistema para processamento e armazenamento.

Pipelines de dados

Os pipelines ingerem, transformam e transportam dados de seu ponto de origem até onde são processados e armazenados. Esses sistemas podem seguir padrões em lote, como extrair, transformar, carregar (ETL) e extrair, carregar, transformar (ELT). Eles também podem transmitir dados quase em tempo real. Os pipelines modernos geralmente incluem lógica de transformação, verificações de qualidade e validação de esquemas como parte do fluxo.

APIs e conectores

Interfaces de programação de aplicativos (APIs) e conectores criados previamente permitem uma integração sem dificuldades entre sistemas de dados, aplicações e ferramentas de análise de dados. Eles fornecem uma forma padronizada de otimizar o acesso aos dados em diferentes plataformas e são fundamentais para a troca de dados em tempo real.

Sistemas de armazenamento

Uma vez ingeridos, os dados são armazenados em sistemas escaláveis (tanto estruturados quanto não estruturados), onde ficam disponíveis para uso e análise adicionais.

Data warehouses

Um data warehouse agrega dados de diferentes fontes de dados relacionais em uma empresa em um repositório único, central e consistente. Após a extração, os dados fluem por um pipeline ETL, passando por diversas transformações para atender ao modelo de dados predefinido. Quando carregados no sistema do data warehouse, os dados ficam disponíveis para compatibilidade com várias aplicações de business intelligence (BI) e ciência de dados.

Data marts

Um data mart é uma versão focada de um data warehouse que contém um subconjunto menor de dados relevantes para uma única equipe ou grupo de stakeholders. Ao estreitar o escopo, os data marts permitem insights mais rápidos e direcionados do que trabalhar com o conjunto de dados mais amplo do warehouse.

Data lakes

Um data lake armazena dados brutos não processados (incluindo formatos estruturados e não estruturados) em escala. Ao contrário dos data warehouses, os data lakes não exigem modelagem de dados ou preparação antecipada de dados, tornando-os ideais para cargas de trabalho de big data.

Data lakehouses

Um data lakehouse combina aspectos de data warehouse e data lake em uma solução de gerenciamento de dados. Ele combina armazenamento de baixo custo com um mecanismo de consulta de alto desempenho e governança de metadados inteligente.

Bancos de dados

Um banco de dados é o repositório digital básico para armazenar, gerenciar e proteger dados. Tipos de bancos de dados diferentes armazenam dados de maneiras diferentes. Por exemplo, os bancos de dados relacionais (também chamados de "SQL databases") armazenam dados em tabelas com linhas e colunas definidas. Os NoSQL databases podem armazená-los como várias estruturas de dados, incluindo pares de valores-chave ou gráficos.

Acesso e consumo

Os dados são acessados por meio de dashboards e consultas e, em seguida, usados para informar aplicações de análise de dados e IA/ML. Os insights são incorporados à arquitetura para refinar os fluxos de dados futuros.

Ferramentas de dashboards e análise de dados

As plataformas de business intelligence podem melhorar o acesso aos dados por meio de visualizações e dashboards. Essas ferramentas ajudam os usuários não técnicos a interpretar tendências, monitorar os principais indicadores de desempenho (KPIs) e tomar decisões baseadas em dados.

Mecanismos de consulta e computação

Endpoints SQL e outras interfaces de consulta permitem que analistas e cientistas de dados explorem e analisem dados diretamente. Ferramentas como o Apache Spark e o IBM watsonx.data fornecem a camada de computação necessária para executar consultas em conjuntos de dados distribuídos em escala.

Produtos de dados incorporados

Algumas arquiteturas são compatíveis com a entrega de dados diretamente em aplicações, fluxos de trabalho ou APIs. Esses produtos de dados incorporados trazem insights sobre as operações diárias, permitindo a tomada de decisão baseada em dados.

Treinamento em IA e ML

Os dados de toda a arquitetura também podem alimentar os fluxos de trabalho de IA e ML. Os dados de treinamento geralmente são obtidos de data lakes, transformados por meio de pipelines e usados para desenvolver e treinar novamente os modelos. Esses modelos podem ser implementados em produtos, dashboards ou processos de negócios para aprimorar a automação e a previsão.

Governança e metadados

Em todas as etapas (da ingestão ao consumo), a governança e os metadados mantêm a integridade dos dados, garantindo sua segurança e possibilidade de localização ao longo de todo o seu ciclo de vida.

Linhagem e observabilidade

As ferramentas de linhagem rastreiam a jornada dos dados entre os sistemas, mostrando como eles foram transformados e onde se originam. Essa visibilidade é essencial para auditorias, solução de problemas e compreensão de dependências. As plataformas de observabilidade podem complementar a linhagem ao monitorar o desempenho dos pipelines e as métricas de qualidade de dados.

Catálogos de dados

Um catálogo de dados é um inventário centralizado dos ativos de dados de uma organização. Ele usa metadados para fornecer contexto sobre cada conjunto de dados, incluindo sua origem, estrutura, propriedade, histórico de uso e qualidade. Os catálogos de dados ajudam os usuários a encontrar e avaliar dados, apoiam os esforços de governança e conformidade e facilitam a colaboração entre equipes.

O diagrama abaixo mostra como os dados migram por cada camada da arquitetura:

Como a arquitetura de dados é implementada?

A implementação de uma arquitetura de dados envolve a tradução das necessidades de negócios em um roteiro para coleta, organização, segurança e acessibilidade de dados. Embora não haja duas implementações idênticas, a maioria segue uma abordagem em fases que vai do planejamento à execução.

Etapa 1: Alinhar às metas de negócios

O processo começa estabelecendo aquilo de que a empresa precisa de seus dados, seja para possibilitar o aprendizado de máquina ou para apoiar a conformidade. Isso informa as prioridades arquitetônicas, as fontes de dados a serem incluídas e os sistemas que precisam de integração.

Etapa 2: Definir modelos e governança de dados

Data architects desenvolvem modelos de dados conceituais, lógicos e físicos para orientar a estrutura e o fluxo. Esses modelos ajudam a identificar as principais entidades, relacionamentos, requisitos de dados e controles de acesso. Ao mesmo tempo, as políticas de governança são estabelecidas para definir a propriedade, os direitos de acesso e as regras do ciclo de vida dos dados.

Etapa 3: Projetar a arquitetura

Com modelos e políticas em vigor, as equipes projetam a própria arquitetura selecionando tecnologias para armazenamento, integração, gerenciamento de metadados e consumo. Isso inclui definir como os dados serão migrados entre os sistemas e onde eles residirão nos sistemas de armazenamento.

Etapa 4: Construir e integrar

Normalmente, a implementação envolve a implantação de pipelines de ingestão, o estabelecimento de APIs, a configuração de camadas de governança e a habilitação de pontos de acesso, como dashboards ou endpoints de consulta. Os requisitos de segurança e conformidade são incorporados durante esse estágio para proteger os dados.

Etapa 5: Monitorar, evoluir e expandir

Uma vez implementada, uma arquitetura de dados deve ser continuamente monitorada e refinada. Volumes de dados crescem; casos de uso evoluem; regulamentos mudam. As organizações frequentemente revisitam e otimizam novamente suas arquiteturas, principalmente à medida que adotam plataformas de nuvem e seguem padrões de arquitetura modernos.

Características principais de uma arquitetura de dados moderna

À medida que as organizações escalam, o mesmo acontece com a necessidade de uma arquitetura de dados flexível e Resilient. A arquitetura de dados moderna prioriza a interoperabilidade, o acesso em tempo real e a capacidade de gerenciar dados como produto, não apenas como um ativo. Também permite maior padronização, gerenciamento de metadados e democratização por meio de APIs.

As principais características de uma arquitetura de dados moderna incluem:

Design nativo da nuvem, oferecendo escalabilidade elástica e alta disponibilidade.

Pipelines de dados inteligentes, combinando integração em tempo real, fluxo de dados e análise de dados cognitiva.

Integração sem dificuldades baseada em APIs com aplicações modernas e legadas.

Habilitação de dados em tempo real, incluindo validação, classificação e governança.

Serviços desacoplados e extensíveis, apoiando o crescimento modular e a interoperabilidade aberta.

Organização baseada em domínios, usando eventos e microsserviços para refletir as estruturas de negócios.

Otimização integrada, equilibrando desempenho, custo e simplicidade.

Padrões da arquitetura de dados moderna

As organizações que modernizam sua infraestrutura de dados estão adotando novas estratégias de dados que refletem a complexidade dos ambientes híbridos multinuvem atuais. Essa mudança deu origem a novos padrões arquitetônicos, principalmente malhas de dados e data meshes.

Malha de dados

A malha de dados concentra-se na automação da integração e do gerenciamento de dados em ambientes híbridos. Ela usa metadados ativos e aprendizado de máquina para descobrir relacionamentos entre sistemas e orquestrar fluxos de dados. Uma malha de dados pode fornecer produtos de dados automaticamente e entregá-los sob demanda, melhorando a eficiência operacional e reduzindo os silos de dados.

Data mesh

A data mesh descentraliza a propriedade de dados ao alinhar a arquitetura aos domínios de negócios. Ela incentiva os produtores de dados (aqueles mais próximos da fonte) a tratar os dados como um produto e projetar APIs tendo os consumidores em mente. Esse modelo ajuda a eliminar gargalos e oferece suporte à democratização de dados escalável em toda a empresa.

E, embora essas abordagens sejam diferentes, elas não são mutuamente exclusivas. Muitas organizações implementam elementos de ambas, usando a automação de uma malha para escalar a governança descentralizada de uma mesh.

Benefícios das arquiteturas de dados

Uma arquitetura de dados bem construída pode oferecer vantagens significativas às empresas, incluindo:

Reduzindo a redundância
Melhorando a qualidade dos dados
Possibilitando a integração
Gerenciamento do ciclo de vida dos dados

Redução da redundância

A sobreposição de campos de dados em diferentes fontes pode levar a inconsistências, imprecisões e oportunidades perdidas de integração de dados. Uma boa arquitetura de dados pode padronizar como os dados são armazenados, podendo reduzir a redundância, permitindo análises holísticas e de melhor qualidade.

Melhoria da qualidade de dados

Arquiteturas de dados bem planejadas podem resolver alguns dos desafios de data lakes mal gerenciados, também conhecidos como “data swamps”. Um data swamp não tem padrões de dados apropriados (incluindo práticas de qualidade e gestão de dados) para fornecer insights significativos. As arquiteturas de dados podem ajudar a impor padrões de gestão de dados e segurança de dados, permitindo a supervisão apropriada dos pipelines de dados.

Habilitação da integração

Os dados geralmente são isolados devido a limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais visam facilitar a integração de dados entre domínios, para que diferentes regiões geográficas e funções de negócios tenham acesso aos dados umas das outras. Isso pode levar a uma compreensão melhor e mais consistente das métricas comuns e permite uma visão mais holística da empresa para informar a tomada de decisão baseada em dados.

Gerenciamento do ciclo de vida de dados

Uma arquitetura de dados moderna pode lidar com a forma como os dados são gerenciados ao longo do tempo. Os dados geralmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Com o tempo, os dados podem ser migrados para tipos de armazenamento mais baratos e lentos, para que permaneçam disponíveis para relatórios e auditorias, mas sem o custo de armazenamento de alto desempenho.

Techsplainers | Podcast | O que é uma arquitetura de dados?

Ouça: "O que é uma arquitetura de dados?"

Siga o Techsplainers: Spotify, Apple Podcasts e Casted.

Encontre mais episódios

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta

Leia o guia do líder de dados para saber como tornar os dados de sua organização preparados para IA.

Recursos

Renderização 3D de vários ícones alinhados, como um microfone e uma câmera

Agentes de IA baseados em dados. O seu já está pronto?

Seus dados são sua vantagem competitiva. Saiba como liberá-los de forma segura e gerar ROI mensurável com base na IA neste breve webinar.

Gerenciamento de dados explicado

O Techsplainers da IBM detalha os fundamentos dos dados para IA, desde os conceitos-chave até os casos de uso do mundo real. Episódios claros e rápidos ajudam você a aprender os fundamentos com agilidade.

Renderização 3D de vários ícones alinhados, como um botão de volume e uma área de transferência

Unifique e acesse seus dados para ajudar a escalar sua IA

Aprenda por que o caminho para dados preparados para IA geralmente começa com o acesso efetivo a dados estruturados e não estruturados, e os desafios que podem impedir os líderes de dados.

Custos indiretos jurídicos transformados em insights estratégicos

Saiba como um agente jurídico impulsionado por IA ajuda a acelerar a tomada de decisão, reduzir o trabalho manual e melhorar a conformidade.

AI Academy: Construindo uma estratégia de dados para IA corporativa

Neste episódio, Cathy Reese explica como as organizações de hoje precisam de uma estratégia de dados preparada para a IA avançada e que exigirá que elas aproveitem seus ativos de dados de maior qualidade.

Renderização 3D de vários ícones alinhados, como uma câmera e aviões de papel

O data lakehouse híbrido e aberto para IA

Simplifique o acesso aos dados e automatize sua gestão. Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escalabilidade da IA e da análise, com todos os seus dados, em qualquer lugar.

Relatório do custo das violações de dados 2025

Os custos das violações de dados atingiram novo patamar. Receba insights atualizados sobre ameaças à cibersegurança e seus impactos financeiros nas organizações.

Representação 3D de duas linhas de vários ícones, como uma câmera, um botão de volume e uma área de transferência

O guia do líder de dados para preparar dados para IA

Entenda as etapas praticáveis que os líderes de dados podem seguir para superar os desafios dos dados, estabelecer a base para uma estrutura de dados confiável e preparar os dados da organização para a IA.

Representação 3D de vários ícones alinhados, como uma câmera, botão de volume e uma área de transferência

Como a diretoria executiva está transformando informações em impacto

Explore insights de 1.700 CDOs neste relatório de setores para líderes de dados.

Soluções relacionadas

IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets

IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data

Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados

Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Notas de rodapé

¹2024 Informatica Report: State of AI and Data with a Modern Data Architecture, Informatica

O que é arquitetura de dados?