O que é arquitetura de dados?

O que é arquitetura de dados?

Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, distribuição e consumo. Ela define o plano dos dados e a forma como eles fluem pelos sistemas de armazenamento de dados. Ela é fundamental para operações de processamento de dados e para aplicações de inteligência artificial (IA).

O projeto de uma arquitetura de dados deve ser orientado por requisitos de negócios e demandas de dados, que arquitetos e engenheiros de dados utilizam para definir o modelo de dados correspondente e as estruturas subjacentes que o sustentam. Esses designs normalmente atendem a uma estratégia ou necessidade de negócios, como uma iniciativa de relatórios ou de ciência de dados.

À medida que surgem novas fontes de dados oriundas de tecnologias emergentes, como a Internet das Coisas (IoT), uma boa arquitetura de dados garante que os dados permaneçam gerenciáveis e úteis, oferecendo suporte ao gerenciamento do ciclo de vida dos dados. Mais especificamente, ela evita armazenamento redundante de dados, melhora a qualidade dos dados por meio de limpeza e deduplicação e permite novas aplicações, como IA generativa.

Arquiteturas de dados modernas também oferecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões. Elas eliminam silos de dados sem a grande complexidade de armazenar tudo em um único local.

Arquiteturas de dados modernas costumam usar plataformas de nuvem para gerenciar e processar dados. Embora possa ser mais caro, seu poder de escalabilidade computacional permite concluir rapidamente tarefas importantes de processamento de dados. A escalabilidade de armazenamento também ajuda a lidar com o aumento do volume de dados e garante que todos os dados relevantes estejam disponíveis para aprimorar a qualidade do treinamento de aplicações de IA.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Modelos de dados conceituais vs. lógicos vs. físicos

A documentação de arquitetura de dados inclui 3 tipos de modelos de dados:

  • Modelos de dados conceituais: também chamados de “modelos de domínio”, eles oferecem uma visão ampla do que o sistema conterá, como será organizado e quais regras de negócios estarão envolvidas.

    Modelos conceituais são criados como parte do processo de coleta dos requisitos iniciais do projeto. Normalmente, eles incluem classes de entidades (que definem os tipos de elementos importantes para a empresa representar no modelo de dados), suas características e restrições, os relacionamentos entre elas e os requisitos de segurança e integridade de dados correspondentes.
  • Modelos de dados lógicos: eles são menos abstratos e oferecem mais detalhes sobre os conceitos e relacionamentos no domínio em análise. Adota-se um dos diversos sistemas formais de notação de modelagem de dados. Eles indicam atributos de dados, como tipos de dados e seus respectivos comprimentos, e mostram os relacionamentos entre as entidades. Modelos de dados lógicos não especificam requisitos técnicos de sistema.
  • Modelos de dados físicos: o modelo de dados físico é o mais detalhado e específico dos três. Ele define a implementação real do banco de dados, incluindo estruturas de tabelas, índices, armazenamento e considerações de desempenho. Ele foca nos aspectos técnicos de como os dados serão armazenados e acessados, sendo usado para criação e otimização de esquemas de banco de dados.
Mixture of Experts | 25 de abril, episódio 52

Decodificando a IA: resumo semanal das notícias

Junte-se ao nosso painel de engenheiros, pesquisadores, líderes de produto e outros especialistas de classe mundial enquanto eles cortam o ruído da IA para trazer a você as últimas notícias e insights sobre IA.

Frameworks populares de arquitetura de dados

Uma arquitetura de dados pode basear-se em frameworks consagrados de arquitetura corporativa, como TOGAF, DAMA-DMBOK 2 e o Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Essa metodologia de arquitetura corporativa foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é Membro Platinum.

A arquitetura possui 4 pilares:

  • Arquitetura de negócios, que define a estrutura organizacional da empresa, a estratégia de dados e os processos.
  • Arquitetura de dados, que descreve os ativos de dados conceitual, lógico e físico e como eles são armazenados e gerenciados ao longo do ciclo de vida.
  • Arquitetura de aplicações, que representa os sistemas de aplicação e como eles se relacionam com processos de negócios essenciais e entre si.

  • Arquitetura técnica, que descreve a infraestrutura de dados (hardware, software e redes) necessária para sustentar aplicações essenciais de missão crítica.

O TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo a arquitetura de dados.

DAMA-DMBOK 2

A DAMA International, fundada originalmente como Data Management Association International, é uma organização sem fins lucrativos dedicada ao avanço do gerenciamento de dados e informações. O seu Data Management Body of Knowledge, o DAMA-DMBOK 2, abrange arquitetura de dados, governança e ética, modelagem e design de dados, armazenamento, segurança e integração.

Zachman Framework for Enterprise Architecture

Desenvolvido originalmente por John Zachman na IBM em 1987, esse framework usa uma matriz de seis camadas, do contexto ao detalhe, mapeadas contra seis perguntas, por quê, como, o quê, entre outras. Ele fornece uma forma formal de organizar e analisar dados, mas não inclui métodos de execução.

Tipos de arquiteturas de dados e componentes subjacentes

Uma arquitetura de dados oferece uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham em conjunto. Isso engloba várias plataformas de dados e repositórios de armazenamento de dados, como data lakes, data warehouses, data marts, bancos de dados e muito mais.

Juntas, essas soluções podem criar arquiteturas de dados, como malha de dados e data meshes, que ganham cada vez mais popularidade. Essas arquiteturas destacam os dados como produtos, promovendo maior padronização de metadados e maior democratização de dados em toda a organização por meio de interface de programação de aplicativos (APIs).

A próxima seção aprofunda cada um desses componentes de armazenamento e tipos de arquitetura de dados:

Tipos de sistemas de gerenciamento de dados

Data warehouses
 

Um data warehouse agrega dados de diferentes fontes relacionais em toda a empresa em um único repositório central e consistente. Após a extração, os dados passam por um processo de extração, transformação e carregamento (ETL) em um pipeline de dados, passando por diversas transformações de dados para atender ao modelo de dados predefinido. Quando entram no sistema de armazenamento de dados, os dados passam a sustentar diferentes aplicações de business intelligence (BI) e de ciência de dados.

Data mart
 

Um data mart é uma versão mais direcionada de um data warehouse, com um subconjunto reduzido de dados importantes para uma única equipe ou um grupo específico de stakeholders, como o setor de RH. Como contêm um subconjunto menor de dados, os data marts permitem que um departamento ou unidade de negócios obtenha insights mais específicos e com maior agilidade do que ao utilizar o conjunto completo do data warehouse.

Os data marts surgiram originalmente como resposta às dificuldades que as organizações enfrentavam para configurar data warehouses na década de 1990. A integração de dados de toda a organização naquela época exigia vários esforços de codificação manual e consumia muito tempo. O escopo mais limitado dos data marts os tornou mais simples e rápidos de implementar do que os data warehouses centralizados.

Data lakes
 

Enquanto os data warehouses armazenam dados processados, um data lake armazena dados brutos, geralmente em volumes de petabytes. Um data lake pode armazenar dados estruturados e não estruturados, o que o torna exclusivo de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é útil para analistas de dados, cientistas de dados, engenheiros de dados e desenvolvedores, permitindo acesso a dados para exercícios de descoberta de dados e projetos de aprendizado de máquina (ML).

Os data lakes foram criados originalmente como resposta à incapacidade do data warehouse de lidar com o crescimento do volume, da velocidade e da variedade do big data. Embora os data lakes sejam mais lentos que os data warehouses, eles também são mais baratos, pois exigem pouca ou nenhuma preparação dos dados antes da ingestão. Atualmente, eles continuam a evoluir como parte dos esforços de migração de dados para a nuvem.

Os data lakes atendem a uma ampla variedade de casos de uso, pois os objetivos de negócio para os dados não precisam estar definidos no momento da coleta. No entanto, dois casos de uso principais incluem a exploração em ciência de dados e os esforços de backup e recuperação de dados.

Cientistas de dados podem usar os data lakes para provas de conceito. As aplicações de aprendizado de máquina se beneficiam da capacidade de armazenar dados estruturados e não estruturados no mesmo lugar, o que não é possível com um sistema de banco de dados relacional.

Os data lakes também podem ser usados para testar e desenvolver projetos de análise de big data. Quando a aplicação é desenvolvida e os dados úteis são identificados, é possível exportar os dados para um data warehouse para uso operacional e utilizar automação para fazer a aplicação escalar.

Os data lakes também podem ser usados para backup e recuperação de dados, graças à sua capacidade de escalar com baixo custo. Pelas mesmas razões, os data lakes são úteis para armazenar dados “por precaução”, cujas necessidades de negócio ainda não foram definidas. Armazenar os dados agora garante sua disponibilidade futura, conforme surgem novas iniciativas.

Data lakehouses

Um data lakehouse é uma plataforma de dados que mescla aspectos de data warehouses e data lakes em uma solução de gerenciamento de dados.

Um lakehouse combina armazenamento de baixo custo com um mecanismo de consulta de alto desempenho e governança inteligente de metadados. Isso permite que as organizações armazenem grandes volumes de dados estruturados e não estruturados e usem esses dados com facilidade em esforços de IA, aprendizado de máquina e análise de dados.

Bancos de dados

Um banco de dados é o repositório digital básico para armazenar, gerenciar e proteger dados. Tipos de bancos de dados diferentes armazenam dados de maneiras diferentes. Por exemplo, bancos de dados relacionais (também chamados de "bancos de dados SQL") armazenam dados em tabelas definidas com linhas e colunas. Bancos de dados não relacionais (também chamados de bancos de dados " NoSQL") podem armazená-los como várias estruturas de dados, incluindo pares de valores-chave ou gráficos.

Tipos de arquiteturas de dados

Malha de dados
 

malha de dados é uma arquitetura que foca na automação da integração de dados, engenharia de dados e governança na cadeia de valor dos dados entre fornecedores e consumidores.

Uma malha de dados se baseia no conceito de “metadados ativos” que utilizam catálogos de dados, gráficos de conhecimento, semântica, mineração de dados e tecnologia de aprendizado de máquina para descobrir padrões em diferentes tipos de metadados (por exemplo, logs de sistema, redes sociais e outros). Em seguida, aplica esse insight para automatizar e orquestrar a cadeia de valor dos dados.

Por exemplo, uma malha de dados pode permitir que um consumidor de dados encontre um produto de dados e o receba automaticamente. O aumento no acesso aos dados entre produtos e consumidores de dados reduz os silos e oferece uma visão mais completa dos dados da organização.

As malhas de dados são uma tecnologia emergente com enorme potencial. Eles podem ser usados para aprimorar o perfil do cliente, a detecção de fraudes e a manutenção preventiva. Segundo a Gartner, as malhas de dados reduzem o tempo de design da integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.

Data meshes
 

Uma malha de dados é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios.

Usando uma data mesh, a organização precisa parar de pensar nos dados como um subproduto de um processo e começar a pensar neles como um produto por si só. Os produtores de dados atuam como proprietários dos produtos de dados. Como especialistas no assunto, os produtores de dados usam seu conhecimento sobre os principais consumidores desses dados para criar APIs específicas para eles. Outros setores da organização também podem acessar essas APIs, o que amplia o acesso aos dados gerenciados.

Sistemas de armazenamento mais tradicionais, como data lakes e data warehouses, funcionam como repositórios de dados descentralizados que viabilizam a aplicação de um data mesh. O data mesh também pode operar em conjunto com a malha de dados, cuja automação acelera a criação de novos produtos de dados e garante a aplicação da governança global.

Benefícios das arquiteturas de dados

Uma arquitetura de dados bem estruturada oferece diversos benefícios essenciais para as empresas, como:

  • Reduzindo a redundância
  • Melhorando a qualidade dos dados
  • Possibilitando a integração
  • Gerenciamento do ciclo de vida dos dados

Redução da redundância
 

Podem existir campos de dados redundantes entre diferentes fontes, o que gera risco de inconsistências, imprecisões e perda de oportunidades de integração de dados. Uma boa arquitetura de dados padroniza o armazenamento e pode reduzir duplicações, promovendo mais qualidade e análises integradas.

Melhorando a qualidade de dados
 

Arquiteturas de dados bem planejadas ajudam a resolver problemas comuns em data lakes mal gerenciados, conhecidos como “data swamps”. Um data swamp não segue padrões adequados nem práticas de qualidade e gestão de dados, dificultando a geração de insights.

Arquiteturas de dados fortalecem os padrões de governança e segurança, garantindo o controle adequado dos fluxos de dados. Ao melhorar a qualidade e a governança de dados, as arquiteturas de dados podem ajudar a garantir que os dados sejam armazenados de uma forma que os torne úteis agora e no futuro.

Habilitando a integração
 

Os dados geralmente ficam isolados devido a limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais visam facilitar a integração de dados entre domínios, para que diferentes regiões geográficas e funções de negócios tenham acesso aos dados umas das outras. Isso leva a uma compreensão melhor e mais consistente de métricas comuns, como despesas, receitas e seus respectivos fatores. Ele também permite uma visão mais holística de clientes, produtos e regiões geográficas para informar a tomada de decisões baseada em dados.

Gerenciamento do ciclo de vida dos dados
 

Uma arquitetura de dados moderna pode lidar com como os dados são gerenciados ao longo do tempo. Os dados geralmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Com o tempo, as equipes podem migrar os dados para tipos de armazenamento mais baratos e lentos, mantendo-os disponíveis para relatórios e auditorias, sem os custos do armazenamento de alto desempenho.

Arquitetura de dados moderna

À medida que constroem seus roteiros para as aplicações do futuro, incluindo IA, blockchain e cargas de trabalho de Internet das Coisas (IoT), as organizações precisam de uma arquitetura de dados moderna que atenda às exigências desses dados.

As principais características de uma arquitetura de dados moderna são:

  • Nativa da nuvem e compatível com a nuvem para que a arquitetura de dados aproveite a escalabilidade elástica e a alta disponibilidade da nuvem.

  • Pipelines de dados robustos, escaláveis e portáteis, que combinam fluxos de trabalho inteligentes, análises cognitivas e integração em tempo real em um único framework.

  • Integração de dados sem dificuldades, usando interfaces de API padrão para se conectar a aplicações legadas.

  • Ativação de dados em tempo real, incluindo validação, classificação, gerenciamento e controle.

  • Desacoplada e extensível, sem dependências entre os serviços, com padrões abertos que garantem a interoperabilidade.

  • Baseada em domínios de dados, eventos e microsserviços comuns.

  • Otimizada para equilibrar custo e simplicidade.
Soluções relacionadas
Software e soluções de bancos de dados

Use soluções de bancos de dados da IBM para atender a diversas necessidades de cargas de trabalho em toda a nuvem híbrida.

Explore as soluções de banco de dados
Banco de dados nativo da nuvem com o IBM Db2

Explore o IBM Db2, um banco de dados relacional que oferece alto desempenho, escalabilidade e confiabilidade para armazenar e gerenciar dados estruturados. Está disponível como SaaS no IBM Cloud ou para auto-hospedagem.

Descubra o Db2
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Use soluções de bancos de dados da IBM para atender a diversas necessidades de cargas de trabalho em toda a nuvem híbrida.

Explore as soluções de banco de dados Descubra o IBM Db2