O que é uma arquitetura de dados?
Descubra o que é uma arquitetura de dados e os componentes disponíveis para implementá-la
Conheça a plataforma empresarial de IA e dados
desenho isométrico mostrando diferentes membros de uma equipe de trabalho, todos usando IBM Security
O que é uma arquitetura de dados?

Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, a distribuição e o consumo . Ela define o plano para os dados e a maneira como eles irão fluir pelos sistemas de armazenamento de dados. Ela é fundamental para as operações de processamento de dados e aplicativos de inteligência artificial (IA).

O design de uma arquitetura de dados deve ser voltado para os requisitos de negócios, usados pelos arquitetos de dados e engenheiros de dados para definir o respectivo modelo de dados e as estruturas de dados básicas, que servirão de apoio. Esses projetos geralmente viabilizam uma necessidade de negócio, como uma iniciativa de criação de relatórios ou de ciência de dados.

À medida novo que novas fontes de dados surgem por meio de tecnologias emergentes, como a Internet das Coisas (IoT), uma boa arquitetura de dados garante que os dados sejam gerenciáveis e úteis, servindo de apoio ao gerenciamento do ciclo de vida de dados. Mais especificamente, ela pode evitar armazenamento de dados redundantes, melhorar a qualidade dos dados por meio de limpeza e deduplicação e possibilitar novos aplicativos. Arquiteturas de dados modernas também fornecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões geográficas, quebrando silos de dados sem a enorme complexidade decorrente de armazenar tudo no mesmo local.

Arquiteturas de dados modernas muitas vezes otimizam plataformas em cloud para gerenciamento e processamento de dados. Embora tenha maior custo, a escalabilidade de sua capacidade de computação possibilita que tarefas importantes de procesamento de dados sejam concluídas rapidamente. A escalabilidade de armazenamento também ajuda a lidar com o crescente volume de dados e para assegurar que todos os dados relevante estejam disponíveis para melhorar a qualidade dos aplicativos de treinamento de IA.

Modelos de dados conceituais vs lógicos vs físicos

A documentação da arquitetura de dados inclui três tipos de modelo de dados

  • Modelos de dados conceituais: Também conhecidos como modelos de domínio, oferecem uma visualização geral do conteúdo do sistema, como ele será organizado e quais regras de negócios estão envolvidas. Modelos conceituais são geralmente criados como parte do processo de coleta de requisitos iniciais do projeto. Geralmente incluem classes de entidade (definindo os itens importantes para a empresa representar no modelo de dados), suas características e restrições, os relacionamentos entre eles e a segurança e a integridade de dados necessária.
  •  Modelos de dados lógicos: São menos abstratos e fornecem maiores detalhes sobre os conceitos e relacionamentos no domínio sob consideração. Seguido por um de vários sistemas formais de notação de modelagem de dados. Estes indicam atributos de dados, como tipos de dados e seus respectivos comprimentos, além de indicar os relacionamentos entre as entidades. Os modelos de dados lógicos não especificam nenhum requisito técnico do sistema.
  • Modelos de dados físicos: São menos abstratos e fornecem maiores detalhes sobre os conceitos e relacionamentos no domínio sob consideração. Seguido por um de vários sistemas formais de notação de modelagem de dados. Estes indicam atributos de dados, como tipos de dados e seus respectivos comprimentos, além de indicar os relacionamentos entre as entidades. Os modelos de dados lógicos não especificam nenhum requisito técnico do sistema.
Estruturas conhecidas de arquitetura de dados

Uma arquitetura de dados pode ser desenvolvida a partir de estruturas de arquitetura empresarial conhecidas, incluindo TOGAF, DAMA-DMBOK 2 e a Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Esta metodologia de arquitetura empresarial foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é membro Platinum.

Existem quatro pilares na arquitetura:

  • Arquitetura de negócios, que define a estrutura organizacional, estratégia de negócios e processos da empresa.
  • Arquitetura de dados, que descreve os ativos de dados conceituais, lógicos e físicos e como são armazenado e gerenciados ao longo de seus ciclos de vida.
  • Arquitetura de aplicativos, que representa os sistemas de aplicativos e como se relacionam entre si e com os principais processos de negócios.
  • Arquitetura técnica, que descreve a infraestrutura de tecnologia (hardware, software e rede) necessária para suporte dos aplicativos críticos.

Sendo assim, TOGAF fornece uma estrutura completa para design e implementação da arquitetura de TI de uma empresa, incluindo sua arquitetura de dados.

DAMA-DMBOK 2

DAMA International, originalmente fundado como Data Management Association International, é uma organização sem fins lucrativos dedicada ao desenvolvimento do gerenciamento e dados e informações. O Data Management Body of Knowledge, DAMA-DMBOK 2, abrange arquitetura de dados, além de controle e ética, design e modelagem de dados, armazenamento, segurança e integração.

Zachman Framework for Enterprise Architecture

Desenvolvida originalmente por John Zachman na IBM em 1987, esta estrutura utiliza uma matriz de seis camadas de contextual a detalhada, mapeado de acordo com seis perguntas, como por que, como e o que. Ela oferece uma maneira formal para organizar e analisar dados, mas não inclui métodos para fazê-lo.

 

Tipos de arquiteturas de dados e componentes subjacentes

A arquitetura de dados demonstra uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham em conjunto. Isso inclui diversos repositórios diferentes de armazenamento de dados, como data lakes, data warehouses, data marts, bancos de dados, etc. Juntos, eles podem criar arquiteturas de dados, como data fabrics e data meshes, cada vez mais difundidas. Essas arquiteturas dão maior ênfase aos dados como produtos, criando uma padronização dos metadados e proporcionando maior democratização de dados por toda uma organização, por meio de APIs.

A seção a seguir detalha cada um desses tipos de componentes de armazenamento e de arquitetura de dados:

Tipos de sistemas de gerenciamento de dados

  • Data warehouses: Um data warehouse agrega dados de diferentes fontes de dados relacionais de uma empresa em único repositório, consistente e centralizado. Após a extração, os dados fluem por um pipeline de dados ETL, passando por diversas transformações para atender ao modelo de dados predefinido. Uma vez carregados no data warehouse, os dados são encarregados de apoiar diferentes aplicativos de inteligência de negócios (BI) e ciência de dados.
  • Data marts: Um data mart é uma versão centrada um data warehouse que contém um subconjunto menor de dados importantes e necessários para uma única equipe ou um grupo específico de usuários dentro de uma organização, como o departamento de RH. Por conter um subconjunto menor de dados, os data marts permitem que um departamento ou linha de negócios descubram insights especializados mais rapidamente em comparação com o conjunto mais amplo de dados de um data warehouse. Os data marts surgiram em resposta às dificuldades enfrentadas pelas organizações na configuração dos data warehouses na década de 1990. Naquela época, integrar dados de toda a organização exigia um grande volume de codificação manual, além de ser praticamente inviável. O escopo mais limitado dos data marts os tornava mais simples e rápidos de implementar do que os data warehouses centralizados.
  • Data Lakes: Enquanto os data warehouses armazenam dados processados, um data lake hospeda dados não processados, geralmente petabytes deles. Um data lake pode armazenar dados estruturados e não estruturados, o que o diferencia de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é particularmente útil para cientistas de dados, engenheiros de dados e desenvolvedores, permitindo que acessem dados para exercícios de descoberta de dados e projetos de aprendizado de máquina. Os data lakes foram criados como resposta à incapacidade dos data warehouses em lidar com o aumento no volume, velocidade e variedade de big data. Embora os data lakes sejam mais lentos que os data warehouses, eles também são mais baratos, pois há pouca ou nenhuma preparação de dados antes da ingestão. Atualmente, eles continuam a evoluir parte dos esforços de migração para a cloud. Data lakes ofecerem suporte a diversos casos de uso, uma vez que os objetivos de negócios dos dados não precisam ser definidos no momento da coleta de dados. No entanto, dois dos principais incluem a exploração para ciência de dados e esforços de backup e recuperação. Os cientistas de dados podem usar data lakes para provas de conceitos. Aplicativos de aprendizado de máquina podem aproveitar a capacidade de armazenamento de dados estruturados e não estruturados no mesmo local, o que não é possível com um sistema de banco de dados relacional. Data lakes também podem ser usados para testar e desenvolver projetos de análise de Big Data. Quando o aplicativo tiver sido desenvolvido e os dados úteis identificados, os dados poderão ser exportados para um data warehouse para uso opercional; além disso, é possível usar automização para ajustar a escala do aplicativo. Data lakes também podem ser usados para backup e recuperação de dados, graças à sua capacidade de ajustar escala com baixo custo. Pelas mesmas razões, os data lakes são bons para armazenar dados nos casos em que as necessidade de negócios ainda não tenham sido definidas. Armazenar os dados agora significa que estarão disponíveis posteriormente, à medida que novas iniciativas surgirem.

Tipos de arquiteturas de dados

Data fabric: Uma data fabric é uma arquitetura que se concentra na automação de integração de dados, engenharia de dados e controle em uma cadeia de valor de dados entre fornecedores e consumidores de dados. Um exemplo de data fabric é baseado na noção de "metadados ativos", que utiliza conhecimento gráfico, semântica, mineração de dados e tecnologia de aprendizado de máquina (ML) para descobrir padrões em vários tipos de metadados (por exemplo, logs de sistema, redes sociais, etc.). Em seguida, ela aplica esse insight para automatizar e orquestrar a cadeia de valor de dados. Por exemplo, ela pode permitir que um consumidor de dados encontre um produto de dados e fornecer esse produto automaticamente a ele. O aumento do acesso a dados entre produtos de dados e consumidores de dados leva a uma redução nos silos de dados e proporciona uma visão mais completa dos dados da organização. Data fabrics são uma tecnologia emergente, com enorme potencial, e podem ser usadas para melhorar a definição de perfil de clientes, detecção de fraudes e a manutenção preventiva.  De acordo com a Gartner, as data fabrics reduzem o tempo de design de integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.

Data meshes: Uma data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios. Ao utilizar uma data mesh, a organização não deve pensar nos dados como subproduto de um processo e sim como um produto por si só. Produtores de dados agem como proprietários de produtos de dados. Como especialistas no assunto, os produtores de dados podem usar seu entendimento dos principais consumidores de dados para criar APIs para esse público. Essas APIs também podem ser acessadas de outras partes da organização, fornecendo acesso mais amplos aos dados gerenciados .

Sistemas mais tradicionais de armazenamento, como data lakes e data warehouses, podem ser utilizados como diversos repositórios de dados descentralizados para compor uma data mesh. Uma data mesh também pode trabalhar em conjunto com uma data fabric, com a automação da data fabric permitindo que novos produtos de dados sejam criados mais rapidamente ou reforçando o controle global.

 

Tipos de arquiteturas de dados

Uma arquitetura de dados bem construída pode oferecer às empresas diversos benefícios essenciais, que incluem:

  • Redução na redundância: É possível que exista campos de dados sobrepostos em diferentes fontes, resultando no risco de inconsistência, imprecisões de dados e oportunidades perdidas de integração de dados. Uma boa arquitetura de dados pode padronizar como os dados são armazenados e potencialmente reduzir a duplicação, possibilitando melhor qualidade e análises abrangentes.
  • Melhoria da qualidade de dados: Arquiteturas de dados bem projetadas podem resolver alguns dos desafios de data lakes mal gerenciados, conhecidos como "data swamps". Um data swamp não possui as práticas adequadas de qualidade e controle de dados para proporcionar aprendizado detalhado. As arquiteturas de dados podem ajudar a cumprir os padrões de controle e de segurança de dados, permitindo a supervisão necessário do pipeline de dados para que ele funcione conforme esperado. Ao melhorar a qualidade e o controle dos dados, as arquiteturas de dados podem assegurar que os dados sejam armazenados de uma maneira que sejam úteis agora e no futuro.
  • Habilitando integração: Os dados têm sido frequentemente isolados, como resultado de limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais devem ter como objetivo facilitar a integração de dados entre domínios, de modo que diferentes regiões geográficas e funções de negócios tenham acesso aos dados uns dos outros. Isso leva a um entendimento melhor e mais consistente das métricas comuns (como despesas, receita e seus impulsionadores associados). Isso também possibilita uma visualização abrangente dos clientes, produtos e regiões geográficas para proporcionar melhor tomada de decisões.
  • Gerenciamento do ciclo de vida de dados: Uma arquitetura de dados moderna pode abordar como os dados são gerenciados ao longo do tempo. Os dados normalmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Ao longo do tempo, os dados podem ser migrados para tipos de armazenamento mais baratos e mais lentos para que permaneçam disponíveis para relatórios e auditorias, mas sem a despesa necessária para armazenamento de alto desempenho.
Arquitetura de dados moderna

Conforme as organizações desenvolvem seus roadmaps para os aplicativos do amanhã, incluindo cargas de trabalho de IA, blockchain e Internet das Coisas (IoT), elas precisam de uma arquitetura de dados moderna que possa suportar os requisitos de dados.

As sete principais características de uma arquitetura de dados moderna são:

  • Nativo na cloud e compatível com a cloud, para que a arquitetura de dados se beneficie escalabilidade flexível e da alta disponibilidade da cloud.
  • Pipelines de dados robustos, escaláveis e portáteis que combinam fluxos de trabalho inteligentes, análise cognitiva e integração em tempo real em uma única estrutura.
  • Integração uniforme dos dados, usando interfaces de API padrão para conectar-se a aplicativos antigos.
  • Capacitação de dados em tempo real, incluindo validação, classificação, gerenciamento e controle.
  • Desacoplada e extensível, para que não haja dependências entre serviços e para que padrões abertos permitam interoperabilidade.
  • Baseada em domínios de dados, eventos e microsserviços comuns.
  • Otimizada para equilibrar custo e simplicidade.
Soluções IBM
IBM Cloud Pak for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análise de dados, em qualquer cloud.

Conheça o IBM Cloud Pak for Data
IBM watsonx

O watsonx é uma plataforma de IA e dados com três componentes principais e um conjunto de assistentes de IA desenvolvidos para ajudar você a escalar e acelerar o impacto da IA com dados confiáveis em toda a empresa.

Conheça o watsonx
IBM® Db2® on Cloud

Conheça o Db2 on Cloud, um banco de dados SQL em cloud totalmente gerenciado, configurado e otimizado para desempenho robusto.

Conheça o IBM Db2 on Cloud
Dê o próximo passo

Conheça os três componentes (ai, data e governance) da plataforma watsonx. Escolha um ou mais componentes e personalize sua solução de IA de acordo com o seu caso de uso e requisitos específicos do seu negócio

Explore a plataforma de IA e dados