Início

topics

Arquitetura de dados

O que é arquitetura de dados?
Conheça a plataforma empresarial de IA e dados
desenho isométrico mostrando diferentes membros de uma equipe de trabalho, todos usando IBM Security
O que é arquitetura de dados?

Uma arquitetura de dados descreve como os dados são gerenciados, desde a coleta até a transformação, distribuição e consumo. Ela define o blueprint dos dados e a forma como eles fluem pelos sistemas de armazenamento de dados. É fundamental para operações de processamento de dados e aplicações de inteligência artificial (IA).

O projeto de uma arquitetura de dados deve ser orientado por requisitos de negócios, que arquitetos de dados e engenheiros de dados usam para definir o respectivo modelo de dados e as estruturas de dados subjacentes que o suportam. Esses projetos normalmente facilitam uma necessidade de negócios, como uma iniciativa de geração de relatórios ou de ciência de dados.

À medida que surgem novas fontes de dados por meio de tecnologias emergentes, como a Internet das coisas (IoT), uma boa arquitetura de dados garante que os dados sejam gerenciáveis e úteis, suportando o gerenciamento do ciclo de vida dos dados. Mais especificamente, ela pode evitar o armazenamento redundante de dados, melhorar a qualidade dos dados por meio de limpeza e eliminação de duplicação e habilitar novas aplicações. As arquiteturas de dados modernas também fornecem mecanismos para integrar dados entre domínios, como entre departamentos ou regiões, eliminando silos de dados sem a enorme complexidade de armazenar tudo em um só lugar.

As arquiteturas de dados modernas geralmente aproveitam as plataformas de nuvem para gerenciar e processar dados. Embora possa ser mais caro, sua escalabilidade de computação permite que tarefas importantes de processamento de dados sejam concluídas rapidamente. A escalabilidade do armazenamento também ajuda a lidar com o aumento do volume de dados e a garantir que todos os dados relevantes estejam disponíveis para melhorar a qualidade do treinamento de aplicações de IA.

Crie fluxos de trabalho de IA responsáveis com controle de IA

Aprenda os fundamentos e as melhores práticas para ajudar suas equipes a acelerar a IA responsável.

Conteúdo relacionado Registre-se para receber o ebook sobre IA generativa
Modelos de dados conceituais versus lógicos versus físicos

A documentação de arquitetura de dados inclui três tipos de modelos de dados:

  • Modelos de dados conceituais: também chamados de modelos de domínio, oferecem uma visão geral do que o sistema conterá, como ele será organizado e quais business rules estão envolvidas. Os modelos conceituais geralmente são criados como parte do processo de coleta dos requisitos iniciais do projeto. Normalmente, elas incluem classes de entidades (definindo os tipos de coisas que são importantes para a empresa representar no modelo de dados), suas características e restrições, os relacionamentos entre elas e os requisitos relevantes de segurança e integridade de dados.
  •  Modelos de dados lógicos: são menos abstratos e fornecem mais detalhes sobre os conceitos e as relações no domínio em questão. Um dos vários sistemas formais de notação de modelagem de dados é seguido. Indicam atributos de dados, como tipos de dados e seus comprimentos correspondentes, e mostram os relacionamentos entre as entidades. Os modelos de dados lógicos não especificam nenhum requisito técnico do sistema.
  • Modelos de dados físicos: o modelo de dados físicos é o mais detalhado e específico dos três. Ele define a implementação real do banco de dados, incluindo estruturas de tabelas, índices, armazenamento e considerações de desempenho. Ele se concentra nos aspectos técnicos de como os dados serão armazenados e acessados, e é usado para criação e otimização de esquemas de bancos de dados.
Frameworks populares de arquitetura de dados             

Uma arquitetura de dados pode se basear em frameworks populares de arquitetura corporativa, incluindo TOGAF, DAMA-DMBOK 2 e Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Essa metodologia de arquitetura corporativa foi desenvolvida em 1995 pelo The Open Group, do qual a IBM é Membro Platinum.

Existem quatro pilares na arquitetura:

  • Arquitetura de negócios, que define a estrutura organizacional, a estratégia de negócios e os processos da empresa.
  • Arquitetura de dados, que descreve os ativos de dados conceituais, lógicos e físicos e como eles são armazenados e gerenciados durante todo o ciclo de vida.
  • Arquitetura de aplicações, que representa os sistemas de aplicações e como eles se relacionam com os principais processos de negócios e entre si.
  • Arquitetura técnica, que descreve a infraestrutura de tecnologia (hardware, software e rede) necessária para dar suporte a aplicações de missão crítica.

Dessa forma, o TOGAF fornece um framework completo para projetar e implementar a arquitetura de TI de uma empresa, incluindo sua arquitetura de dados.

DAMA-DMBOK 2

A DAMA International, originalmente fundada como Data Management Association International, é uma organização sem fins lucrativos dedicada a aprimorar o gerenciamento de dados e informações. Seu Corpo de Conhecimento de Gerenciamento de Dados, DAMA-DOMBOK 2, abrange arquitetura de dados, bem como governança e ética, modelagem e projeto de dados, armazenamento, segurança e integração.

Zachman Framework for Enterprise Architecture

Originalmente desenvolvido por John Zachman na IBM em 1987, esse framework utiliza uma matriz de seis camadas, da contextual à detalhada, mapeadas em relação a seis perguntas, como por que, como e o quê. Ele fornece uma maneira formal de organizar e analisar dados, mas não inclui métodos para fazer isso.

 

Tipos de arquiteturas de dados e componentes subjacentes

Uma arquitetura de dados demonstra uma perspectiva de alto nível de como diferentes sistemas de gerenciamento de dados trabalham juntos. Isso inclui vários repositórios de armazenamento de dados diferentes, como data lakes, data warehouses, data marts, bancos de dados etc. Juntos, eles podem criar arquiteturas de dados, como tecidos de dados e malhas de dados, que estão crescendo cada vez mais em popularidade. Essas arquiteturas colocam mais foco nos dados como produtos, criando mais padronização em relação aos metadados e mais democratização dos dados nas organizações por meio de APIs.

A seção a seguir se aprofunda em cada um desses componentes de armazenamento e tipos de arquitetura de dados:

Tipos de sistemas de gerenciamento de dados

  • Data warehouses: um data warehouse agrega dados de diferentes fontes de dados relacionais em uma empresa em um repositório único, central e consistente. Após a extração, os dados fluem por um pipeline de dados ETL, passando por várias transformações de dados para atender ao modelo de dados predefinido. Depois de carregados no data warehouse, os dados ficam para dar suporte a diferentes aplicações de business intelligence (BI) e ciência de dados.
  • Data marts: um data mart é uma versão focada de um data warehouse que contém um subconjunto menor de dados importantes e necessários para uma única equipe ou um grupo seleto de usuários dentro de uma organização, como o departamento de RH. Como contêm um subconjunto menor de dados, os data marts permitem que um departamento ou linha de negócios descubra insights mais focados mais rapidamente do que seria possível ao trabalhar com o conjunto de dados mais amplo do data warehouse. Os data marts surgiram originalmente em resposta às dificuldades que as organizações tinham para configurar data warehouses na década de 1990. A integração de dados de toda a organização naquela época exigia muita programação manual e consumia um tempo impraticável. O escopo mais limitado dos data marts tornou-os mais fáceis e rápidos de implementar do que os data warehouses centralizados.
  • Data lakes: enquanto os data warehouses armazenam dados processados, um data lake abriga dados brutos, geralmente petabytes deles. Um data lake pode armazenar dados estruturados e não estruturados, o que o torna exclusivo de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é especialmente útil para cientistas de dados, engenheiros de dados e desenvolvedores, permitindo que acessem dados para exercícios de descoberta de dados e projetos de aprendizado de máquina. Os data lakes foram originalmente criados como uma resposta à falha do data warehouse em lidar com o crescente volume, velocidade e variedade de big data. Embora os data lakes sejam mais lentos que data warehouses, eles também são mais baratos, pois há pouca ou nenhuma preparação de dados antes da ingestão. Hoje, eles continuam a evoluir como parte dos esforços de migração de dados para a nuvem. Os data lakes são compatíveis com uma ampla gama de casos de uso, pois os objetivos de negócios para os dados não precisam ser definidos no momento da coleta de dados. No entanto, os dois principais incluem a exploração da ciência de dados e os esforços de backup e recuperação de dados. Cientistas de dados podem usar data lakes para provas de conceito. As aplicações de aprendizado de máquina se beneficiam da capacidade de armazenar dados estruturados e não estruturados no mesmo local, o que não é possível utilizando um sistema de banco de dados relacional. Os data lakes também podem ser usados para testar e desenvolver projetos de análise de big data. Quando a aplicação tiver sido desenvolvida e os dados úteis tiverem sido identificados, os dados poderão ser exportados para um data warehouse para uso operacional, e a automação poderá ser usada para escalar a aplicação. Os data lakes também podem ser utilizados para backup e recuperação de dados, devido à sua capacidade de escalar a um baixo custo. Pelas mesmas razões, data lakes são bons para armazenar dados "just in case", para os quais as necessidades de negócios ainda não foram definidas. Armazenar os dados agora significa que eles estarão disponíveis posteriormente, à medida que novas iniciativas surgirem.

Tipos de arquiteturas de dados

Malha de dados: uma malha de dados é uma arquitetura focada na automação da integração de dados, engenharia de dados e governança em uma cadeia de valor de dados entre provedores e consumidores de dados. Uma malha de dados é baseada na noção de "metadados ativos", que utiliza gráficos de conhecimento, semântica, mineração de dados e tecnologia de aprendizado de máquina (ML) para descobrir padrões em vários tipos de metadados (por exemplo, logs do sistema, redes sociais etc.). Em seguida, aplica esses insights para automatizar e orquestrar a cadeia de valor dos dados. Por exemplo, ela pode permitir que um consumidor de dados encontre um produto de dados e tenha esse produto de dados provisionado automaticamente. O aumento do acesso a dados entre os produtos de dados e os consumidores de dados leva a uma redução nos silos de dados e fornece uma visão mais completa dos dados da organização. Malhas de dados é uma tecnologia emergente com enorme potencial e pode ser usada para aprimorar a criação de perfis de clientes, a detecção de fraude e a manutenção preventiva.  De acordo com a Gartner, as malhas de dados reduzem o tempo de design da integração em 30%, o tempo de implementação em 30% e a manutenção em 70%.

Data mesh: uma data mesh é uma arquitetura de dados descentralizada que organiza dados por domínio de negócios. Usando uma data mesh, a organização precisa parar de pensar nos dados como um subproduto de um processo e começar a pensar neles como um produto por si só. Os produtores de dados atuam como proprietários dos produtos de dados. Como especialistas no assunto, os produtores de dados podem usar seu entendimento sobre os consumidores primários de dados para projetar APIs para eles. Essas APIs também podem ser acessadas de outras partes da organização, proporcionando acesso mais amplo aos dados gerenciados.

Sistemas de armazenamento mais tradicionais, como data lakes e data warehouses, podem ser usados como vários repositórios de dados descentralizados para criar uma data mesh. Uma data mesh também pode funcionar com um data fabric, com a automação do data fabric permitindo que novos produtos de dados sejam criados mais rapidamente ou impondo governança global.

 

Benefícios das arquiteturas de dados

Uma arquitetura de dados bem construída pode oferecer às empresas vários benefícios importantes, que incluem:

  • Redução da redundância: pode haver campos de dados sobrepostos em diferentes fontes, resultando no risco de inconsistências, imprecisões de dados e oportunidades perdidas de integração de dados. Uma boa arquitetura de dados pode padronizar a forma como os dados são armazenados, podendo reduzir a duplicação e permitindo análises holísticas e de melhor qualidade.
  • Melhoria da qualidade de dados: arquiteturas de dados bem projetadas podem resolver alguns dos desafios dos data lakes mal gerenciados, também conhecidos como "pântanos de dados". Um pântano de dados carece de práticas adequadas de qualidade e governança de dados para fornecer aprendizados perspicazes. As arquiteturas de dados podem ajudar a aplicar os padrões de governança e segurança de dados, permitindo que a supervisão adequada do pipeline de dados opere conforme o esperado. Ao melhorar a qualidade e a governança de dados, as arquiteturas de dados podem garantir que os dados sejam armazenados de uma forma que os torne úteis agora e no futuro.
  • Permitindo a integração: os dados geralmente ficam isolados, devido a limitações técnicas no armazenamento de dados e barreiras organizacionais dentro da empresa. As arquiteturas de dados atuais devem ter como objetivo facilitar a integração de dados entre domínios, para que diferentes regiões geográficas e funções de negócios tenham acesso aos dados umas das outras. Isso leva a uma compreensão melhor e mais consistente de métricas comuns (como despesas, receitas e seus motivadores associados). Também permite uma visão mais holística de clientes, produtos e regiões geográficas, para melhor embasar a tomada de decisões.
  • Gerenciamento do ciclo de vida dos dados: uma arquitetura de dados moderna pode lidar com como os dados são gerenciados ao longo do tempo. Os dados geralmente se tornam menos úteis à medida que envelhecem e são acessados com menos frequência. Com o tempo, os dados podem ser migrados para tipos de armazenamento mais baratos e lentos, para que permaneçam disponíveis para relatórios e auditorias, mas sem o custo de armazenamento de alto desempenho.
Arquitetura de dados moderna

Enquanto as organizações constroem o roteiro para as aplicações do futuro – incluindo cargas de trabalho de IA, blockchain e Internet das coisas (IoT) – elas precisam de uma arquitetura de dados moderna que possa atender aos requisitos de dados.

As sete principais características de uma arquitetura de dados moderna são:

  • Nativa e habilitada para a nuvem, para que a arquitetura de dados possa se beneficiar do dimensionamento elástico e da alta disponibilidade da nuvem.
  • Pipelines de dados robustos, escaláveis e portáteis, que combinam fluxos de trabalho inteligentes, análises cognitivas e integração em tempo real em uma única framework.
  • Integração de dados sem dificuldades, usando interfaces de API padrão para se conectar a aplicações legadas.
  • Ativação de dados em tempo real, incluindo validação, classificação, gerenciamento e controle.
  • Desacoplada e extensível; portanto, não há dependências entre os serviços, e os padrões abertos permitem a interoperabilidade.
  • Baseada em domínios de dados, eventos e microsserviços comuns.
  • Otimizada para equilibrar custo e simplicidade.
Soluções IBM
IBM Cloud Pak for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análises, em qualquer nuvem.

Conheça o IBM Cloud Pak for Data
IBM watsonx

O watsonx é uma plataforma de IA e dados com três componentes principais e um conjunto de assistentes de IA desenvolvidos para ajudar você a escalar e acelerar o impacto da IA com dados confiáveis em toda a empresa.

Conheça o watsonx
IBM Db2 on Cloud

Saiba mais sobre o Db2 on Cloud, um cloud database SQL totalmente gerenciado, configurado e otimizado para um desempenho robusto.

Explore o IBM Db2 na nuvem
Recursos Crie uma base de dados sólida para IA

Leia o smartpaper sobre como criar uma base de dados robusta para IA, concentrando-se em três áreas principais de gerenciamento de dados: acesso, governança, privacidade e conformidade.

Leia o relatório do IBV

A malha de dados pode ajudar as empresas que investem em IA, aprendizado de máquina, Internet das coisas e edge computing a obter mais valor de seus dados.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real