O que é modelagem de dados?
Descubra como a modelagem de dados usa a abstração para representar e entender melhor a natureza do fluxo de dados dentro de um sistema de informações corporativas
plano de fundo azul e preto
O que é modelagem de dados?

A modelagem de dados é o processo de criação de uma representação visual de um sistema de informação inteiro ou de partes dele para comunicar conexões entre pontos de dados e estruturas. O objetivo é ilustrar os tipos de dados usados e armazenados no sistema, os relacionamentos entre eles, as formas como os dados podem ser agrupados e organizados e os respectivos formatos e atributos.

Os modelos de dados são criados com base em necessidades de negócios. Regras e requisitos são definidos antecipadamente por meio de feedback das partes interessadas nos negócios, para serem incorporados ao design de um novo sistema ou adaptados na iteração de um existente.

É possível modelar os dados em diversos níveis de abstração. O processo começa com a coleta de informações sobre os requisitos de negócios das partes interessadas e dos usuários finais. Em seguida, essas regras de negócios são traduzidas em estruturas de dados para formular um design de banco de dados concreto. Um modelo de dados pode ser comparado a um roteiro, uma planta de um arquiteto ou qualquer diagrama formal que facilite uma compreensão mais profunda do que está sendo elaborado.

A modelagem de dados emprega esquemas padronizados e técnicas formais. Isso fornece uma maneira comum, consistente e previsível de definir e gerenciar recursos de dados em uma organização ou até mesmo fora dela.

Idealmente, os modelos de dados são documentos dinâmicos que evoluem de acordo com as mudanças nas necessidades de negócios. Eles desempenham um papel importante no suporte aos processos de negócios e no planejamento da arquitetura e da estratégia de TI. Os modelos de dados podem ser compartilhados com fornecedores, parceiros e/ou colegas do mercado.

Tipos de modelos de dados

Como qualquer processo de design, o design de bancos de dados e sistemas de informação começa em um alto nível de abstração e se torna cada vez mais concreto e específico. Os modelos de dados geralmente podem ser divididos em três categorias, que variam de acordo com o grau de abstração. O processo começa com um modelo conceitual, progride para um modelo lógico e é concluído com um modelo físico. Cada tipo de modelo de dados é discutido em mais detalhes abaixo:

  • Modelos de dados conceituais. Também são chamados de modelos de domínio e oferecem uma visão geral do que o sistema conterá, como ele será organizado e quais regras de negócios estão envolvidas. Esse tipo de modelo geralmente é criado como parte do processo de coleta de requisitos iniciais do projeto. Geralmente, ele inclui classes de entidade (que definem os itens importantes que devem ser representados pela empresa no modelo de dados), as características e restrições deles, os relacionamentos entre eles e os requisitos relevantes de segurança e integridade de dados. Normalmente, qualquer tipo de notação será simples.

     

  • Modelos de dados lógicos. São menos abstratos e fornecem mais detalhes sobre os conceitos e os relacionamentos no domínio em consideração. É seguido um dos vários sistemas formais de notação de modelagem de dados. Estes indicam atributos de dados, como tipos de dados e seus respectivos comprimentos, além de indicar os relacionamentos entre as entidades. Os modelos de dados lógicos não especificam requisitos técnicos do sistema. Esse estágio é frequentemente omitido em práticas Agile ou de  DevOps . Os modelos de dados lógicos podem ser úteis em ambientes de implementação com muitos processos ou projetos orientados a dados por natureza, como o design de  data warehouses  ou o desenvolvimento de sistemas de relatórios.

     

  • Modelos de dados físicos. Fornecem  um esquema sobre como os dados serão armazenados fisicamente em um banco de dados. Devido a isso, são os menos abstratos. Eles oferecem um design finalizado que pode ser implementado como um  banco de dados relacional, incluindo tabelas associativas que ilustram os relacionamentos entre entidades, bem como as chaves primárias e estrangeiras que serão usadas para mantê-los. Os modelos de dados físicos podem incluir propriedades específicas do sistema de gerenciamento de banco de dados (DBMS), como o ajuste de desempenho.
Processo de modelagem de dados

Como disciplina, a modelagem de dados convida as partes interessadas a avaliar o processamento e o armazenamento de dados em detalhes minuciosos. As técnicas de modelagem de dados têm diferentes convenções que determinam quais símbolos são usados para representar os dados, como os modelos são dispostos e como os requisitos de negócios são transmitidos. Todas as abordagens fornecem fluxos de trabalho formalizados que incluem uma sequência de tarefas a serem executadas de maneira iterativa. Geralmente, esses fluxos de trabalho são semelhantes ao seguinte:

  1. Identificação das entidades. O processo de modelagem de dados começa com a identificação dos itens, eventos ou conceitos representados no conjunto de dados que será modelado. Cada entidade deve ser coesa e logicamente distinta de todas as outras.
  2. Identificação das principais propriedades de cada entidade. Cada tipo de entidade pode ser diferenciado de todos os outros porque possui uma ou mais propriedades únicas, chamadas de atributos. Por exemplo, uma entidade chamada "cliente" pode possuir atributos como nome, sobrenome, número de telefone e saudação, enquanto uma entidade chamada "endereço" pode incluir um nome e número de rua, cidade, estado, país e código postal.
  3. Identificar relacionamentos entre entidades. O rascunho mais antigo de um modelo de dados especificará a natureza dos relacionamentos que cada entidade tem com as outras. No exemplo acima, cada cliente "mora em" um endereço. Se esse modelo fosse expandido para incluir uma entidade chamada "pedidos", cada pedido também seria enviado e cobrado em um endereço. Esses relacionamentos geralmente são documentados por meio da linguagem de modelagem unificada (UML).
  4. Mapear atributos para entidades completamente. Isso garantirá que o modelo reflita o uso dos dados pela empresa. Diversos padrões formais de modelagem de dados são usados de maneira generalizada. Os desenvolvedores orientados a objetos normalmente aplicam padrões de análise ou de design, enquanto as partes interessadas de outros domínios de negócios podem recorrer a outros padrões.
  5. Atribua chaves conforme necessário e decida sobre um grau de normalização que equilibre a necessidade de reduzir a redundância com os requisitos de desempenho. A normalização é uma técnica de organização de modelos de dados (e dos bancos de dados que eles representam) na qual identificadores numéricos, chamados de chaves, são designados a grupos de dados para representar relacionamentos entre eles sem repetir os dados. Por exemplo, se cada cliente receber uma chave, ela poderá ser vinculada ao endereço e ao histórico de pedidos dele sem que seja preciso repetir essas informações na tabela de nomes de clientes. A normalização tende a reduzir a quantidade de espaço de armazenamento necessária em um banco de dados, mas pode prejudicar o desempenho da consulta.
  6. Finalização e validação do modelo de dados. A modelagem de dados é um processo iterativo que deve ser repetido e refinado conforme as necessidades de negócios mudam.
Tipos de modelagem de dados

A modelagem de dados evoluiu com os sistemas de gerenciamento de banco de dados, e a complexidade dos tipos de modelo aumenta de acordo com o aumento das necessidades de armazenamento de dados das empresas. Veja a seguir diversos tipos de modelo:

  • Modelos de dados hierárquicos  representam relacionamentos um-para-muitos em um formato de árvore. Nesse tipo de modelo, cada registro tem uma única raiz ou pai que é mapeado para uma ou mais tabelas filhas. Esse modelo foi implementado no IBM Information Management System (IMS), que foi introduzido em 1966, e passou rapidamente a ser usado de maneira generalizada, especialmente no setor bancário. Embora essa abordagem seja menos eficiente do que os modelos de banco de dados desenvolvidos mais recentemente, ela ainda é usada em sistemas Extensible Markup Language (XML) e em sistemas de informações geográficas (GISs).
  • Modelos de dados relacionais  foram inicialmente propostos pelo pesquisador da IBM E.F. Codd em 1970. Eles são implementados ainda hoje em muitos bancos de dados relacionais diferentes comumente usados na computação corporativa. A modelagem de dados relacional não requer uma compreensão detalhada das propriedades físicas do armazenamento de dados que está sendo usado. Nela, os segmentos de dados são unidos explicitamente por meio do uso de tabelas, o que reduz a complexidade do banco de dados.

Bancos de dados relacionais frequentemente empregam SQL (Linguagem de Consulta Estruturada) para o gerenciamento de dados. Esses bancos de dados funcionam bem para manter a integridade dos dados e minimizar a redundância. Eles são frequentemente usados em sistemas de ponto de venda, bem como para outros tipos de processamento de transações.

  • Modelos de dados de relacionamento de entidade (ER)  usam diagramas formais para representar os relacionamentos entre as entidades em um banco de dados. Diversas ferramentas de modelagem de ER são usadas por arquitetos de dados para criar mapas visuais que transmitem os objetivos do design do banco de dados.
  • Modelos de dados orientados a objetos  se tornaram relevantes na forma da programação orientada a objetos e passaram a ser populares em meados de 1990. Os "objetos" envolvidos são abstrações de entidades reais. Esses objetos são agrupados em hierarquias de classes e contam com recursos associados. Bancos de dados orientados a objetos podem incorporar tabelas, mas também suportam relacionamentos de dados mais complexos. Essa abordagem é empregada em bancos de dados multimídia e de hipertexto, bem como em outros casos de uso.
  • Modelos de dados dimensionais  foram desenvolvidos por Ralph Kimball para otimizar as velocidades de recuperação de dados para fins de análise em um  data warehouse. Enquanto os modelos relacionais e de ER focam em um armazenamento eficiente, os modelos dimensionais aumentam a redundância para facilitar a localização de informações a fim de auxiliar na geração de relatórios e na recuperação. Essa modelagem é normalmente usada em sistemas  OLAP .

Há dois modelos de dados dimensionais populares. No esquema em estrela, os dados são organizados em fatos (itens mensuráveis) e dimensões (informações de referência), e cada fato é cercado por suas dimensões associadas em um padrão semelhante a uma estrela. O esquema em floco de neve, que se assemelha ao esquema em estrela, inclui camadas adicionais de dimensões associadas, o que torna o padrão de ramificação mais complexo.

Benefícios da modelagem de dados

A modelagem de dados facilita a visualização e a compreensão dos relacionamentos entre os dados em um banco de dados ou data warehouse para desenvolvedores, arquitetos de dados, analistas de negócios e outras partes interessadas. Além disso, é possível:

  • Reduzir erros no desenvolvimento de software e banco de dados.
  • Aumentar a consistência na documentação e no design do sistema em toda a empresa.
  • Melhorar o desempenho do aplicativo e do banco de dados.
  • Facilitar o mapeamento de dados em toda a organização.
  • Melhorar a comunicação entre desenvolvedores e equipes de inteligência de negócios.
  • Facilitar e acelerar o processo de design de banco de dados nos níveis conceitual, lógico e físico.

Ferramentas de modelagem de dados

Há diversas soluções comerciais e de software livre para engenharia de software assistida por computador (CASE) em uso atualmente, como diversas ferramentas de modelagem, diagramação e visualização de dados. Veja a seguir diversos exemplos:

  • O erwin Data Modeler  é uma ferramenta de modelagem de dados baseada na linguagem de modelagem de dados Integration DEFinition for Information Modeling (IDEF1X) que agora suporta outras metodologias de notação, incluindo uma abordagem dimensional.
  • A Enterprise Architect  é uma ferramenta de modelagem e design visual que suporta a modelagem de sistemas e arquiteturas de informações corporativas, bem como aplicativos de software e bancos de dados. Ela é baseada em linguagens e padrões orientados a objetos.
  • Há o software de design de banco de dados ER/Studio , que é compatível com diversos dos sistemas de gerenciamento de banco de dados mais populares da atualidade. Ele suporta modelagem de dados relacionais e dimensionais.
  • As ferramentas gratuitas de modelagem de dados  incluem soluções de software livre, como o Open ModelSphere.
Soluções relacionadas
Data Warehouse

Um data warehouse em cloud totalmente gerenciado e flexível desenvolvido para análise de dados de alto desempenho e IA

Conheça o IBM Db2 Warehouse on Cloud
Soluções do IBM Cloud

Híbrida. Aberto. Resiliente. Sua plataforma e parceira para a transformação digital.

Conheça as soluções de cloud
Soluções do Cloud Pak

Software de nuvem híbrida impulsionado por IA.

Conheça as soluções do Cloud Pak
Dê o próximo passo

Os pesquisadores da IBM estão entre os pioneiros que criaram os primeiros modelos de dados hierárquicos e relacionais e também projetaram os bancos de dados nos quais eles foram inicialmente implementados. Hoje, a IBM Cloud fornece uma plataforma de pilha completa com suporte a um portfólio avançado de bancos de dados SQL e NoSQL, além das ferramentas do desenvolvedor necessárias para gerenciar com eficiência os recursos de dados neles. A IBM Cloud também suporta ferramentas de software livre que ajudam os desenvolvedores a gerenciar o armazenamento de dados de objeto, arquivo e bloco para otimizar o desempenho e a confiabilidade.

Conheça hoje mesmo o IBM® SPSS® Modeler