¿Qué es el modelado de datos?
Descubra cómo el modelado de datos utiliza la abstracción para representar y comprender mejor la naturaleza del flujo de datos dentro de un sistema de información empresarial
fondo negro y azul
¿Qué es el modelado de datos?

El modelado de datos es el proceso de crear una representación visual de un sistema de información completo o de partes del mismo para comunicar conexiones entre puntos de datos y estructuras. El objetivo es ilustrar los tipos de datos utilizados y almacenados dentro del sistema, las relaciones entre estos tipos de datos, las formas en que se pueden agrupar y organizar los datos y sus formatos y atributos.

Los modelos de datos se construyen en torno a las necesidades de la empresa. Las reglas y requisitos se definen por adelantado a través de los comentarios de las partes interesadas de la empresa para que puedan incorporarse en el diseño de un nuevo sistema o adaptarse en la iteración de uno existente.

Los datos se pueden modelar en varios niveles de abstracción. El proceso empieza por la recopilación de información sobre los requisitos de la empresa tanto de las partes interesadas como de los usuarios finales. Estas reglas de negocio luego se traducen en estructuras de datos para formular un diseño de base de datos concreto. Un modelo de datos puede compararse con una hoja de ruta, un plano de un arquitecto o cualquier diagrama formal que facilite una comprensión más profunda de lo que se está diseñando.

El modelado de datos emplea esquemas estandarizados y técnicas formales. Con ello, se obtiene una forma común, coherente y previsible de definir y gestionar los recursos de datos en una organización, o incluso más allá.

Idealmente, los modelos de datos son documentos vivos que evolucionan junto con las necesidades cambiantes de la empresa. Juegan un papel importante en el apoyo a los procesos de negocio y la planificación de la estrategia y la arquitectura de TI. Los modelos de datos se pueden compartir con proveedores, socios o colegas del sector.

Tipos de modelos de datos

Como todo proceso de diseño, el diseño de un sistema de base de datos e información empieza con un alto grado de abstracción y se vuelve cada vez más concreto y específico. Los modelos de datos se pueden dividir en tres categorías generales, que varían según su grado de abstracción. El proceso se iniciará con un modelo conceptual, que evolucionará a un modelo lógico y concluirá con un modelo físico. Cada tipo de modelo de datos se expone con más detalle a continuación:

  • Modelos de datos conceptuales. También conocidos como modelos de dominio, ofrecen una imagen general de lo que contendrá el sistema, cómo se organizará y qué reglas de negocio se aplican. Los modelos conceptuales normalmente se crean como parte del proceso de recopilación de los requisitos iniciales del proyecto. Por lo general, incluyen clases de entidad (que definen los tipos de cosas que son importantes para representar el negocio en el modelo de datos), sus características y restricciones, las relaciones entre ellas y los requisitos relevantes de seguridad e integridad de los datos. Cualquier notación es simple.

     

  • Modelos lógicos de datos. Son menos abstractos y brindan más detalles sobre los conceptos y las relaciones en el dominio bajo consideración. Se sigue uno de los sistemas de notación de modelado de datos formales. Estos indican atributos de datos, como tipos de datos y sus longitudes correspondientes, y muestran las relaciones entre entidades. Los modelos de datos lógicos no especifican ningún requisito técnico del sistema. Esta etapa se omite con frecuencia en prácticas  DevOps o ágiles.  Los modelos de datos lógicos pueden ser útiles en entornos de implementación altamente procedimentales, o para proyectos que están orientados a datos por naturaleza, como un diseño de almacén de datos o el desarrollo de sistemas de generación de informes.

     

  • Modelos de datos físicos. Proporcionan un esquema de cómo se almacenarán físicamente los datos dentro de una base de datos. Como tales, son lo menos abstractos de todos. Ofrecen un diseño finalizado que se puede implementar como base de datos relacional, incluyendo tablas asociativas que ilustran las relaciones entre entidades, así como las claves primarias y externas que se utilizarán para mantener dichas relaciones. Los modelos de datos físicos pueden incluir propiedades específicas del sistema de gestión de bases de datos (DBMS), incluido el ajuste de rendimiento.
Proceso de modelado de datos

Como disciplina, el modelado de datos invita a las partes interesadas a evaluar el procesamiento de datos y el almacenamiento hasta el último detalle. Las técnicas de modelado de datos presentan diferentes convenciones que determinan qué símbolos se utilizan para representar los datos, cómo se presentan los modelos y cómo se transmiten los requisitos del negocio. Todos los enfoques proporcionan flujos de trabajo formalizados que incluyen una secuencia de tareas a realizar de una forma iterativa. Estos flujos de trabajo suelen presentar el siguiente esquema:

  1. Identificar las entidades. El proceso de modelado de datos comienza con la identificación de las cosas, sucesos o conceptos que se representan en el conjunto de datos a modelar. Cada entidad debe ser cohesiva y lógicamente diferenciada de todas las demás.
  2. Identificar las propiedades clave de cada entidad. Cada tipo de entidad se puede diferenciar de todos los demás porque tiene una o más propiedades exclusivas, llamadas atributos. Por ejemplo, una entidad llamada "cliente" podría poseer atributos tales como nombre, apellidos, número de teléfono y saludo, mientras que una entidad llamada "dirección" podría incluir un nombre y número de calle, una ciudad, un estado, un país y un código postal.
  3. Identificar relaciones entre entidades. El primer borrador de un modelo de datos especificará la naturaleza de las relaciones que cada entidad tiene con las demás. En el ejemplo anterior, cada cliente "vive en" una dirección. Si ese modelo se ampliara para incluir una entidad llamada "pedidos", cada pedido se enviaría y facturaría a un dirección. Estas relaciones generalmente se documentan a través del lenguaje modelado unificado (UML, por sus siglas en inglés).
  4. Asignar atributos a entidades por completo. Esto garantiza que el modelo refleje cómo la empresa utilizará los datos. Se usan ampliamente varios patrones formales de modelado de datos. Los desarrolladores orientados a objetos a menudo aplican patrones de análisis o patrones de diseño, mientras que las partes interesadas de otros dominios de negocio pueden recurrir a otros patrones.
  5. Asignar claves según sea necesario y decidir un grado de normalización que adapte la necesidad de reducir la redundancia con los requisitos de rendimiento. La normalización es una técnica para organizar modelos de datos (y las bases de datos que representan) en la que se asignan identificadores numéricos, llamados claves, a grupos de datos para representar relaciones entre ellos sin repetir los datos. Por ejemplo, si a cada cliente se le ha asignado una clave, esa clave se puede vincular tanto a su dirección como a su historial de pedidos sin tener que repetir esta información en la tabla de nombres de clientes. La normalización tiende a reducir la cantidad de espacio de almacenamiento que necesitará una base de datos, pero puede que sea a expensas del rendimiento de las consultas.
  6. Finalizar y validar el modelo de datos. El modelado de datos es un proceso iterativo que debe repetirse y refinarse en función de los cambios que necesite la empresa.
Tipos de modelado de datos

El modelado de datos ha evolucionado junto con los sistemas de gestión de bases de datos, con tipos de modelos cada vez más complejos a medida que crecen las necesidades de almacenamiento de datos de las empresas. En este caso, hay varios tipos de modelos:

  • Los modelos de datos jerárquicos representan relaciones de uno a muchos en un formato similar a un árbol. En este tipo de modelo, cada registro tiene una única raíz o padre que se correlaciona con una o más tablas hijo. Este modelo se implementó en IBM Information Management System (IMS), que se introdujo en 1966 y rápidamente encontró un uso amplio, especialmente en el sector bancario. Aunque este enfoque es menos eficiente que los modelos de base de datos desarrollados más recientemente, todavía se usa en sistemas XML (Extensible Markup Language) y sistemas de información geográfica (SIG).
  • Los modelos de datos relacionales fueron propuestos inicialmente por el investigador de IBM E.F. Codd en 1970. A día de hoy todavía se implementan en las diferentes bases de datos relacionales comúnmente utilizadas en la informática empresarial. El modelado de datos relacional no requiere una comprensión detallada de las propiedades físicas del almacenamiento de datos que se utiliza. En él, los segmentos de datos se unen explícitamente mediante el uso de tablas, lo que reduce la complejidad de la base de datos.

Las bases de datos relacionales emplean con frecuencia SQL (Structured Query Language) para la gestión de datos. Estas bases de datos son muy útiles para mantener la integridad de los datos y minimizar la redundancia. Suelen utilizarse en sistemas de punto de venta, así como para otros tipos de procesamiento de transacciones.

  • Los modelos de datos entidad-relación (ER) utilizan diagramas formales para representar las relaciones entre entidades en una base de datos. Los arquitectos de datos utilizan varias herramientas de modelado de ER para crear correlaciones visuales que transmitan los objetivos de diseño de la base de datos.
  • Los modelos de datos orientados a objetos ganaron tracción como programación orientada a objetos y se popularizaron a mediados de la década de los 90. Los "objetos" implicados son abstracciones de entidades reales. Los objetos se agrupan en jerarquías de clase y tienen características asociadas. Las bases de datos orientadas a objetos pueden incorporar tablas, pero también pueden admiten relaciones de datos más complejas. Este enfoque se emplea en bases de datos de hipertexto y multimedia, así como en otros casos de uso.
  • Los modelos de datos dimensionales fueron desarrollados por Ralph Kimball, con un diseño enfocado a optimizar la velocidad de recuperación de datos con fines analíticos en un almacén de datos. Mientras que los modelos relacionales y ER enfatizan el almacenamiento eficiente, los modelos dimensionales aumentan la redundancia para facilitar la localización de información para informes y recuperación. Este modelado se usa normalmente en sistemas OLAP

Dos modelos populares de datos dimensionales son el esquema de estrella, en el que los datos se organizan en hechos (elementos medibles) y dimensiones (información de referencia), donde cada hecho está rodeado por sus dimensiones asociadas en un patrón similar a una estrella. El otro es el esquema de copo de nieve, que se parece al esquema de estrella pero incluye capas adicionales de dimensiones asociadas, lo que hace que la ramificación del patrón sea más complejo.

Ventajas del modelado de datos

El modelado de datos permite a los desarrolladores, arquitectos de datos, analistas de empresa y otras partes interesadas ver y comprender fácilmente las relaciones entre los datos que residen en una base de datos o almacén de datos. Además, puede:

  • Reducir errores en el desarrollo de software y bases de datos.
  • Aumentar la coherencia en la documentación y el diseño de sistemas en toda la empresa.
  • Mejorar el rendimiento de bases de datos y aplicaciones.
  • Facilitar la correlación de datos en toda la organización.
  • Mejorar la comunicación entre desarrolladores y equipos de business intelligence.
  • Facilitar y acelerar el proceso de diseño de bases de datos a nivel conceptual, lógico y físico.

Herramientas para el modelado de datos

Numerosas soluciones de ingeniería de software asistida por ordenador (CASE, por sus siglas en inglés) comerciales y de código abierto se utilizan hoy, incluidas varias herramientas de visualización, diagramación y modelado de datos. Estos son algunos ejemplos:

  • erwin Data Modeler es una herramienta de modelado de datos basada en el lenguaje de modelado de datos Integration DEFinition for information modeling (IDEF1X) que ahora admite otras metodologías de notación, incluido un enfoque dimensional.
  • Enterprise Architect es una herramienta de diseño y modelado visual que da soporte al modelado de arquitecturas y sistemas de información empresarial, así como aplicaciones de software y bases de datos. Se basa en lenguajes y estándares orientados a objetos.
  • ER/Studio es software de diseño de base de datos que es compatible con varios de los sistemas de gestión de bases de datos más populares actualmente. Admite tanto el modelado de datos relacionales como dimensionales.
  • Las herramientas de modelado de datos gratuitas incluyen soluciones de código abierto como Open ModelSphere.
Soluciones relacionadas
Almacén de datos

Un almacén de datos en cloud elástico y completamente gestionado, creado para la analítica de alto rendimiento y la IA

Explore IBM Db2 Warehouse on Cloud
Soluciones de cloud de IBM

Híbrido. Abiertas. Resilientes. Su plataforma y su socio para la transformación digital.

Explore soluciones en cloud
Soluciones Cloud Pak

Software de cloud híbrido basado en IA.

Explore las soluciones Cloud Pak
Dé el siguiente paso

Los investigadores de IBM estuvieron entre los pioneros en crear los primeros modelos de datos relacionales y jerárquicos, y también diseñaron las bases de datos donde estos modelos se implementaron inicialmente. Hoy, IBM Cloud proporciona una plataforma de pila completa que admite un amplio portfolio de bases de datos SQL y NoSQL, junto con las herramientas para desarrolladores necesarias para gestionar los recursos de datos que contienen de manera eficiente. IBM Cloud también admite herramientas de código abierto que ayudan a los desarrolladores a gestionar el almacenamiento de datos en bloque, de archivos y objetos para optimizar el rendimiento y la fiabilidad.

Explore IBM® SPSS® Modeler hoy mismo