¿Qué es el modelado de datos?
Descubra cómo el modelado de datos utiliza la abstracción para representar y comprender mejor la naturaleza del flujo de datos dentro de un sistema de información empresarial
fondo negro y azul
¿Qué es el modelado de datos?

El modelado de datos es el proceso de crear una representación visual de un sistema de información completo o partes de él para comunicar conexiones entre puntos de datos y estructuras. El objetivo es ilustrar los tipos de datos utilizados y almacenados dentro del sistema, las relaciones entre estos tipos de datos, las formas en que los datos se pueden agrupar y organizar y sus formatos y atributos.

Los modelos de datos se basan en las necesidades de negocio. Las reglas y los requisitos se definen por adelantado mediante las opiniones y comentarios de los stakeholders del negocio para que puedan incorporarse al diseño de un nuevo sistema o adaptarse en la iteración de uno existente.

Los datos se pueden modelar en varios niveles de abstracción. El proceso comienza con la recopilación de información sobre los requisitos comerciales de los stakeholders y los usuarios finales. Estas normas empresariales luego se traducen en estructuras de datos para formular un diseño de base de datos concreto. Un modelo de datos se puede comparar con una hoja de ruta, un plan de arquitecto o cualquier diagrama formal que facilite una comprensión más profunda de lo que se está diseñando.

El modelado de datos emplea esquemas estandarizados y técnicas formales. Esto proporciona una forma común, consistente y predecible de definir y gestionar los recursos de datos en una organización, o incluso más allá.

Idealmente, los modelos de datos son documentos vivos que evolucionan junto con las necesidades comerciales cambiantes. Desempeñan un papel importante en el apoyo a los procesos de negocio y en la planificación de la arquitectura y la estrategia de TI. Los modelos de datos se pueden compartir con proveedores, socios y/o pares de la industria.

Tipos de modelos de datos

Como cualquier proceso de diseño, el diseño de bases de datos y sistemas de información comienza en un alto nivel de abstracción y se vuelve cada vez más concreto y específico. Los modelos de datos generalmente se pueden dividir en tres categorías, que varían según su grado de abstracción. El proceso comenzará con un modelo conceptual, avanzará a un modelo lógico y concluirá con un modelo físico. Cada tipo de modelo de datos se analiza con más detalle a continuación:

  • Modelos de datos conceptuales. También se conocen como modelos de dominio y ofrecen una visión general de lo que contendrá el sistema, cómo se organizará y qué normas empresariales están involucradas. Los modelos conceptuales generalmente se crean como parte del proceso de recopilación de los requisitos iniciales del proyecto. Por lo general, incluyen clases de entidad (que definen los tipos de cosas que son importantes para que la empresa las represente en el modelo de datos), sus características y restricciones, las relaciones entre ellas y los requisitos de seguridad e integridad de datos relevantes. Cualquier notación suele ser simple.

     

  • Modelos de datos lógicos. Son menos abstractos y brindan más detalles de los conceptos y las relaciones en el dominio en consideración. Se sigue uno de varios sistemas formales de notación de modelado de datos. Estos indican atributos de datos, como tipos de datos y sus longitudes correspondientes, y muestran las relaciones entre entidades. Los modelos de datos lógicos no especifican ningún requisito técnico del sistema. Esta etapa se omite con frecuencia en prácticas ágiles o DevOps . Los modelos de datos lógicos pueden ser útiles en entornos de implementación altamente procedimentales o para proyectos que están orientados a datos por naturaleza, como el desarrollo del diseño o el sistema de informes de un almacén de datos .

     

  • Modelos de datos físicos.  Proporcionan un esquema de cómo se almacenarán físicamente los datos dentro de una base de datos. Como tales, son los menos abstractos de todos. Ofrecen un diseño finalizado que se puede implementar como base de datos relacional, incluidas tablas asociativas que ilustran las relaciones entre entidades, así como las claves principales y las claves externas que se utilizarán para mantener esas relaciones. Los modelos de datos físicos pueden incluir propiedades específicas del sistema de gestión de bases de datos (DBMS), incluido el ajuste del rendimiento.
Proceso de modelado de datos

Como disciplina, el modelado de datos invita a los stakeholders a evaluar el procesamiento y almacenamiento de datos con minucioso detalle. Las técnicas de modelado de datos tienen diferentes convenciones que dictan qué símbolos se utilizan para representar los datos, cómo se presentan los modelos y cómo se transmiten los requisitos comerciales. Todos los enfoques proporcionan flujos de trabajo formalizados que incluyen una secuencia de tareas que se realizarán de manera iterativa. Por lo general, esos flujos de trabajo se ven así:

  1. Identificar las entidades. El proceso de modelado de datos comienza con la identificación de las cosas, eventos o conceptos que están representados en el conjunto de datos que se va a modelar. Cada entidad debe ser consistente y lógicamente diferenciada de todas las demás.
  2. Identificar propiedades clave de cada entidad. Cada tipo de entidad se puede diferenciar de todos los demás porque tiene una o más propiedades únicas, llamadas atributos. Por ejemplo, una entidad llamada "cliente" podría poseer atributos tales como nombre, apellido, número de teléfono y saludo, mientras que una entidad llamada "dirección" podría incluir el nombre y número de una calle, una ciudad, estado, país y código postal.
  3. Identificar relaciones entre entidades. El primer borrador de un modelo de datos especificará la naturaleza de las relaciones que cada entidad tiene con las demás. En el ejemplo anterior, cada cliente "vive en" una dirección. Si ese modelo se expandiera para incluir una entidad llamada "pedidos", cada pedido se enviaría y facturaría a una dirección también. Estas relaciones generalmente se documentan a través del lenguaje de modelado unificado (UML).
  4. Asignar atributos a entidades por completo. Esto garantizará que el modelo refleje cómo la empresa utilizará los datos. Varios patrones formales de modelado de datos son de uso generalizado. Los desarrolladores orientados a objetos a menudo aplican patrones de análisis o patrones de diseño, mientras que las partes interesadas de otros dominios comerciales pueden recurrir a otros patrones.
  5. Asignar claves según sea necesario y decidir un grado de normalización que equilibre la necesidad de reducir la redundancia con los requisitos de rendimiento. La normalización es una técnica para organizar modelos de datos (y las bases de datos que representan) en la que se asignan identificadores numéricos, llamados claves, a grupos de datos para representar relaciones entre ellos sin repetir los datos. Por ejemplo, si a cada cliente se le asigna una clave, esa clave se puede vincular tanto a su dirección como a su historial de pedidos sin tener que repetir esta información en la tabla de nombres de clientes. La normalización tiende a reducir la cantidad de espacio de almacenamiento que requerirá una base de datos, pero puede costar el rendimiento de las consultas.
  6. Finalizar y validar el modelo de datos. El modelado de datos es un proceso iterativo que debe repetirse y perfeccionarse a medida que cambian las necesidades comerciales.
Tipos de modelado de datos

El modelado de datos ha evolucionado junto con los sistemas de gestión de bases de datos, y los tipos de modelos aumentan en complejidad a medida que las necesidades de almacenamiento de datos de las empresas crecen. A continuación, se muestran varios tipos de modelos:

  • Modelos de datos jerárquicos  representan relaciones de uno a muchos en un formato arbóreo. En este tipo de modelo, cada registro tiene una única raíz o padre que se asigna a una o más tablas secundarias. Este modelo se implementó en IBM Information Management System (IMS), que se introdujo en 1966 y rápidamente encontró un uso generalizado, especialmente en la banca. Aunque este enfoque es menos eficiente que los modelos de bases de datos desarrollados más recientemente, todavía se usa en sistemas de lenguaje de marcado extensible (XML) y sistemas de información geográfica (SIG).
  • Modelos de datos relacionales  fueron propuestos inicialmente por el investigador de IBM EF Codd en 1970. Todavía se implementan hoy en las muchas bases de datos relacionales diferentes que se usan comúnmente en la informática empresarial. El data modeling de datos relacionales no requiere una comprensión detallada de las propiedades físicas del almacenamiento de datos que se utiliza. En él, los segmentos de datos se unen explícitamente mediante el uso de tablas, lo que reduce la complejidad de la base de datos.

Las bases de datos relacionales emplean con frecuencia el lenguaje de consulta estructurado (SQL) para la gestión de datos. Estas bases de datos funcionan bien para mantener la integridad de los datos y minimizar la redundancia. A menudo se utilizan en sistemas de punto de venta, así como para otros tipos de procesamiento de transacciones.

  • Modelos de datos entidad-relación (ER)  utilizan diagramas formales para representar las relaciones entre entidades en una base de datos. Los arquitectos de datos utilizan varias herramientas de modelado de ER para crear mapas visuales que transmiten los objetivos de diseño de la base de datos.
  • Modelos de datos orientados a objetos  ganó terreno como programación orientada a objetos y se hizo popular a mediados de la década de 1990. Los "objetos" involucrados son abstracciones de entidades del mundo real. Los objetos se agrupan en jerarquías de clases y tienen características asociadas. Las bases de datos orientadas a objetos pueden incorporar tablas, pero también pueden admitir relaciones de datos más complejas. Este enfoque se emplea en bases de datos de hipertexto y multimedia, así como en otros casos de uso.
  • Modelos de datos dimensionales fueron desarrollados por Ralph Kimball, y fueron diseñados para optimizar las velocidades de recuperación de datos con fines analíticos en un almacén de datos. Mientras que los modelos relacionales y ER enfatizan el almacenamiento eficiente, los modelos dimensionales aumentan la redundancia para facilitar la localización de información para la generación de informes y la recuperación. Este modelado se utiliza normalmente en sistemas OLAP .

Dos modelos de datos dimensionales populares son el esquema en estrella, en el que los datos se organizan en hechos (elementos medibles) y dimensiones (información de referencia), donde cada hecho está rodeado por sus dimensiones asociadas en un patrón en forma de estrella. El otro es el esquema de copo de nieve, que se asemeja al esquema de estrella pero incluye capas adicionales de dimensiones asociadas, lo que hace que el patrón de ramificación sea más complejo.

Beneficios del modelado de datos

El modelado de datos facilita a los desarrolladores, arquitectos de datos, analistas de negocios y otros stakeholders ver y comprender las relaciones entre los datos en una base de datos o un almacén de datos. Además, puede:

  • Reducir errores en el desarrollo de software y bases de datos.
  • Aumentar la consistencia en la documentación y el diseño del sistema en toda la empresa.
  • Mejorar el rendimiento de la aplicación y la base de datos.
  • Facilitar el mapeo de datos en toda la organización.
  • Mejorar la comunicación entre desarrolladores y equipos de inteligencia empresarial.
  • Facilitar y acelerar el proceso de diseño de bases de datos a nivel conceptual, lógico y físico.

Herramientas de modelado de datos

En la actualidad, se utilizan ampliamente numerosas soluciones de ingeniería de software asistida por computadora (CASE) comerciales y de código abierto, incluidas múltiples herramientas de modelado, diagramación y visualización de datos. Estos son algunos ejemplos:

  • erwin Data Modeler  es una herramienta de modelado de datos basada en el lenguaje de data modeling Integration DEFinition para modelado de información (IDEF1X) que ahora admite otras metodologías de notación, incluido un enfoque dimensional.
  • Enterprise Architect  es una herramienta de diseño y modelado visual que admite el modelado de arquitecturas y sistemas de información empresarial, así como aplicaciones de software y bases de datos. Se basa en estándares y lenguajes orientados a objetos.
  • ER/Studio  es un software de diseño de bases de datos que es compatible con varios de los sistemas de gestión de bases de datos más populares de la actualidad. Es compatible con el modelado de datos tanto de datos relacionales como dimensionales.
  • Herramientas de modelado de datos sin costo  incluyen soluciones de código abierto como Open ModelSphere.
Soluciones relacionadas
Data Warehouse

Un almacén de datos en la nube totalmente administrado y flexible, creado para la analítica de alto rendimiento y la IA

Explore IBM Db2 Warehouse on Cloud
Soluciones IBM Cloud

Híbrida. Abierta. Resiliente. Su plataforma y socio para la transformación digital.

Explore las soluciones en la nube
Soluciones Cloud Pak

Software de nube híbrida basado en IA.

Explore las soluciones Cloud Pak
Dé el siguiente paso

Los investigadores de IBM estuvieron entre los pioneros que crearon los primeros modelos de datos jerárquicos y relacionales y también diseñaron las bases de datos donde estos modelos se implementaron inicialmente. En la actualidad, IBM Cloud proporciona una plataforma de recurso completa que admite un amplio portfolio de bases de datos SQL y NoSQL, junto con las herramientas de desarrollo necesarias para gestionar los recursos de datos dentro de ellas de forma eficiente. IBM Cloud también admite herramientas de código abierto que ayudan a los desarrolladores a gestionar el almacenamiento de datos de bloques, archivos y objetos para optimizar el rendimiento y la fiabilidad.

Explore IBM® SPSS® Modeler hoy