Potenciar la empresa agéntica Vea la presentación de Think

Qué es el modelado de datos

Qué es el modelado de datos

El modelado de datos es el proceso de crear una representación visual de todo un sistema de información o partes de él para comunicar conexiones entre puntos de datos y estructuras.

El objetivo del modelado de datos es ilustrar los tipos de datos utilizados y almacenados dentro del sistema y las relaciones entre estos tipos de datos. También describe las formas en que se pueden agrupar y organizar los datos, junto con sus formatos y atributos.

Los modelos de datos se crean en función de las necesidades empresariales. Las reglas y los requisitos se definen por adelantado a través de la retroalimentación de los stakeholders de la empresa para que puedan incorporarse al diseño de un nuevo sistema o adaptarse en la iteración de uno existente.

Los datos se pueden modelar en varios niveles de abstracción. El proceso comienza con la recopilación de información sobre los requisitos comerciales de los stakeholders y los usuarios finales. Estas business rules se traducen luego en estructuras de datos para formular un diseño de base de datos concreto. Un modelo de datos puede compararse con una hoja de ruta, un proyecto técnico o cualquier diagrama formal que facilite una comprensión más profunda de lo que se está diseñando.

El modelado de datos utiliza esquemas estandarizados y técnicas formales. Este enfoque proporciona una forma común, coherente y predecible de definir y gestionar los recursos de datos en toda una organización, o incluso más allá.

Idealmente, los modelos de datos son documentos vivos que evolucionan junto con las cambiantes necesidades del negocio. Desempeñan un papel importante en el soporte de los procesos del negocio y en la planificación de la arquitectura y estrategia de TI. Los modelos de datos se pueden compartir con proveedores, socios o colegas de la industria.

Tipos de modelos de datos

Como cualquier proceso de diseño, el diseño de bases de datos y sistemas de información comienza en un alto nivel de abstracción y se vuelve más concreto y específico. Los modelos de datos generalmente pueden dividir en tres categorías, que varían según su grado de abstracción. El proceso comenzará con un modelo conceptual, avanzará a un modelo lógico y concluirá con un modelo físico. Cada tipo de modelo de datos se analiza con más detalle en secciones posteriores:

Modelos de datos conceptuales

También se les conoce como modelos de dominio y ofrecen una visión general de lo que contendrá el sistema, cómo estará organizado y qué reglas de negocio intervienen. Los modelos conceptuales se crean como parte del proceso de recopilación de los requisitos iniciales del proyecto.

Por lo general, incluyen clases de entidad (que definen los tipos de cosas que es importante que el negocio represente en el modelo de datos), sus características y restricciones, y las relaciones entre ellas. También abarcan requisitos relevantes de seguridad e integridad de datos. Estos elementos definen colectivamente cómo se estructuran y gobiernan los datos dentro del modelo. Cualquier notación suele ser sencilla.

Gráfico de Modelado Conceptual de Datos

Modelos de datos lógicos

Son menos abstractos y proporcionan más detalles sobre los conceptos y relaciones en el dominio en cuestión. Se sigue uno de varios sistemas formales de notación de modelado de datos. Estas notaciones indican atributos de datos, como tipos de datos y sus longitudes correspondientes, y muestran las relaciones entre entidades.

Los modelos de datos lógicos no especifican ningún requisito técnico del sistema. Esta etapa se omite con frecuencia en las prácticas ágiles o DevOps. Los modelos de datos lógicos pueden ser útiles en entornos de implementación altamente procedimentales, o para proyectos que están orientados a datos por naturaleza, como el diseño de depósitos de datos o el desarrollo de sistemas de informes.

Diagrama de Modelado de Datos Lógicos

Modelos de datos físicos

Proporcionan un esquema que describe cómo se almacenarán físicamente los datos en una base de datos. Como tales, son los menos abstractos. Ofrecen un diseño finalizado que se puede implementar como una base de datos relacional, incluidas tablas asociativas que ilustran las relaciones entre entidades. El diseño también especifica las claves primarias y las claves externas que se utilizarán para mantener esas relaciones. Los modelos de datos físicos pueden incluir propiedades específicas del sistema de gestión de bases de datos (DBMS), incluido el ajuste del rendimiento.

Gráfico de Modelado de Datos Físicos

Proceso de modelado de datos

Como disciplina, la modelización de datos invita a los stakeholders a evaluar el procesamiento de datos y el almacenamiento con un detalle minucioso. Las técnicas de modelado de datos tienen diferentes convenciones que dictan qué símbolos se utilizan para representar los datos, cómo se presentan los modelos y cómo se transmiten los requisitos del negocio. Todos los enfoques proporcionan flujos de trabajo formalizados que incluyen una secuencia de tareas que se realizarán de manera iterativa. Esos flujos de trabajo generalmente se ven así:

  1. Identifique las entidades. El proceso de modelado de datos comienza con la identificación de los objetos, eventos o conceptos que están representados en el conjunto de datos que se va a modelar. Cada entidad debe ser cohesiva y lógicamente discreta de todas las demás.
  2. Identificar las propiedades clave de cada entidad. Cada tipo de entidad se puede diferenciar de todos los demás porque tiene una o más propiedades únicas, llamadas atributos. Por ejemplo, una entidad llamada “cliente” podría poseer atributos tales como nombre de pila, apellido, número de teléfono y saludo. Una entidad llamada “dirección” podría incluir un nombre y número de calle, una ciudad, estado, país y código postal.
  3. Identificar relaciones entre entidades. El primer borrador de un modelo de datos especificará la naturaleza de las relaciones que cada entidad mantiene con las demás. En el ejemplo anterior, cada cliente “vive en” una dirección. Si ese modelo se expande para incluir una entidad llamada “pedidos”, cada pedido se enviará y facturará a una dirección. Estas relaciones se documentan a través del lenguaje de modelado unificado (UML).
  4. Asignar los atributos a las entidades por completo. Este enfoque garantizará que el modelo refleje la forma en que la empresa utilizará los datos. Varios patrones formales de modelado de datos son de uso generalizado. Los desarrolladores orientados a objetos a menudo aplican patrones de análisis o patrones de diseño, mientras que los stakeholders de otros dominios empresariales pueden recurrir a otros patrones.
  5. Asignar claves según sea necesario y decidir un grado de normalización que equilibre la necesidad de reducir la redundancia con los requisitos de rendimiento. La normalización es una técnica para organizar modelos de datos (y las bases de datos que representan) en la que se asignan identificadores numéricos, llamados claves, a grupos de datos para representar relaciones entre ellos sin repetir los datos. Por ejemplo, si a cada cliente se le asigna una clave, esa clave se puede vincular tanto a su dirección como a su historial de pedidos sin necesidad de repetir esta información en la tabla de nombres de clientes. La normalización reduce la cantidad de espacio de almacenamiento que necesita una base de datos, pero puede afectar el rendimiento de las consultas.
  6. Finalice y valide el modelo de datos. El modelado de datos es un proceso iterativo que debe repetirse y perfeccionarse a medida que cambian las necesidades empresariales.
Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Tipos de modelado de datos

El modelado de datos evolucionó junto con los sistemas de gestión de bases de datos, y los tipos de modelos aumentaron en complejidad a medida que crecieron las necesidades de almacenamiento de datos de las empresas. Aquí hay varios tipos de modelos:

  • Los modelos de datos jerárquicos representan relaciones de uno a muchos en un formato de árbol. En este tipo de modelo, cada registro tiene una única raíz o tabla principal, que se vincula con una o más tablas secundarias. Este modelo se implementó en el IBM Information Management System (IMS), que se presentó en 1966 y rápidamente se generalizó su uso, especialmente en el sector bancario. Aunque este enfoque es menos eficiente que los modelos de bases de datos desarrollados más recientemente, todavía se utiliza en sistemas de lenguaje de marcado extensible (XML) y sistemas de información geográfica (SIG).
  • Los modelos de datos relacionales fueron propuestos inicialmente por el investigador de IBM E.F. Codd en 1970. Todavía se implementan hoy en las diferentes bases de datos relacionales que se utilizan comúnmente en la computación empresarial. El modelado de datos relacionales no requiere una comprensión detallada de las propiedades físicas del almacenamiento de datos que se utiliza. En este sistema, los segmentos de datos se unen explícitamente a través de tablas, lo que reduce la complejidad de la base de datos.

Las bases de datos relacionales suelen utilizar un lenguaje de consulta estructurado (SQL) para la gestión de datos. Estas bases de datos funcionan bien para mantener la integridad de los datos y minimizar la redundancia. A menudo se utilizan en sistemas de punto de venta, así como para otros tipos de procesamiento de transacciones.

  • Los modelos de datos de relaciones entre entidades (ER) utilizan diagramas formales para representar las relaciones entre las entidades de una base de datos. Los arquitectos de datos utilizan varias herramientas de modelado de ER para crear mapas visuales que transmitan los objetivos de diseño de bases de datos.
  • Los modelos de datos orientados a objetos ganaron tracción como programación orientada a objetos y se hicieron populares a mediados de la década de 1990. Los "objetos" involucrados son abstracciones de entidades del mundo real. Los objetos se agrupan en jerarquías de clases y tienen características asociadas. Las bases de datos orientadas a objetos pueden incorporar tablas, pero también admiten relaciones de datos más complejas. Este enfoque se emplea en bases de datos multimedia e hipertexto, así como en otros casos de uso.
  • Los modelos de datos dimensionales fueron desarrollados por Ralph Kimball, y fueron diseñados para optimizar las velocidades de recuperación de datos con fines analíticos en un depósito de datos. Mientras que los modelos relacionales y de ER enfatizan el almacenamiento eficiente, los modelos dimensionales aumentan la redundancia para facilitar la localización de información para informes y recuperación. Este modelado se utiliza normalmente en todos los sistemas OLAP

Dos modelos de datos dimensionales comunes son el esquema de estrella, en el que los datos se organizan en hechos (elementos medibles) y dimensiones (información de referencia). En este modelo, cada hecho está rodeado por sus dimensiones asociadas en un patrón similar a una estrella. El otro es el esquema copo de nieve, que se asemeja al esquema de estrella pero incluye otras capas de dimensiones asociadas, haciendo que el patrón ramificado sea más complejo.

Beneficios del modelado de datos

El modelado de datos facilita que desarrolladores, arquitectos de datos, analistas de negocio y otros stakeholders vean y comprendan las relaciones entre los datos en una base de datos o depósito de datos. Además, puede:

  • Reducir los errores en el desarrollo de software y bases de datos.
  • Aumentar la coherencia en la documentación y el diseño del sistema en toda la empresa.
  • Mejorar el rendimiento de las aplicaciones y las bases de datos.
  • Facilitar el mapeo de datos en toda la organización.
  • Mejorar la comunicación entre los desarrolladores y los equipos de business intelligence.
  • Facilitar y acelerar el proceso de diseño de bases de datos a nivel conceptual, lógico y físico.

Herramientas de modelado de datos

En la actualidad, se utilizan ampliamente numerosas soluciones comerciales y de código abierto de ingeniería de software asistida por computadora (CASE), incluyendo múltiples herramientas de modelado, diagramación y visualización de datos. Aquí hay varios ejemplos:

  • erwin Data Modeler es una herramienta de modelado de datos basada en la DEFinición de integración para la modelación de la información (IDEF1X) que ahora admite otras metodologías de notación, incluido un enfoque dimensional.
  • Enterprise Architect es una herramienta visual de modelado y diseño que permite modelar sistemas y arquitecturas de información empresarial, así como aplicaciones de software y bases de datos. Se basa en lenguajes y estándares orientados a objetos.
  • ER/Studio es un software de diseño de bases de datos compatible con varios de los sistemas de gestión de bases de datos más populares de la actualidad. Admite el modelado de datos tanto relacional como dimensional.
  • Las herramientas gratuitas de modelado de datos incluyen soluciones de código abierto como Open ModelSphere.
Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles
Soluciones relacionadas
Herramientas y soluciones de ciencia de datos

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

Explorar las soluciones de ciencia de datos
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Utilice herramientas y soluciones de ciencia de datos para descubrir patrones y crear predicciones mediante el uso de datos, algoritmos, machine learning y técnicas de IA.

  1. Explorar las soluciones de ciencia de datos
  2. Explorar los servicios de analytics