¿Qué es una arquitectura de datos?

Descubra qué es una arquitectura de datos y los componentes disponibles para implementar una

Dibujo isométrico que muestra a diferentes empleados de oficina, todos usando IBM Security
¿Qué es una arquitectura de datos?

Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, la distribución y el consumo. Establece el plan para los datos y la forma en que fluyen a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).

El diseño de una arquitectura de datos debe regirse por los requisitos del negocio, que los arquitectos de datos y los ingenieros de datos utilizan para definir su respectivo modelo de datos y las estructuras de datos subyacentes que lo sustentan. Estos diseños suelen responder a una necesidad de negocio, como la elaboración de informes o una iniciativa de ciencia de datos.

Ante el surgimiento de nuevos orígenes de datos a través de tecnologías emergentes, como el Internet de las cosas (IoT), una buena arquitectura de datos garantiza que los datos sean manejables y útiles, lo que facilita la gestión del ciclo de vida. Más específicamente, puede evitar el almacenamiento de datos redundante, mejorar la calidad de los datos mediante la limpieza y la eliminación de duplicados y habilitar nuevas aplicaciones. Las arquitecturas de datos modernas también brindan mecanismos para integrar datos entre dominios, como entre departamentos o zonas geográficas, rompiendo silos de datos sin la enorme complejidad que implica almacenar todo en un mismo sitio.

Las arquitecturas de datos modernas a menudo aprovechan las plataformas en cloud para gestionar y procesar los datos. Si bien pueden resultar más costosas, su escalabilidad de cálculo permite que las tareas de procesamiento de datos más importantes se completen rápidamente. La escalabilidad del almacenamiento también ayuda a hacer frente a los crecientes volúmenes de datos y a garantizar que todos los datos relevantes estén disponible para mejorar la calidad a la hora de entrenar las aplicaciones de IA.


Comparación entre modelos de datos conceptuales, lógicos y físicos

La documentación de la arquitectura de datos incluye tres tipos de modelos de datos

  • Modelos de datos conceptuales: también conocidos como modelos de dominio, ofrecen una imagen general de lo que contendrá el sistema, cómo se organizará y qué reglas de negocio se aplican. Los modelos conceptuales normalmente se crean como parte del proceso de recopilación de los requisitos iniciales del proyecto. Por lo general, incluyen clases de entidad (que definen los tipos de cosas que son importantes para representar el negocio en el modelo de datos), sus características y restricciones, las relaciones entre ellas y los requisitos relevantes de seguridad e integridad de los datos.
  •  Modelos de datos lógicos: son menos abstractos y brindan más detalles sobre los conceptos y las relaciones en el dominio bajo consideración. Se sigue uno de los sistemas de notación de modelado de datos formales. Estos indican atributos de datos, como tipos de datos y sus longitudes correspondientes, y muestran las relaciones entre entidades. Los modelos de datos lógicos no especifican ningún requisito técnico del sistema.
  • Modelos de datos físicos: son menos abstractos y brindan más detalles sobre los conceptos y las relaciones en el dominio bajo consideración. Se sigue uno de los sistemas de notación de modelado de datos formales. Estos indican atributos de datos, como tipos de datos y sus longitudes correspondientes, y muestran las relaciones entre entidades. Los modelos de datos lógicos no especifican ningún requisito técnico del sistema.

Marcos de trabajo populares de arquitectura de datos

Una arquitectura de datos puede basarse en marcos de trabajo populares de arquitectura empresarial, incluyendo TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group, del cual IBM es miembro Platinum.

Esta arquitectura se basa en cuatro pilares:

  • Arquitectura de negocio, que define la estructura organizativa, la estrategia de negocio y los procesos de la empresa.
  • Arquitectura de datos, que describe los activos de datos físicos, lógicos y conceptuales y cómo se almacenan y gestionan a lo largo del ciclo de vida.
  • Arquitectura de aplicaciones, que representa los sistemas de aplicaciones, y cómo se relacionan con los principales procesos de negocio y entre ellos.
  • Arquitectura técnica, que describe la infraestructura tecnológica (hardware, software y redes) necesaria para dar soporte a las aplicaciones más importantes.

Como tal, TOGAF proporciona un marco de trabajo completo para diseñar e implementar la arquitectura de TI de una empresa, incluida su arquitectura de datos.

DAMA-DMBOK 2

DAMA International, originalmente fundada como Data Management Association International, es una organización sin ánimo de lucro dedicada al avance en la gestión de datos y la información. Su cuerpo de conocimiento de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, así como el gobierno y la ética, el modelado y el diseño de los datos, el almacenamiento, la seguridad y la integración.

Zachman Framework for Enterprise Architecture

Desarrollado originalmente por John Zachman en IBM en 1987, este marco de trabajo utiliza una matriz de seis capas, desde la contextual hasta la detallada, correlacionadas con seis preguntas que incluyen por qué, cómo y qué. Proporciona un modo formal de organizar y analizar datos, pero no incluye métodos para hacerlo.

 


Tipos de arquitecturas de datos y componentes subyacentes

Una arquitectura de datos demuestra una perspectiva de alto nivel de cómo trabajan juntos los diferentes sistemas de gestión de datos. Estos sistemas incluyen diferentes repositorios de almacenamiento de datos, tales como lagos de datos, almacenes de datos, data marts o bases de datos. Juntos, pueden crear arquitecturas de datos, como entramados de datos y mallas de datos, que están ganando cada vez más popularidad. Estas arquitecturas se centran más en los datos como productos, favoreciendo la estandarización en torno a metadatos y la democratización de los datos en las distintas organizaciones a través de las API.

En la siguiente sección se describe más detenidamente cada uno de estos componentes de almacenamiento y tipos de arquitectura de datos:

Tipos de sistemas de gestión de datos

  • Almacenes de datos: un depósito de datos agrega datos de los diferentes orígenes de toda una empresa en un repositorio único, central y coherente. Después de la extracción, los datos fluyen a través de una canalización de datos ETL, pasando por varias transformaciones para cumplir con el modelo de datos predefinido. Una vez que se cargan en el depósito de datos, los datos pasan a dar soporte a diferentes aplicaciones de inteligencia empresarial (BI) y ciencia de datos.
  • Data marts: un data mart es una versión focalizada de un depósito de datos que contiene un subconjunto más pequeño de los datos importantes y necesarios para un equipo individual o un grupo seleccionado de agrupar dentro de una organización, como el departamento de recursos humanos. Dado que contienen un subconjunto de datos más pequeño, los data marts permiten que un departamento o una línea de negocio descubran información más focalizada de forma más rápida que cuando se trabaja con el conjunto más amplio de datos del depósito de datos. Los data marts surgieron originalmente en respuesta a las dificultades que las empresas tenían para configurar los almacenes de datos en la década de los 90. Por aquel entonces, la integración de datos de toda la organización requería mucha codificación manual y consumía una gran cantidad de tiempo. El ámbito más limitado de los data marts facilitó y agilizó su implementación, en comparación con los almacenes de datos centralizados.
  • Lagos de datos: mientras que los almacenes de datos procesan datos, un lago de datos alberga datos en bruto, normalmente petabytes. Un lago de datos puede almacenar tanto datos estructurados como no estructurados, lo que lo diferencia de otros repositorios de datos. Esta flexibilidad en los requisitos de almacenamiento resulta especialmente útil para los científicos de datos, los ingenieros de datos y los desarrolladores, ya que les permite acceder a los datos para ejercicios de descubrimiento de datos y proyectos de machine learning. Los lagos de datos se crearon originalmente como respuesta al fallo del almacén de datos a la hora de gestionar el creciente volumen, la velocidad y la variedad de big data. Si bien los lagos de datos son más lentos que los almacenes de datos, también son más baratos, ya que apenas requieren preparación de datos antes de la ingesta. Actualmente, siguen evolucionando como parte de los esfuerzos de migración de datos al cloud. Los lagos de datos admiten una amplia variedad de casos de uso, ya que no es necesario definir los objetivos de negocio para los datos en el momento de su recopilación. Sin embargo, dos casos de uso principales sí incluyen la exploración de la ciencia de datos y las tareas de copia de seguridad y recuperación de datos. Los científicos de datos pueden utilizar lagos de datos para pruebas de concepto. Las aplicaciones de machine learning se benefician de la capacidad de almacenar datos estructurados y no estructurados en el mismo sitio, lo que no es posible utilizando un sistema base de datos relacional. Los lagos de datos también se pueden utilizar para probar y desarrollar proyectos de análisis de big data. Cuando se ha desarrollado la aplicación y se han identificado los datos útiles, los datos se pueden exportar a un depósito de datos para su uso operativo, y se puede aplicar automatización para escalar la aplicación. Los lagos de datos también se pueden utilizar para la copia de seguridad y recuperación de datos, debido a su escalabilidad a bajo coste. Por las mismas razones, los lagos de datos son buenos para almacenar datos "por si acaso", para los cuales aún no se han definido necesidades del negocio. Almacenar los datos ahora significa que estarán disponibles más adelante cuando vayan surgiendo nuevas iniciativas.

Tipos de arquitecturas de datos

Entramados de datos: un entramado de datos es una arquitectura, que se centra en la automatización de la integración de los datos, la ingeniería de datos y el gobierno en una cadena de valor de los datos entre sus proveedores y consumidores. Un entramado de datos se basa en la noción de "metadatos de activos" que utiliza gráficos de conocimientos, semántica, minería de datos y tecnología de machine learning (ML) para descubrir patrones en varios tipos de metadatos (por ejemplo, registros del sistema, redes sociales, etc.). A continuación, aplica toda esta información de valor para automatizar y orquestar la cadena de valor de datos. Por ejemplo, puede permitir que un consumidor de datos encuentre un producto de datos y suministrarle ese producto de datos automáticamente. Un mayor acceso a los datos entre los productos de datos y sus consumidores permite reducir los silos de datos y proporciona una imagen más completa de los datos de la organización. Los entramados de datos son una tecnología emergente con un enorme potencial y se pueden utilizar para mejorar la creación de perfiles de clientes, la detección de fraude y el mantenimiento preventivo.  Según Gartner, los entramados de datos reducen el tiempo de diseño de la integración en un 30 %, el tiempo de despliegue en un 30 % y el mantenimiento en un 70 %.

Mallas de datos: una malla de datos es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial. Al usar una malla de datos, la organización tiene que dejar de pensar en los datos como un producto secundario de un proceso y empezar a considerarlos como un producto en sí mismo. Los productores de datos actúan como propietarios del producto de datos. Como expertos en la materia, los productores de datos pueden utilizar sus conocimientos de los consumidores de datos primarios para diseñar API para ellos. Desde otras partes de la organización también se podrá acceder a estas API, ampliando así el acceso a los datos gestionados.

Los sistemas de almacenamiento más tradicionales, como los lagos de datos y los almacenes de datos, se pueden utilizar como varios repositorios de datos descentralizados para realizar una malla de datos. Una malla de datos también puede funcionar con un entramado de datos, con la automatización del entramado de datos que permite crear nuevos productos de datos más rápidamente o imponer el gobierno global.

 


Ventajas de las arquitecturas de datos

Una arquitectura de datos bien construida puede ofrecer a las empresas distintas ventajas clave, que incluyen:

  • Reducción de la redundancia: puede haber campos de datos que se solapen en diferentes orígenes, lo que incrementa el riesgo de incoherencia, imprecisiones de datos y oportunidades perdidas para la integración de los datos. Una buena arquitectura de datos puede estandarizar el modo en que se almacenan los datos y potencialmente reducir la duplicación, lo que favorece una mejor calidad y análisis integrales.
  • Mejora de la calidad de los datos: las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los lagos de datos mal datos gestionados, también conocidos como "pantanos de datos". Un pantano de datos carece de prácticas apropiadas de calidad y gobierno de datos para proporcionar conocimientos prácticos. Las arquitecturas de datos pueden ayuda a imponer el gobierno de datos y estándares de seguridad de datos, con lo cual se puede llevar a cabo la supervisión adecuada en la canalización de datos para garantizar su funcionamiento según lo previsto. Al mejorar la calidad y el gobierno de los datos, las arquitecturas de datos aseguran que los datos se almacenen de manera que resulten útiles ahora y en el futuro.
  • Habilitación de la integración: los datos a menudo están aislados, a causa de limitaciones técnicas en el almacenamiento de datos y barreras organizativas dentro de la empresa. Las arquitecturas de datos actuales deben centrarse en facilitar la integración de los datos entre dominios, de modo que diferentes zonas geográficas y funciones de negocio tengan acceso a los datos de los demás. Esto permite comprender mejor las métricas comunes (como gastos, ingresos y sus factores asociados), además de ofrecer una visión más integral de los clientes, los productos y las zonas geográficas, para tomar mejores decisiones.
  • Gestión del ciclo de vida de los datos: una arquitectura de datos moderna puede dirigir el modo de gestionar los datos a lo largo del tiempo. Los datos suelen perder utilidad a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos se pueden migrar a tipos de almacenamiento más baratos y lentos, de manera que sigan estando disponibles para informes y auditorías, pero sin el gasto de un almacenamiento de alto rendimiento.

Arquitectura de datos moderna

A medida que las organizaciones establecen su hoja de ruta para las aplicaciones futuras, incluidas las cargas de trabajo de IA, blockchain e Internet de las cosas (IoT), necesitan una arquitectura de datos moderna capaz de atender los requisitos de los datos.

Las siete características principales de una arquitectura de datos moderna son:

  • Nativa en cloud y habilitada para cloud, para que la arquitectura de datos pueda beneficiarse del escalado elástico y la alta disponibilidad del cloud.
  • Canalizaciones de datos sólidas, escalables y portátiles, que combinen flujos de trabajo inteligentes, analítica cognitiva e integración en tiempo real en un único marco de trabajo.
  • Integración de datos perfecta, utilizando interfaces de API estándar para conectarse a las aplicaciones existentes.
  • Habilitación de datos en tiempo real, que incluye la validación, la clasificación, la gestión y el gobierno.
  • Desacoplada y extensible, por lo que no existen dependencias entre servicios y los estándares abiertos facilitan la interoperatividad.
  • Basada en dominios de datos comunes, sucesos y microservicios.
  • Optimizada para equilibrar coste y simplicidad.

Soluciones de IBM

IBM Cloud Pak for Data

IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un entramado de datos para facilitar todos los datos para IA y analítica en cualquier cloud.


IBM Watson® Studio

Cree, ejecute y gestione modelos de IA. Prepare los datos y cree modelos en cualquier cloud mediante código abierto o modelado visual. Prevea y optimice sus resultados.


IBM® Db2® on Cloud

Conozca Db2 on Cloud, una base de datos en cloud SQL completamente gestionada y optimizada para reforzar el rendimiento.



Dé el siguiente paso

IBM da soporte a la implementación de arquitecturas de datos modernas a través de sus soluciones entramado de datos. El enfoque de IBM para un entramado de datos aborda cuatro puntos débiles principales de los clientes: gobierno y privacidad de datos, integración de datos multicloud, MLOps e IA fiable y Customer 360, todo ello en su plataforma de cloud híbrido, IBM Cloud Pak for Data.