Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, la distribución y el consumo. Establece el plan para los datos y la forma en que fluyen a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).
El diseño de una arquitectura de datos debe regirse por los requisitos del negocio, que los arquitectos de datos y los ingenieros de datos utilizan para definir su respectivo modelo de datos y las estructuras de datos subyacentes que lo sustentan. Estos diseños suelen responder a una necesidad de negocio, como la elaboración de informes o una iniciativa de ciencia de datos.
Ante el surgimiento de nuevos orígenes de datos a través de tecnologías emergentes, como el Internet de las cosas (IoT), una buena arquitectura de datos garantiza que los datos sean manejables y útiles, lo que facilita la gestión del ciclo de vida. Más específicamente, puede evitar el almacenamiento de datos redundante, mejorar la calidad de los datos mediante la limpieza y la eliminación de duplicados y habilitar nuevas aplicaciones. Las arquitecturas de datos modernas también brindan mecanismos para integrar datos entre dominios, como entre departamentos o zonas geográficas, rompiendo silos de datos sin la enorme complejidad que implica almacenar todo en un mismo sitio.
Las arquitecturas de datos modernas a menudo aprovechan las plataformas en cloud para gestionar y procesar los datos. Si bien pueden resultar más costosas, su escalabilidad de cálculo permite que las tareas de procesamiento de datos más importantes se completen rápidamente. La escalabilidad del almacenamiento también ayuda a hacer frente a los crecientes volúmenes de datos y a garantizar que todos los datos relevantes estén disponible para mejorar la calidad a la hora de entrenar las aplicaciones de IA.
La documentación de la arquitectura de datos incluye tres tipos de modelos de datos
Una arquitectura de datos puede basarse en marcos de trabajo populares de arquitectura empresarial, incluyendo TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.
The Open Group Architecture Framework (TOGAF)
Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group, del cual IBM es miembro Platinum.
Esta arquitectura se basa en cuatro pilares:
Como tal, TOGAF proporciona un marco de trabajo completo para diseñar e implementar la arquitectura de TI de una empresa, incluida su arquitectura de datos.
DAMA-DMBOK 2
DAMA International, originalmente fundada como Data Management Association International, es una organización sin ánimo de lucro dedicada al avance en la gestión de datos y la información. Su cuerpo de conocimiento de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, así como el gobierno y la ética, el modelado y el diseño de los datos, el almacenamiento, la seguridad y la integración.
Zachman Framework for Enterprise Architecture
Desarrollado originalmente por John Zachman en IBM en 1987, este marco de trabajo utiliza una matriz de seis capas, desde la contextual hasta la detallada, correlacionadas con seis preguntas que incluyen por qué, cómo y qué. Proporciona un modo formal de organizar y analizar datos, pero no incluye métodos para hacerlo.
Una arquitectura de datos demuestra una perspectiva de alto nivel de cómo trabajan juntos los diferentes sistemas de gestión de datos. Estos sistemas incluyen diferentes repositorios de almacenamiento de datos, tales como lagos de datos, almacenes de datos, data marts o bases de datos. Juntos, pueden crear arquitecturas de datos, como entramados de datos y mallas de datos, que están ganando cada vez más popularidad. Estas arquitecturas se centran más en los datos como productos, favoreciendo la estandarización en torno a metadatos y la democratización de los datos en las distintas organizaciones a través de las API.
En la siguiente sección se describe más detenidamente cada uno de estos componentes de almacenamiento y tipos de arquitectura de datos:
Tipos de sistemas de gestión de datos
Tipos de arquitecturas de datos
Entramados de datos: un entramado de datos es una arquitectura, que se centra en la automatización de la integración de los datos, la ingeniería de datos y el gobierno en una cadena de valor de los datos entre sus proveedores y consumidores. Un entramado de datos se basa en la noción de "metadatos de activos" que utiliza gráficos de conocimientos, semántica, minería de datos y tecnología de machine learning (ML) para descubrir patrones en varios tipos de metadatos (por ejemplo, registros del sistema, redes sociales, etc.). A continuación, aplica toda esta información de valor para automatizar y orquestar la cadena de valor de datos. Por ejemplo, puede permitir que un consumidor de datos encuentre un producto de datos y suministrarle ese producto de datos automáticamente. Un mayor acceso a los datos entre los productos de datos y sus consumidores permite reducir los silos de datos y proporciona una imagen más completa de los datos de la organización. Los entramados de datos son una tecnología emergente con un enorme potencial y se pueden utilizar para mejorar la creación de perfiles de clientes, la detección de fraude y el mantenimiento preventivo. Según Gartner, los entramados de datos reducen el tiempo de diseño de la integración en un 30 %, el tiempo de despliegue en un 30 % y el mantenimiento en un 70 %.
Mallas de datos: una malla de datos es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial. Al usar una malla de datos, la organización tiene que dejar de pensar en los datos como un producto secundario de un proceso y empezar a considerarlos como un producto en sí mismo. Los productores de datos actúan como propietarios del producto de datos. Como expertos en la materia, los productores de datos pueden utilizar sus conocimientos de los consumidores de datos primarios para diseñar API para ellos. Desde otras partes de la organización también se podrá acceder a estas API, ampliando así el acceso a los datos gestionados.
Los sistemas de almacenamiento más tradicionales, como los lagos de datos y los almacenes de datos, se pueden utilizar como varios repositorios de datos descentralizados para realizar una malla de datos. Una malla de datos también puede funcionar con un entramado de datos, con la automatización del entramado de datos que permite crear nuevos productos de datos más rápidamente o imponer el gobierno global.
Una arquitectura de datos bien construida puede ofrecer a las empresas distintas ventajas clave, que incluyen:
A medida que las organizaciones establecen su hoja de ruta para las aplicaciones futuras, incluidas las cargas de trabajo de IA, blockchain e Internet de las cosas (IoT), necesitan una arquitectura de datos moderna capaz de atender los requisitos de los datos.
Las siete características principales de una arquitectura de datos moderna son:
IBM Cloud Pak for Data es una plataforma de datos abierta y ampliable que proporciona un entramado de datos para facilitar todos los datos para IA y analítica en cualquier cloud.
Cree, ejecute y gestione modelos de IA. Prepare los datos y cree modelos en cualquier cloud mediante código abierto o modelado visual. Prevea y optimice sus resultados.
Conozca Db2 on Cloud, una base de datos en cloud SQL completamente gestionada y optimizada para reforzar el rendimiento.