Una arquitectura de datos describe cómo se gestionan los datos, desde su recogida hasta su transformación, distribución y consumo. Establece el proyecto técnico para los datos y la forma en que fluyen a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).
El diseño de una arquitectura de datos debe guiarse por los requisitos de la compañía y necesidades de datos, que los data architects y los ingenieros de datos emplean para definir el modelo de datos respectivo y las estructuras de datos subyacentes que lo sustentan. Estos diseños suelen facilitar una estrategia o necesidad empresarial, como una iniciativa de generación de informes o de ciencia de datos.
A medida que aparecen nuevas fuentes de datos procedentes de tecnologías emergentes, como el Internet de las cosas (IoT), una buena arquitectura de datos ayuda a garantizar que los datos sean manejables y útiles, apoyando la gestión del ciclo de vida de los datos. Más específicamente, puede evitar el almacenamiento de datos redundantes, mejorar la calidad de los datos mediante su limpieza y eliminación de la duplicación y permitir nuevas aplicaciones como la IA generativa.
Las arquitecturas de datos modernas también proporcionan mecanismos para integrar datos entre dominios, como entre departamentos o regiones geográficas. Rompen los silos de datos sin la enorme complejidad que supone almacenar todo en un único lugar.
Las arquitecturas de datos modernas a menudo usan las plataformas en la nube para gestionar y procesar datos. Si bien puede ser más costoso, su escalabilidad informática permite que las tareas importantes de procesamiento de datos se completen rápidamente. La escalabilidad del almacenamiento también ayuda a hacer frente a los crecientes volúmenes de datos y a garantizar que todos los datos relevantes estén disponibles para mejorar la calidad de las aplicaciones de IA de entrenamiento.
La documentación de arquitectura de datos incluye tres tipos de modelo de datos:
Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, incluidos TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.
Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group, del cual IBM es miembro Platino.
La arquitectura se basa en 4 pilares:
TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una compañía, incluida su arquitectura de datos.
DAMA International, fundada originalmente como Data Management Association International, es una organización sin fines de lucro dedicada a promover la gestión de datos e información. Su cuerpo de conocimientos de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, la gobernanza y la ética, el modelado y diseño de datos, el almacenamiento, la seguridad y la integración.
Originalmente desarrollado por John Zachman en IBM en 1987, este marco utiliza una matriz de seis capas, desde contextual hasta detallada, mapeadas contra seis preguntas tipo por qué, cómo y qué. Proporciona una manera formal de organizar y analizar datos pero no incluye métodos para hacerlo.
Una arquitectura de datos demuestra una perspectiva de alto nivel de cómo funcionan juntos los diferentes sistemas de gestión de datos. Estos incluyen varias plataformas de datos y repositorios de almacenamiento de datos, como lagos de datos, almacenes de datos, mercados de datos, bases de datos y más.
Juntos, estos pueden crear arquitecturas de datos, como data fabrics y data meshes, que son más populares. Estas arquitecturas se centran más en los datos como productos, creando más estandarización en torno a los metadatos y más democratización de los datos en todas las organizaciones a través de interfaces de programación de aplicaciones (API).
La siguiente sección profundiza en cada uno de estos componentes de almacenamiento y tipos de arquitectura de datos:
Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en toda una compañía en un repositorio único, central y coherente. Después de la extracción, los datos fluyen a través de un pipeline de datos de extracción, transformación y carga (ETL), pasando por varias transformaciones de datos para cumplir con el modelo de datos predefinido. Cuando se cargan en el almacén de datos, los datos viven para admitir diferentes aplicaciones de business intelligence (BI) y ciencia de datos.
Un mercado de datos es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos importantes y necesarios para un solo equipo o un grupo selecto de stakeholders, como el departamento de RR. HH. Dado que contienen un subconjunto de datos más reducido, los mercados de datos permiten a un departamento o línea de negocio descubrir insights más específicos con mayor rapidez que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.
Los mercados de datos surgieron originalmente como respuesta a las dificultades que tenían las organizaciones para configurar almacenes de datos en la década de 1990. En ese momento, integrar datos de toda la organización requería muchos esfuerzos de programación manual y consumía demasiado tiempo. El alcance más limitado de los depósitos de datos hizo que su implementación fuera más fácil y rápida que la de los almacenes de datos centralizados.
Mientras que los almacenes de datos almacenan datos procesados, un lago de datos alberga datos sin procesar, generalmente petabytes. Un lago de datos puede almacenar datos estructurados y no estructurados, lo que lo hace único frente a otros repositorios de datos. Esta flexibilidad en los requisitos de almacenamiento es útil para analistas de datos, científicos de datos, ingenieros de datos y desarrolladores, ya que les permite acceder a los datos para ejercicios de descubrimiento de datos y proyectos de machine learning (ML).
Los lagos de datos se crearon originalmente como respuesta a la incapacidad del almacén de datos para manejar el creciente volumen, velocidad y variedad de big data. Si bien los lagos de datos son más lentos que los almacenes de datos, también son más baratos, ya que hay poca o ninguna preparación de datos antes de la ingesta. Hoy en día, continúan evolucionando como parte de los esfuerzos de migración de datos a la nube.
Los lagos de datos admiten una amplia gama de casos de uso, porque no es necesario definir los objetivos comerciales para los datos en el momento de la recopilación de datos. Sin embargo, 2 principales casos de uso incluyen la exploración de la ciencia de datos y los esfuerzos de copia de seguridad y recuperación de datos.
Los científicos de datos pueden usar lagos de datos para pruebas de concepto. Las aplicaciones de machine learning se benefician de la capacidad de almacenar datos estructurados y no estructurados en el mismo lugar, lo que no es posible con un sistema de base de datos relacional.
Los lagos de datos también se pueden emplear para probar y desarrollar proyectos de big data analytics. Cuando la aplicación se ha desarrollado y los datos útiles se han identificado, los datos se pueden exportar a un almacén de datos para uso operativo, y la automatización se puede emplear para escalar la aplicación.
Los lagos de datos también se pueden emplear para la copia de seguridad y recuperación de datos, debido a su capacidad de escalar a bajo costo. Por las mismas razones, los lagos de datos son buenos para almacenar datos "por si acaso", para los cuales aún no se han definido las necesidades comerciales. Almacenar los datos ahora significa que están disponibles más adelante a medida que surjan nuevas iniciativas.
Un data lakehouse es una plataforma de datos que combina aspectos de data warehouses y data lakes en una solución de administración de datos .
Un lakehouse combina almacenamiento de bajo costo con un motor de consulta de alto rendimiento y gobernanza inteligente de metadatos. Esto permite a las organizaciones almacenar grandes cantidades de datos, tanto estructurados como no estructurados, y utilizarlos fácilmente para esfuerzos de IA, machine learning (ML) y analytics.
Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los diferentes tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las, bases de datos relacionales (también llamadas "SQL databases") almacenan los datos en tablas definidas con filas y columnas. Las bases de datos no relacionales (también denominadas "NoSQL databases") pueden almacenarlos en forma de diversas estructuras de datos, como pares clave-valor o grafos.
Un data fabric es una arquitectura que se centra en la automatización de la integración de datos, la ingeniería de datos y la gobernanza en una cadena de valor de datos entre proveedores y consumidores de datos.
Un data fabric se basa en la noción de “metadatos activos” que utiliza catálogos de datos, gráficos de conocimientos, semántica, minería de datos y tecnología de machine learning para descubrir patrones en diversos tipos de metadatos (por ejemplo, registros del sistema, sociales y más). A continuación, aplica estos insights para automatizar y orquestar la cadena de valor de los datos.
Por ejemplo, un data fabric puede permitir a un consumidor de datos encontrar un producto de datos y que se le suministre automáticamente. El mayor acceso a los datos entre los productos de datos y los consumidores de datos conduce a una reducción de los silos de datos y proporciona una imagen más completa de los datos de la organización.
Los data fabrics son una tecnología emergente con un enorme potencial. Se pueden utilizar para mejorar la creación de perfiles de clientes, la detección de fraudes y el mantenimiento preventivo. Según Gartner, los tejidos de datos reducen el tiempo de diseño de la integración en un 30%, el tiempo de despliegue en un 30% y el mantenimiento en un 70%.
Una data mesh es una arquitectura de datos descentralizada que organiza los datos por dominio empresarial.
Al emplear una malla de datos, la organización debe dejar de pensar en los datos como un subproducto de un proceso y comenzar a pensar en ellos como un producto por derecho propio. Los productores de datos actúan como propietarios de productos de datos. Como expertos en la materia, los productores de datos pueden emplear su comprensión de los consumidores principales de los datos para diseñar API para ellos. También se puede acceder a estas API desde otras partes de la organización, lo que proporciona un acceso más amplio a los datos gestionados.
Los sistemas de almacenamiento más tradicionales, como los lagos de datos y los almacenes de datos, se pueden emplear como múltiples repositorios de datos descentralizados para realizar una malla de datos. Una malla de datos también puede funcionar con un tejido de datos, con la automatización del tejido de datos que permite crear nuevos productos de datos más rápidamente o aplicar la gobernanza global.
Una arquitectura de datos bien construida puede ofrecer a las compañías varios beneficios clave, entre los que se incluyen:
Puede haber superposición de campos de datos en diferentes fuentes, lo que genera el riesgo de inconsistencia, imprecisiones en los datos y pérdida de oportunidades de integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y potencialmente reducir la duplicación, lo que permite realizar análisis holísticos y de mejor calidad.
Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los lagos de datos mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos apropiados, incluidas prácticas de calidad y gobernanza de datos, para brindar lecciones esclarecedoras.
Las arquitecturas de datos pueden ayudar a aplicar estándares de gobernanza de datos y seguridad de datos, lo que permite la supervisión adecuada de la pipelines de datos. Al mejorar la calidad y el gobierno de los datos, las arquitecturas de datos pueden ayudar a garantizar que los datos se almacenen de una manera que los haga útiles ahora y en el futuro.
Los datos a menudo están en silos como resultado de las limitaciones técnicas en el almacenamiento de datos y las barreras organizacionales dentro de la compañía. Las arquitecturas de datos actuales deben tener como objetivo facilitar la integración de datos entre dominios, de modo que diferentes regiones geográficas y funciones comerciales tengan acceso a los datos de los demás. Eso conduce a una comprensión mejor y más coherente de las métricas comunes (como gastos, ingresos y sus impulsores asociados). También permite una visión más holística de los clientes, los productos y las zonas geográficas para informar la toma de decisiones basada en datos.
Una arquitectura de datos moderna puede abordar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volver menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos se pueden migrar a tipos de almacenamiento más baratos y lentos para que permanezcan disponibles para informes y auditorías, pero sin el gasto de almacenamiento de alto rendimiento.
A medida que las organizaciones crean sus hojas de ruta para las aplicaciones del mañana, incluidas las cargas de trabajo de IA, blockchain e Internet de las cosas (IoT), necesitan una arquitectura de datos moderna que pueda satisfacer los requisitos de datos.
Las características principales de una arquitectura de datos moderna son:
Utilice las soluciones de bases de datos de IBM para satisfacer las distintas necesidades de carga de trabajo en la nube híbrida.
Explore IBM Db2, una base de datos relacional que ofrece alto rendimiento, escalabilidad y fiabilidad para almacenar y gestionar datos estructurados. Está disponible como SaaS en IBM Cloud o para autoalojamiento.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.