Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, distribución y consumo, estableciendo el proyecto técnico de cómo fluyen los datos a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).
El diseño de una arquitectura de datos a menudo se basa en los requisitos comerciales y las necesidades de datos, que son lo que los arquitectos de datos e ingenieros de datos emplean para definir el modelo de datos y las estructuras de datos subyacentes que lo respaldan. El diseño suele facilitar una estrategia o necesidad empresarial, como la generación de informes o una iniciativa de ciencia de datos.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
A medida que las organizaciones amplían sus datos, la necesidad de una arquitectura bien estructurada y adaptable se volvió primordial. Y, sin embargo, el 94 % de los líderes de datos enumeró la ausencia de una arquitectura de datos definida entre sus principales retos.1
Una arquitectura de datos moderna puede ayudar a unificar y estandarizar los datos empresariales, lo que permite compartir datos sin problemas entre dominios empresariales. También proporciona una base escalable para casos de uso avanzados, como analítica de datos en tiempo real e IA generativa, ayudando a los equipos a extraer valor de los datos de forma más rápida y confiable.
A medida que tecnologías como el Internet de las cosas (IoT) generan nuevas fuentes de datos, una arquitectura bien diseñada garantiza que los datos sigan siendo manejables, integrados y útiles a lo largo de su ciclo de vida. Puede reducir la redundancia, mejorar la calidad de los datos y ayudar a eliminar los silos conectando sistemas en toda la compañía.
Bien hecha, la arquitectura de datos no es solo una estructura técnica: es una capacidad estratégica que convierte los datos sin procesar en un activo.
La arquitectura de datos reúne varios conceptos superpuestos. Lo siguiente puede ayudar a definir el escenario:
La arquitectura de datos moderna tiende a seguir uno de dos enfoques principales: centralizado o descentralizado. Estos modelos guían cómo se recopilan, almacenan y rigen los datos de la empresa.
Las arquitecturas centralizadas llevan los datos a plataformas unificadas (como lagos de datos o almacenes de datos) gestionadas bajo un único modelo de gobernanza de datos . Esto ayuda a reducir la redundancia, mejorar la calidad de los datos y respaldar el modelado de datos estructurados mediante lenguaje de consulta estructurado (SQL) y otras bases de datos relacionales.
Las arquitecturas descentralizadas distribuyen la propiedad de los datos entre los dominios empresariales. Los equipos gestionan los datos localmente, a menudo empleando sistemas de bases de datos no relacionales (también llamados "bases de datos NoSQL") o canalizaciones basadas en eventos con sus propios esquemas, metadatos y controles de acceso. Este enfoque admite casos de uso de integración y procesamiento de datos en tiempo real , transmisión de datos y machine learning (ML).
La mayoría de las organizaciones combinan ambos modelos para equilibrar la escalabilidad,la integración de datos y la agilidad. Este enfoque híbrido puede ayudar a admitir diferentes fuentes de datos, reducir los silos de datos y permitir operaciones nativas de la nube en plataformas como AWS o Microsoft Azure.
Independientemente del modelo arquitectónico que adopte una organización, el éxito depende de qué tan bien estén estructurados los datos subyacentes. Ahí es donde entra en juego el modelado de datos.
Mientras que la arquitectura de datos se centra en cómo fluyen los datos a través de los sistemas, el modelado de datos se centra en cómo se estructuran los datos dentro de esos sistemas. Los modelos de datos definen la forma, las relaciones y las restricciones de la información a medida que se mueve a través de una arquitectura.
La documentación de la arquitectura de datos suele incluir tres tipos de modelos:
También denominados modelos de dominio ", los modelos conceptuales de datos" ofrecen una visión holística de lo que contendrá el sistema, cómo se organizará y qué business rules se aplicarán. Estos modelos suelen crear durante las primeras fases de planeación del proyecto e incluyen las clases de entidades (elementos definidos que deben rastrear en el modelo de datos), sus características y restricciones, las relaciones entre ellas y cualquier requisito pertinente de seguridad o integridad de los datos.
Los modelos de datos lógicos son menos abstractos que los conceptuales y proporcionan más detalles sobre las entidades y relaciones dentro de un dominio determinado. Siguen una notación formal de modelado de datos y definen atributos de datos, como tipos y longitudes de datos, al tiempo que ilustran cómo se conectan las entidades. Es importante destacar que los modelos lógicos siguen siendo independientes de la tecnología y no incluyen requisitos específicos del sistema.
Los modelos de datos físicos son los más detallados de los tres y describen cómo se implementará la base de datos. Definen estructuras de tablas, índices, formatos de almacenamiento y consideraciones de rendimiento. Estos modelos se centran en los aspectos técnicos de cómo se almacenan los datos estructurados y se accede a ellos, y se emplean para orientar la creación, configuración y optimización de esquemas.
Los modelos de datos conforman la estructura de la información dentro de un sistema. A partir de ahí, unos marcos más amplios guían la forma de implantar los modelos y los sistemas que los rodean.
Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, incluidos TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.
Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group. Su arquitectura consta de cuatro pilares:
TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una compañía, incluida su arquitectura de datos.
DAMA International, fundada originalmente como Data Management Association International, es una organización sin fines de lucro dedicada a promover la gestión de datos e información. Su cuerpo de conocimientos de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, la gobernanza y la ética, el modelado y diseño de datos, el almacenamiento, la seguridad y la integración.
Desarrollado originalmente por John Zachman en IBM en 1987, este infraestructura utiliza una matriz de 6 capas, desde contextual hasta detallada, mapeadas en seis preguntas (como qué, por qué y cómo). Proporciona una manera formal de organizar y analizar datos pero no incluye métodos para hacerlo.
Una arquitectura de datos se construye a partir de múltiples componentes interdependientes que gestionan cómo se mueven, almacenan, gobiernan y acceden los datos. Estos elementos forman la base operativa de los sistemas de datos y respaldan todo, desde la ingesta hasta analytics.
Los componentes de la arquitectura de datos suelen clasificarse en categories amplias, cada una con varias subcategorías:
Los datos se capturan de fuentes externas e internas y se mueven al sistema para su procesamiento y almacenamiento.
Los pipelines ingieren, transforman y transportan datos desde su punto de origen hasta donde se procesan y almacenan. Estos sistemas pueden seguir patrones de lotes, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). También pueden transmitir datos casi en tiempo real. Los pipelines modernos suelen incluir lógica de transformación, controles de calidad y validación de esquemas como parte del flujo.
Las interfaces de programación de aplicaciones (API) y los conectores predefinidos permiten una integración perfecta entre los sistemas de datos, las aplicaciones y las herramientas de analytics. Proporcionan una forma estandarizada de agilizar el acceso a los datos en distintas plataformas y son fundamentales para el intercambio de datos en tiempo real.
Una vez ingeridos, los datos se almacenan en sistemas escalables, tanto estructurados como no estructurados, donde quedan disponibles para su uso y análisis posteriores.
Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en toda una empresa en un repositorio único, central y coherente. Tras la extracción, los datos fluyen a través de una canalización ETL, someter a diversas transformaciones para ajustar al modelo de datos predefinido. Cuando se cargan en el sistema de almacenamiento de datos, los datos están disponibles para diversas aplicaciones de business intelligence (BI) y ciencia de datos.
Un mercado de datos es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos relevantes para un solo equipo o grupo de stakeholders. Al reducir el alcance, los mercados de datos permiten obtener insights más rápidos y específicos que trabajar con el conjunto de datos de almacén más amplio .
Un lago de datos almacena datos sin procesar y sin procesar, incluidos formatos estructurados y no estructurados, a escala. A diferencia de los almacenes de datos, los lagos de datos no requieren modelado o preparación de datos por adelantado, lo que los hace ideales para cargas de trabajo de big data.
Un lakehouse de datos fusiona aspectos de almacenes de datos y lagos de datos en una única solución de gestión de datos. Combina almacenamiento de bajo costo con un motor de consulta de alto rendimiento y gobernanza inteligente de metadatos.
Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los diferentes tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las bases de datos relacionales (también llamadas "bases de datos SQL") almacenan los datos en tablas con filas y columnas definidas. Las bases de datos NoSQL pueden almacenarla como diversas estructuras de datos, incluidos pares clave-valor o gráficos.
A medida que los datos fluyen y se acumulan, las herramientas de control aseguran que estén bien organizados, seguros y detectables a lo largo de su ciclo de vida.
Un catálogo de datos es un inventario centralizado de los activos de datos de una organización. Utiliza metadatos para proporcionar contexto sobre cada conjunto de datos, incluido su origen, estructura, propiedad, historial de uso y calidad. Los catálogos de datos ayudan a los usuarios a encontrar y evaluar datos, respaldar los esfuerzos de gobernanza y cumplimiento y facilitar la colaboración entre equipos.
Las herramientas delinaje rastrean el recorrido de los datos a través de los sistemas, mostrando cómo se transformaron y dónde se originaron. Esta visibilidad es esencial para las auditorías, la resolución de problemas y la comprensión de las dependencias. Las plataformas de observabilidad pueden complementar el linaje monitoreando el rendimiento de los pipelines y las métricas de calidad de los datos.
Por último, los datos llegan a las personas y sistemas que los utilizan a través de paneles, consultas o herramientas integradas que impulsan las decisiones.
Las plataformas business intelligence pueden mejorar el acceso a los datos mediante visualizaciones y paneles. Estas herramientas ayudan a los usuarios no técnicos a interpretar tendencias, monitorear indicadores clave de rendimiento (KPI) y tomar decisiones basadas en datos.
Los endpoints SQL y otras interfaces de consulta permiten a los analistas y científicos de datos Explorar y analizar los datos directamente. Herramientas como Apache Spark e IBM watsonx.data proporcionan la capa informática necesaria para ejecutar consultas en conjuntos de datos distribuidos a escala.
Algunas arquitecturas admiten la entrega de datos directamente a aplicaciones, flujos de trabajo o API. Estos data products integrados aportan insight sobre las operaciones diarias, lo que permite toma de decisiones basada en datos.
Los datos de toda la arquitectura también pueden alimentar los flujos de trabajo de IA y aprendizaje automático (ML). Los datos de entrenamiento a menudo provienen de data lakes, se transforman a través de pipelines y se utilizan para desarrollar y volver a entrenar modelos. Estos modelos se pueden desplegar en productos, paneles o procesos de negocio para mejorar la Automatización y la predicción.
La implementación de una arquitectura de datos implica traducir las necesidades del negocio en una hoja de ruta para la recopilación, organización, seguridad y accesibilidad de los datos. Si bien no hay dos implementaciones idénticas, la mayoría sigue un Approach por fases que se mover de la planificación a la ejecución.
El proceso comienza estableciendo lo que la compañía necesita de sus datos, ya sea habilitando machine learning o apoyando el cumplimiento. Esto informa las prioridades arquitectónicas, qué fuentes de datos incluir y qué sistemas requieren integración.
Los Data Architect desarrollan modelos de datos conceptuales, lógicos y físicos para guiar la estructura y el flujo. Estos modelos ayudan a identificar entidades clave, relaciones, requisitos de datos y controles de acceso. Al mismo tiempo, se establecen políticas de gobernanza para definir la propiedad, los derechos de acceso y las reglas del ciclo de vida de los datos.
Con los modelos y políticas implementados, los equipos diseñan la arquitectura en sí seleccionando tecnologías para almacenamiento, integración, gestión de metadatos y consumo. Esto incluye definir cómo se moverán los datos entre sistemas y dónde residirán en los sistemas de almacenamiento.
La implementación suele implicar el despliegue de pipelines de ingesta, el establecimiento de API, la configuración de capas de gobernanza y la habilitación de puntos de acceso, como paneles o endpoints de consulta. Los requisitos de seguridad y cumplimiento se integran durante esta etapa para proteger los datos.
Una vez desplegada, una arquitectura de datos debe monitorearse y refinarse continuamente. Los volúmenes de datos crecen; los casos de uso evolucionan; cambio de regulaciones. Las organizaciones a menudo revisan y reoptimizan sus arquitecturas, particularmente a medida que adoptan plataformas en la nube y adoptan patrones arquitectónicos modernos.
A medida que las organizaciones escalan, también lo hace la necesidad de una arquitectura de datos flexible y resiliente. La arquitectura de datos moderna prioriza la interoperabilidad , el acceso en tiempo real y la capacidad de gestionar los datos como un producto, no solo como un activo. También permite una mayor estandarización, gestión de metadatos y democratización a través de API.
Las características clave de una arquitectura de datos moderna incluyen:
Las organizaciones que modernizan su infraestructura de datos están adoptando nuevas estrategias de datos que reflejan la complejidad de los entornos híbridos, multinube actuales. Este cambio ha dado lugar a nuevos patrones arquitectónicos, en particular, tejidos de datos y mallas de datos.
El tejido de datos se centra en automatizar la integración y la gestión de datos en entornos híbridos. Utiliza metadatos activos y machine learning para descubrir relaciones entre sistemas y orquestar flujos de datos. Un tejido de datos puede aprovisionar productos de datos automáticamente y entregarlos bajo demanda, mejorando la eficiencia operativa y reduciendo los silos de datos.
La malla de datos descentraliza la propiedad de los datos al alinear la arquitectura con los dominios empresariales. Alienta a los productores de datos, los más cercanos a la fuente, a tratar los datos como un producto y diseñar API pensando en los consumidores. Este modelo ayuda a eliminar los cuellos de botella y admite la democratización de datos escalable en toda la empresa.
Y aunque estos enfoques difieren, no son mutuamente excluyentes. Muchas organizaciones implementan elementos de ambos, utilizando la automatización de un tejido para escalar la gobernanza descentralizada de una malla.
Una arquitectura de datos bien construida puede ofrecer a las empresas ventajas significativas, que incluyen:
La superposición de campos de datos en diferentes fuentes puede generar inconsistencias, imprecisiones y oportunidades perdidas para la integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y potencialmente reducir la redundancia, lo que permite realizar análisis holísticos y de mejor calidad.
Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los lagos de datos mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos apropiados (incluidas las prácticas de calidad y gobernanza de datos) para proporcionar insights valiosos. Las arquitecturas de datos pueden ayudar a hacer cumplir los estándares de gobernanza de datos y seguridad de datos, lo que permite una supervisión adecuada del pipeline de datos.
Los datos a menudo están en silos debido a las limitaciones técnicas en el almacenamiento de datos y las barreras organizacionales dentro de la compañía. Las arquitecturas de datos actuales deben tener como objetivo facilitar la integración de datos entre dominios, de modo que diferentes regiones geográficas y funciones comerciales tengan acceso a los datos de los demás. Esto puede conducir a una comprensión mejor y más coherente de las métricas comunes y permite una visión más holística del negocio para fundamentar la toma de decisiones basada en datos.
Una arquitectura de datos moderna puede abordar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volver menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos se pueden migrar a tipos de almacenamiento más baratos y lentos para que permanezcan disponibles para informes y auditorías, pero sin el gasto de almacenamiento de alto rendimiento.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.