¿Qué es la arquitectura de datos?

By Tom Krantz , Alexandra Jonker

¿Qué es la arquitectura de datos?

Una arquitectura de datos describe cómo se administran los datos, desde la recopilación y transformación hasta la distribución y el consumo, estableciendo el proyecto técnico de cómo fluyen a través de la organización. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).

El diseño de una arquitectura de datos a menudo se basa en los requisitos comerciales y las necesidades de datos, que son lo que los arquitectos de datos e ingenieros de datos emplean para definir el modelo de datos y las estructuras de datos subyacentes que lo respaldan. El diseño suele facilitar una estrategia o necesidad empresarial, como la generación de informes o una iniciativa de ciencia de datos.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¿Por qué es importante la arquitectura de datos?

A medida que las organizaciones amplían sus datos, la necesidad de una arquitectura bien estructurada y adaptable se volvió primordial. Y, sin embargo, el 94 % de los líderes de datos enumeró la ausencia de una arquitectura de datos definida entre sus principales retos^.1

Una arquitectura de datos moderna puede ayudar a unificar y estandarizar los datos empresariales, lo que permite compartir datos sin problemas entre dominios empresariales. También proporciona una base escalable para casos de uso avanzados, como analítica de datos en tiempo real e IA generativa, ayudando a los equipos a extraer valor de los datos de forma más rápida y confiable.

A medida que tecnologías como el Internet de las cosas (IoT) generan nuevas fuentes de datos, una arquitectura bien diseñada garantiza que los datos sigan siendo manejables, integrados y útiles a lo largo de su ciclo de vida. Puede reducir la redundancia, mejorar la calidad de los datos y ayudar a eliminar los silos conectando sistemas en toda la compañía.

Bien hecha, la arquitectura de datos no es solo una estructura técnica: es una capacidad estratégica que convierte los datos sin procesar en un activo.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

Términos clave en la arquitectura de datos

La arquitectura de datos reúne varios conceptos superpuestos. Lo siguiente puede ayudar a definir el escenario:

Plataforma: el entorno de tecnología subyacente que aloja y ejecuta los sistemas de datos. Esto incluye herramientas on premises o basadas en la nube.

Modelo de datos: una representación detallada de cómo se organizan los datos dentro de un sistema. Define entidades, relaciones y formatos.

Marco: una metodología estratégica utilizada para diseñar y gestionar la arquitectura empresarial. Los marcos proporcionan enfoques estructurados para alinear los sistemas de datos con los objetivos comerciales.

Componente: elemento funcional que desempeña una función específica dentro de la arquitectura. Ejemplos incluyen pipelines para movimiento, data lakes para almacenamiento en bruto y catálogos para la gestión de metadatos.

Patrón: una solución repetible para un desafío arquitectónico común. Patrones como el tejido de datos o la malla de datos describen formas probadas de mejorar la escalabilidad, la gobernanza o la accesibilidad.

Tipos de arquitectura de datos

La arquitectura de datos moderna tiende a seguir uno de dos enfoques principales: centralizado o descentralizado. Estos modelos guían cómo se recopilan, almacenan y rigen los datos de la empresa.

Las arquitecturas centralizadas llevan los datos a plataformas unificadas (como lagos de datos o almacenes de datos) gestionadas bajo un único modelo de gobernanza de datos . Esto ayuda a reducir la redundancia, mejorar la calidad de los datos y respaldar el modelado de datos estructurados mediante lenguaje de consulta estructurado (SQL) y otras bases de datos relacionales.

Las arquitecturas descentralizadas distribuyen la propiedad de los datos entre los dominios empresariales. Los equipos gestionan los datos localmente, a menudo empleando sistemas de bases de datos no relacionales (también llamados "bases de datos NoSQL") o canalizaciones basadas en eventos con sus propios esquemas, metadatos y controles de acceso. Este enfoque admite casos de uso de integración y procesamiento de datos en tiempo real , transmisión de datos y machine learning (ML).

La mayoría de las organizaciones combinan ambos modelos para equilibrar la escalabilidad,la integración de datos y la agilidad. Este enfoque híbrido puede ayudar a admitir diferentes fuentes de datos, reducir los silos de datos y permitir operaciones nativas de la nube en plataformas como AWS o Microsoft Azure.

Independientemente del modelo arquitectónico que adopte una organización, el éxito depende de qué tan bien estén estructurados los datos subyacentes. Ahí es donde entra en juego el modelado de datos.

¿Cuáles son los tres tipos de modelos de datos?

Mientras que la arquitectura de datos se centra en cómo fluyen los datos a través de los sistemas, el modelado de datos se centra en cómo se estructuran los datos dentro de esos sistemas. Los modelos de datos definen la forma, las relaciones y las restricciones de la información a medida que se mueve a través de una arquitectura.

La documentación de la arquitectura de datos suele incluir tres tipos de modelos:

Modelos de datos conceptuales
Modelos de datos lógicos
Modelos de datos físicos

Modelos de datos conceptuales

También denominados modelos de dominio ", los modelos conceptuales de datos" ofrecen una visión holística de lo que contendrá el sistema, cómo se organizará y qué business rules se aplicarán. Estos modelos suelen crear durante las primeras fases de planeación del proyecto e incluyen las clases de entidades (elementos definidos que deben rastrear en el modelo de datos), sus características y restricciones, las relaciones entre ellas y cualquier requisito pertinente de seguridad o integridad de los datos.

Modelos de datos lógicos

Los modelos de datos lógicos son menos abstractos que los conceptuales y proporcionan más detalles sobre las entidades y relaciones dentro de un dominio determinado. Siguen una notación formal de modelado de datos y definen atributos de datos, como tipos y longitudes de datos, al tiempo que ilustran cómo se conectan las entidades. Es importante destacar que los modelos lógicos siguen siendo independientes de la tecnología y no incluyen requisitos específicos del sistema.

Modelos de datos físicos

Los modelos de datos físicos son los más detallados de los tres y describen cómo se implementará la base de datos. Definen estructuras de tablas, índices, formatos de almacenamiento y consideraciones de rendimiento. Estos modelos se centran en los aspectos técnicos de cómo se almacenan los datos estructurados y se accede a ellos, y se emplean para orientar la creación, configuración y optimización de esquemas.

Los modelos de datos conforman la estructura de la información dentro de un sistema. A partir de ahí, unos marcos más amplios guían la forma de implantar los modelos y los sistemas que los rodean.

Marcos de arquitectura de datos más conocidos

Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, incluidos TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.

Marco de Arquitectura del Grupo Abierto (TOGAF)

Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group. Su arquitectura consta de cuatro pilares:

La arquitectura empresarial define la estructura organizacional, la estrategia de datos y los procesos de la compañía.

La arquitectura de datos describe los activos de datos conceptuales, lógicos y físicos y cómo se almacenan y gestionan a lo largo de su ciclo de vida.

La arquitectura de aplicaciones representa los sistemas de aplicaciones y cómo se relacionan con los procesos clave del negocio y entre sí.

La arquitectura técnica representa la infraestructura de datos (hardware, software y redes) necesaria para soportar aplicaciones de misión crítica.

TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una compañía, incluida su arquitectura de datos.

DAMA-DMBOK 2

DAMA International, fundada originalmente como Data Management Association International, es una organización sin fines de lucro dedicada a promover la gestión de datos e información. Su cuerpo de conocimientos de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, la gobernanza y la ética, el modelado y diseño de datos, el almacenamiento, la seguridad y la integración.

Zachman Framework for Enterprise Architecture

Desarrollado originalmente por John Zachman en IBM en 1987, este infraestructura utiliza una matriz de 6 capas, desde contextual hasta detallada, mapeadas en seis preguntas (como qué, por qué y cómo). Proporciona una manera formal de organizar y analizar datos pero no incluye métodos para hacerlo.

Componentes de la arquitectura de datos

Una arquitectura de datos se construye a partir de múltiples componentes interdependientes que gestionan cómo se mueven, almacenan, acceden y gobiernan los datos. Estos elementos forman la base operativa de los sistemas de datos, respaldando todo, desde la ingesta hasta el analytics.

Los componentes de la arquitectura de datos suelen clasificarse en categories amplias, cada una con varias subcategorías:

Flujo e integración

Los datos se capturan de fuentes externas e internas y se mueven al sistema para su procesamiento y almacenamiento.

Pipelines de datos

Los pipelines ingieren, transforman y transportan datos desde su punto de origen hasta donde se procesan y almacenan. Estos sistemas pueden seguir patrones de lotes, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). También pueden transmitir datos casi en tiempo real. Los pipelines modernos suelen incluir lógica de transformación, controles de calidad y validación de esquemas como parte del flujo.

API y conectores

Las interfaces de programación de aplicaciones (API) y los conectores predefinidos permiten una integración perfecta entre los sistemas de datos, las aplicaciones y las herramientas de analytics. Proporcionan una forma estandarizada de agilizar el acceso a los datos en distintas plataformas y son fundamentales para el intercambio de datos en tiempo real.

Sistemas de almacenamiento

Una vez ingeridos, los datos se almacenan en sistemas escalables, tanto estructurados como no estructurados, donde quedan disponibles para su uso y análisis posteriores.

Almacenes de datos

Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en toda una empresa en un repositorio único, central y coherente. Tras la extracción, los datos fluyen a través de una canalización ETL, someter a diversas transformaciones para ajustar al modelo de datos predefinido. Cuando se cargan en el sistema de almacenamiento de datos, los datos están disponibles para diversas aplicaciones de business intelligence (BI) y ciencia de datos.

Mercados de datos

Un mercado de datos es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos relevantes para un solo equipo o grupo de stakeholders. Al reducir el alcance, los mercados de datos permiten obtener insights más rápidos y específicos que trabajar con el conjunto de datos de almacén más amplio .

Lagos de datos

Un lago de datos almacena datos sin procesar y sin procesar, incluidos formatos estructurados y no estructurados, a escala. A diferencia de los almacenes de datos, los lagos de datos no requieren modelado o preparación de datos por adelantado, lo que los hace ideales para cargas de trabajo de big data.

Lakehouses de datos

Un lakehouse de datos fusiona aspectos de almacenes de datos y lagos de datos en una única solución de gestión de datos. Combina almacenamiento de bajo costo con un motor de consulta de alto rendimiento y gobernanza inteligente de metadatos.

Databases

Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los diferentes tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las bases de datos relacionales (también llamadas "bases de datos SQL") almacenan los datos en tablas con filas y columnas definidas. Las bases de datos NoSQL pueden almacenarla como diversas estructuras de datos, incluidos pares clave-valor o gráficos.

Acceso y consumo

Se accede a los datos a través de paneles y consultas, y luego se utilizan para informar aplicaciones de analytics e IA/machine learning (ML). Los insights se devuelven a la arquitectura para refinar los flujos de datos futuros.

Paneles y herramientas de analytics

Las plataformas business intelligence pueden mejorar el acceso a los datos mediante visualizaciones y paneles. Estas herramientas ayudan a los usuarios no técnicos a interpretar tendencias, monitorear indicadores clave de rendimiento (KPI) y tomar decisiones basadas en datos.

Motores de consulta y computación

Los endpoints SQL y otras interfaces de consulta permiten a los analistas y científicos de datos Explorar y analizar los datos directamente. Herramientas como Apache Spark e IBM watsonx.data proporcionan la capa informática necesaria para ejecutar consultas en conjuntos de datos distribuidos a escala.

Productos de datos integrados

Algunas arquitecturas admiten la entrega de datos directamente a aplicaciones, flujos de trabajo o API. Estos data products integrados aportan insight sobre las operaciones diarias, lo que permite toma de decisiones basada en datos.

Capacitación en IA y aprendizaje automático (ML)

Los datos de toda la arquitectura también pueden alimentar los flujos de trabajo de IA y aprendizaje automático (ML). Los datos de entrenamiento a menudo provienen de data lakes, se transforman a través de pipelines y se utilizan para desarrollar y volver a entrenar modelos. Estos modelos se pueden desplegar en productos, paneles o procesos de negocio para mejorar la Automatización y la predicción.

Gobernanza y metadatos

En cada etapa, desde la ingesta hasta el consumo, la gobernanza y los metadatos mantienen la integridad de los datos, manteniéndolos seguros y detectables a lo largo de su ciclo de vida.

Linaje y observabilidad

Las herramientas delinaje rastrean el recorrido de los datos a través de los sistemas, mostrando cómo se transformaron y dónde se originaron. Esta visibilidad es esencial para las auditorías, la resolución de problemas y la comprensión de las dependencias. Las plataformas de observabilidad pueden complementar el linaje monitoreando el rendimiento de los pipelines y las métricas de calidad de los datos.

Catálogos de datos

Un catálogo de datos es un inventario centralizado de los activos de datos de una organización. Utiliza metadatos para proporcionar contexto sobre cada conjunto de datos, incluido su origen, estructura, propiedad, historial de uso y calidad. Los catálogos de datos ayudan a los usuarios a encontrar y evaluar datos, respaldar los esfuerzos de gobernanza y cumplimiento y facilitar la colaboración entre equipos.

El siguiente diagrama muestra cómo se mueven los datos a través de cada capa de la arquitectura:

¿Cómo se implementa la arquitectura de datos?

La implementación de una arquitectura de datos implica traducir las necesidades del negocio en una hoja de ruta para la recopilación, organización, seguridad y accesibilidad de los datos. Si bien no hay dos implementaciones idénticas, la mayoría sigue un Approach por fases que se mover de la planificación a la ejecución.

Paso 1: Alinear con los objetivos comerciales

El proceso comienza estableciendo lo que la compañía necesita de sus datos, ya sea habilitando machine learning o apoyando el cumplimiento. Esto informa las prioridades arquitectónicas, qué fuentes de datos incluir y qué sistemas requieren integración.

Paso 2: Definir modelos de datos y gobernanza

Los Data Architect desarrollan modelos de datos conceptuales, lógicos y físicos para guiar la estructura y el flujo. Estos modelos ayudan a identificar entidades clave, relaciones, requisitos de datos y controles de acceso. Al mismo tiempo, se establecen políticas de gobernanza para definir la propiedad, los derechos de acceso y las reglas del ciclo de vida de los datos.

Paso 3: Diseñar la arquitectura

Con los modelos y políticas implementados, los equipos diseñan la arquitectura en sí seleccionando tecnologías para almacenamiento, integración, gestión de metadatos y consumo. Esto incluye definir cómo se moverán los datos entre sistemas y dónde residirán en los sistemas de almacenamiento.

Paso 4: Crear e integrar

La implementación suele implicar el despliegue de pipelines de ingesta, el establecimiento de API, la configuración de capas de gobernanza y la habilitación de puntos de acceso, como paneles o endpoints de consulta. Los requisitos de seguridad y cumplimiento se integran durante esta etapa para proteger los datos.

Paso 5: Monitorear, evolucionar y escalar

Una vez desplegada, una arquitectura de datos debe monitorearse y refinarse continuamente. Los volúmenes de datos crecen; los casos de uso evolucionan; cambio de regulaciones. Las organizaciones a menudo revisan y reoptimizan sus arquitecturas, particularmente a medida que adoptan plataformas en la nube y adoptan patrones arquitectónicos modernos.

Características clave de una arquitectura de datos moderna

A medida que las organizaciones escalan, también lo hace la necesidad de una arquitectura de datos flexible y resiliente. La arquitectura de datos moderna prioriza la interoperabilidad , el acceso en tiempo real y la capacidad de gestionar los datos como un producto, no solo como un activo. También permite una mayor estandarización, gestión de metadatos y democratización a través de API.

Las características clave de una arquitectura de datos moderna incluyen:

Diseño nativo de la nube, que ofrece escalabilidad elástica y alta disponibilidad.

Pipelines de datos inteligentes, que combinan integración en tiempo real, transmisión de datos y analytics cognitivos.

Perfecta integración basada en API con aplicaciones modernas y heredadas.

Habilitación de datos en tiempo real, incluida la validación, clasificación y gobernanza.

Servicios desacoplados y extensibles, que respaldan el crecimiento modular y la interoperabilidad abierta.

Organización basada en dominios , que utiliza eventos y microservicios para reflejar las estructuras empresariales.

Optimización integrada ,que equilibra el rendimiento, el costo y la simplicidad.

Patrones de arquitectura de datos modernos

Las organizaciones que modernizan su infraestructura de datos están adoptando nuevas estrategias de datos que reflejan la complejidad de los entornos híbridos, multinube actuales. Este cambio ha dado lugar a nuevos patrones arquitectónicos, en particular, tejidos de datos y mallas de datos.

Tejido de datos

El tejido de datos se centra en automatizar la integración y la gestión de datos en entornos híbridos. Utiliza metadatos activos y machine learning para descubrir relaciones entre sistemas y orquestar flujos de datos. Un tejido de datos puede aprovisionar productos de datos automáticamente y entregarlos bajo demanda, mejorando la eficiencia operativa y reduciendo los silos de datos.

Malla de datos

La malla de datos descentraliza la propiedad de los datos al alinear la arquitectura con los dominios empresariales. Alienta a los productores de datos, los más cercanos a la fuente, a tratar los datos como un producto y diseñar API pensando en los consumidores. Este modelo ayuda a eliminar los cuellos de botella y admite la democratización de datos escalable en toda la empresa.

Y aunque estos enfoques difieren, no son mutuamente excluyentes. Muchas organizaciones implementan elementos de ambos, utilizando la automatización de un tejido para escalar la gobernanza descentralizada de una malla.

Beneficios de las arquitecturas de datos

Una arquitectura de datos bien construida puede ofrecer a las empresas ventajas significativas, que incluyen:

Reducir la redundancia
Mejorar la calidad de los datos
Habilitar la integración
Gestión del ciclo de vida de los datos

Reducir la redundancia

La superposición de campos de datos en diferentes fuentes puede generar inconsistencias, imprecisiones y oportunidades perdidas para la integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y potencialmente reducir la redundancia, lo que permite realizar análisis holísticos y de mejor calidad.

Mejorar la calidad de los datos

Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los lagos de datos mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos apropiados (incluidas las prácticas de calidad y gobernanza de datos) para proporcionar insights valiosos. Las arquitecturas de datos pueden ayudar a hacer cumplir los estándares de gobernanza de datos y seguridad de datos, lo que permite una supervisión adecuada del pipeline de datos.

Habilitar la integración

Los datos a menudo están en silos debido a las limitaciones técnicas en el almacenamiento de datos y las barreras organizacionales dentro de la compañía. Las arquitecturas de datos actuales deben tener como objetivo facilitar la integración de datos entre dominios, de modo que diferentes regiones geográficas y funciones comerciales tengan acceso a los datos de los demás. Esto puede conducir a una comprensión mejor y más coherente de las métricas comunes y permite una visión más holística del negocio para fundamentar la toma de decisiones basada en datos.

Gestión del ciclo de vida de los datos

Una arquitectura de datos moderna puede abordar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volver menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos se pueden migrar a tipos de almacenamiento más baratos y lentos para que permanezcan disponibles para informes y auditorías, pero sin el gasto de almacenamiento de alto rendimiento.

Techsplainers | Podcast | ¿Qué es una arquitectura de datos?

Escuche: "¿Qué es una arquitectura de datos?"

Siga a Techsplainers: Spotify, Apple Podcasts y Casted.

Encuentre más episodios

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Representación 3D de una espiral de varios iconos alineados, como una cámara, una perilla de volumen y un portapapeles

Lea la guía del líder de datos para saber cómo puede hacer que los datos de su organización estén preparados para IA.

Recursos

Representación 3D de varios iconos alineados, como un micrófono y una cámara

Los agentes de IA funcionan con datos. ¿Están listos los suyos?

Sus datos son su ventaja competitiva. Aprenda a desbloquear de forma segura y a generar un retorno de la inversión (ROI) medible de la IA en este breve seminario web.

Explicación de la gestión de datos

Techsplainers de IBM desglosa los aspectos esenciales de los datos para la IA, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Representación 3D de varios iconos alineados, como una perilla de volumen y un portapapeles

Unifique y acceda a sus datos para ayudar a escalar su IA

Descubra por qué el camino hacia los datos preparados para la IA a menudo comienza con el acceso efectivo a datos estructurados y no estructurados y los desafíos que pueden obstaculizar a los líderes de datos.

Gastos generales legales convertidos en insights estratégicos

Descubra cómo un agente legal impulsado por IA ayuda a acelerar la toma de decisiones, reducir el trabajo manual y mejorar el cumplimiento.

AI Academy: creación de una estrategia de datos para la IA empresarial

En este episodio, Cathy Reese explica cómo las organizaciones de hoy necesitan una estrategia de datos que esté lista para la IA avanzada, lo que requerirá que aprovechen sus activos de datos de la más alta calidad.

Representación 3D de varios iconos alineados, como una cámara y aviones de papel

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Informe del costo de una filtración de datos 2025

Los costos de la filtración de datos alcanzaron un nuevo máximo. Obtenga insights actualizados sobre las amenazas de ciberseguridad y sus impactos financieros en las organizaciones.

Representación 3D de dos líneas de varios íconos, como una cámara, una perilla de volumen y un portapapeles

La guía del líder de datos preparados para IA

Comprenda los pasos aplicables en la práctica que los líderes de datos pueden tomar para superar los desafíos de los datos, establecer los fundamentos para una base de datos confiable y ayudar a preparar los datos de su organización para la IA.

Representación 3D de varios íconos alineados, como una cámara, una perilla de volumen y un portapapeles

Cómo los altos ejecutivos están convirtiendo la información en impacto

Explore los insights de 1700 CDO en este informe de industrias para líderes de datos.

Soluciones relacionadas

IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets

IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data

Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics

Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Notas de pie de página

¹2024 Informatica Report: State of AI and Data with a Modern Data Architecture, Informatica

¿Qué es la arquitectura de datos?