¿Qué es la arquitectura de datos?

Imagen de un edificio geométrico moderno de vidrio

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la arquitectura de datos?

Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, distribución y consumo, estableciendo el proyecto técnico de cómo fluyen los datos a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).

El diseño de una arquitectura de datos a menudo se basa en los requisitos comerciales y las necesidades de datos, que son lo que los arquitectos de datos e ingenieros de datos emplean para definir el modelo de datos y las estructuras de datos subyacentes que lo respaldan. El diseño suele facilitar una estrategia o necesidad empresarial, como la generación de informes o una iniciativa de ciencia de datos.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué es importante la arquitectura de datos?

A medida que las organizaciones amplían sus datos, la necesidad de una arquitectura bien estructurada y adaptable se volvió primordial. Y, sin embargo, el 94 % de los líderes de datos enumeró la ausencia de una arquitectura de datos definida entre sus principales retos.1

Una arquitectura de datos moderna puede ayudar a unificar y estandarizar los datos empresariales, lo que permite compartir datos sin problemas entre dominios empresariales. También proporciona una base escalable para casos de uso avanzados, como analítica de datos en tiempo real e IA generativa, ayudando a los equipos a extraer valor de los datos de forma más rápida y confiable.

A medida que tecnologías como el Internet de las cosas (IoT) generan nuevas fuentes de datos, una arquitectura bien diseñada garantiza que los datos sigan siendo manejables, integrados y útiles a lo largo de su ciclo de vida. Puede reducir la redundancia, mejorar la calidad de los datos y ayudar a eliminar los silos conectando sistemas en toda la compañía.

Bien hecha, la arquitectura de datos no es solo una estructura técnica: es una capacidad estratégica que convierte los datos sin procesar en un activo.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Términos clave en la arquitectura de datos

La arquitectura de datos reúne varios conceptos superpuestos. Lo siguiente puede ayudar a definir el escenario:

  • Plataforma: el entorno de tecnología subyacente que aloja y ejecuta los sistemas de datos. Esto incluye herramientas on premises o basadas en la nube.
  • Modelo de datos: una representación detallada de cómo se organizan los datos dentro de un sistema. Define entidades, relaciones y formatos.
  • Marco: una metodología estratégica utilizada para diseñar y gestionar la arquitectura empresarial. Los marcos proporcionan enfoques estructurados para alinear los sistemas de datos con los objetivos comerciales.
  • Patrón: una solución repetible para un desafío arquitectónico común. Patrones como el tejido de datos o la malla de datos describen formas probadas de mejorar la escalabilidad, la gobernanza o la accesibilidad.

Tipos de arquitectura de datos

La arquitectura de datos moderna tiende a seguir uno de dos enfoques principales: centralizado o descentralizado. Estos modelos guían cómo se recopilan, almacenan y rigen los datos de la empresa.

Las arquitecturas centralizadas llevan los datos a plataformas unificadas (como lagos de datos o almacenes de datos) gestionadas bajo un único modelo de gobernanza de datos . Esto ayuda a reducir la redundancia, mejorar la calidad de los datos y respaldar el modelado de datos estructurados mediante lenguaje de consulta estructurado (SQL) y otras bases de datos relacionales.

Las arquitecturas descentralizadas distribuyen la propiedad de los datos entre los dominios empresariales. Los equipos gestionan los datos localmente, a menudo empleando sistemas de bases de datos no relacionales (también llamados "bases de datos NoSQL") o canalizaciones basadas en eventos con sus propios esquemasmetadatos y controles de acceso. Este enfoque admite casos de uso de integración y procesamiento de datos en tiempo real , transmisión de datos y machine learning (ML).

La mayoría de las organizaciones combinan ambos modelos para equilibrar la escalabilidad,la integración de datos y la agilidad. Este enfoque híbrido puede ayudar a admitir diferentes fuentes de datos, reducir los silos de datos y permitir operaciones nativas de la nube en plataformas como AWS o Microsoft Azure.

Independientemente del modelo arquitectónico que adopte una organización, el éxito depende de qué tan bien estén estructurados los datos subyacentes. Ahí es donde entra en juego el modelado de datos.

¿Cuáles son los tres tipos de modelos de datos?

Mientras que la arquitectura de datos se centra en cómo fluyen los datos a través de los sistemas, el modelado de datos se centra en cómo se estructuran los datos dentro de esos sistemas. Los modelos de datos definen la forma, las relaciones y las restricciones de la información a medida que se mueve a través de una arquitectura.

La documentación de la arquitectura de datos suele incluir tres tipos de modelos:

  • Modelos de datos conceptuales
  • Modelos de datos lógicos
  • Modelos de datos físicos

Modelos de datos conceptuales

También denominados modelos de dominio ", los modelos conceptuales de datos" ofrecen una visión holística de lo que contendrá el sistema, cómo se organizará y qué business rules se aplicarán. Estos modelos suelen crear durante las primeras fases de planeación del proyecto e incluyen las clases de entidades (elementos definidos que deben rastrear en el modelo de datos), sus características y restricciones, las relaciones entre ellas y cualquier requisito pertinente de seguridad o integridad de los datos.

Modelos de datos lógicos

Los modelos de datos lógicos son menos abstractos que los conceptuales y proporcionan más detalles sobre las entidades y relaciones dentro de un dominio determinado. Siguen una notación formal de modelado de datos y definen atributos de datos, como tipos y longitudes de datos, al tiempo que ilustran cómo se conectan las entidades. Es importante destacar que los modelos lógicos siguen siendo independientes de la tecnología y no incluyen requisitos específicos del sistema.

Modelos de datos físicos

Los modelos de datos físicos son los más detallados de los tres y describen cómo se implementará la base de datos. Definen estructuras de tablas, índices, formatos de almacenamiento y consideraciones de rendimiento. Estos modelos se centran en los aspectos técnicos de cómo se almacenan los datos estructurados y se accede a ellos, y se emplean para orientar la creación, configuración y optimización de esquemas.

Los modelos de datos conforman la estructura de la información dentro de un sistema. A partir de ahí, unos marcos más amplios guían la forma de implantar los modelos y los sistemas que los rodean.

Marcos de arquitectura de datos más conocidos

Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, incluidos TOGAF, DAMA-DMBOK 2 y Zachman Framework for Enterprise Architecture.

Marco de Arquitectura del Grupo Abierto (TOGAF)

Esta metodología de arquitectura empresarial fue desarrollada en 1995 por The Open Group. Su arquitectura consta de cuatro pilares:

  • La arquitectura empresarial define la estructura organizacional, la estrategia de datos y los procesos de la compañía.
  • La arquitectura de datos describe los activos de datos conceptuales, lógicos y físicos y cómo se almacenan y gestionan a lo largo de su ciclo de vida.
  • La arquitectura de aplicaciones representa los sistemas de aplicaciones y cómo se relacionan con los procesos clave del negocio y entre sí.
  • La arquitectura técnica representa la infraestructura de datos (hardware, software y redes) necesaria para soportar aplicaciones de misión crítica.

TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una compañía, incluida su arquitectura de datos.

DAMA-DMBOK 2

DAMA International, fundada originalmente como Data Management Association International, es una organización sin fines de lucro dedicada a promover la gestión de datos e información. Su cuerpo de conocimientos de gestión de datos, DAMA-DMBOK 2, cubre la arquitectura de datos, la gobernanza y la ética, el modelado y diseño de datos, el almacenamiento, la seguridad y la integración.

Zachman Framework for Enterprise Architecture

Desarrollado originalmente por John Zachman en IBM en 1987, este infraestructura utiliza una matriz de 6 capas, desde contextual hasta detallada, mapeadas en seis preguntas (como qué, por qué y cómo). Proporciona una manera formal de organizar y analizar datos pero no incluye métodos para hacerlo.

Componentes de la arquitectura de datos

Una arquitectura de datos se construye a partir de múltiples componentes interdependientes que gestionan cómo se mueven, almacenan, gobiernan y acceden los datos. Estos elementos forman la base operativa de los sistemas de datos y respaldan todo, desde la ingesta hasta analytics.

Los componentes de la arquitectura de datos suelen clasificarse en categories amplias, cada una con varias subcategorías:

Flujo e integración

Los datos se capturan de fuentes externas e internas y se mueven al sistema para su procesamiento y almacenamiento.

Pipelines de datos

Los pipelines ingieren, transforman y transportan datos desde su punto de origen hasta donde se procesan y almacenan. Estos sistemas pueden seguir patrones de lotes, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). También pueden transmitir datos casi en tiempo real. Los pipelines modernos suelen incluir lógica de transformación, controles de calidad y validación de esquemas como parte del flujo.

API y conectores

Las interfaces de programación de aplicaciones (API) y los conectores predefinidos permiten una integración perfecta entre los sistemas de datos, las aplicaciones y las herramientas de analytics. Proporcionan una forma estandarizada de agilizar el acceso a los datos en distintas plataformas y son fundamentales para el intercambio de datos en tiempo real.

Sistemas de almacenamiento

Una vez ingeridos, los datos se almacenan en sistemas escalables, tanto estructurados como no estructurados, donde quedan disponibles para su uso y análisis posteriores.

Almacenes de datos

Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en toda una empresa en un repositorio único, central y coherente. Tras la extracción, los datos fluyen a través de una canalización ETL, someter a diversas transformaciones para ajustar al modelo de datos predefinido. Cuando se cargan en el sistema de almacenamiento de datos, los datos están disponibles para diversas aplicaciones de business intelligence (BI) y ciencia de datos.

Mercados de datos

Un mercado de datos es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos relevantes para un solo equipo o grupo de stakeholders. Al reducir el alcance, los mercados de datos permiten obtener insights más rápidos y específicos que trabajar con el conjunto de datos de almacén más amplio .

Lagos de datos

Un lago de datos almacena datos sin procesar y sin procesar, incluidos formatos estructurados y no estructurados, a escala. A diferencia de los almacenes de datos, los lagos de datos no requieren modelado o preparación de datos por adelantado, lo que los hace ideales para cargas de trabajo de big data.

Lakehouses de datos

Un lakehouse de datos fusiona aspectos de almacenes de datos y lagos de datos en una única solución de gestión de datos. Combina almacenamiento de bajo costo con un motor de consulta de alto rendimiento y gobernanza inteligente de metadatos.

Databases

Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los diferentes tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las bases de datos relacionales (también llamadas "bases de datos SQL") almacenan los datos en tablas con filas y columnas definidas. Las bases de datos NoSQL pueden almacenarla como diversas estructuras de datos, incluidos pares clave-valor o gráficos.

Gobernanza y metadatos

A medida que los datos fluyen y se acumulan, las herramientas de control aseguran que estén bien organizados, seguros y detectables a lo largo de su ciclo de vida.

Catálogos de datos

Un catálogo de datos es un inventario centralizado de los activos de datos de una organización. Utiliza metadatos para proporcionar contexto sobre cada conjunto de datos, incluido su origen, estructura, propiedad, historial de uso y calidad. Los catálogos de datos ayudan a los usuarios a encontrar y evaluar datos, respaldar los esfuerzos de gobernanza y cumplimiento y facilitar la colaboración entre equipos.

Linaje y observabilidad

Las herramientas delinaje rastrean el recorrido de los datos a través de los sistemas, mostrando cómo se transformaron y dónde se originaron. Esta visibilidad es esencial para las auditorías, la resolución de problemas y la comprensión de las dependencias. Las plataformas de observabilidad pueden complementar el linaje monitoreando el rendimiento de los pipelines y las métricas de calidad de los datos.  

Acceso y consumo

Por último, los datos llegan a las personas y sistemas que los utilizan a través de paneles, consultas o herramientas integradas que impulsan las decisiones.

Paneles y herramientas de analytics

Las plataformas business intelligence pueden mejorar el acceso a los datos mediante visualizaciones y paneles. Estas herramientas ayudan a los usuarios no técnicos a interpretar tendencias, monitorear indicadores clave de rendimiento (KPI) y tomar decisiones basadas en datos.

Motores de consulta y computación

Los endpoints SQL y otras interfaces de consulta permiten a los analistas y científicos de datos Explorar y analizar los datos directamente. Herramientas como Apache Spark e IBM watsonx.data proporcionan la capa informática necesaria para ejecutar consultas en conjuntos de datos distribuidos a escala.

Productos de datos integrados

Algunas arquitecturas admiten la entrega de datos directamente a aplicaciones, flujos de trabajo o API. Estos data products integrados aportan insight sobre las operaciones diarias, lo que permite toma de decisiones basada en datos.

Capacitación en IA y aprendizaje automático (ML)

Los datos de toda la arquitectura también pueden alimentar los flujos de trabajo de IA y aprendizaje automático (ML). Los datos de entrenamiento a menudo provienen de data lakes, se transforman a través de pipelines y se utilizan para desarrollar y volver a entrenar modelos. Estos modelos se pueden desplegar en productos, paneles o procesos de negocio para mejorar la Automatización y la predicción.

¿Cómo se implementa la arquitectura de datos?

La implementación de una arquitectura de datos implica traducir las necesidades del negocio en una hoja de ruta para la recopilación, organización, seguridad y accesibilidad de los datos. Si bien no hay dos implementaciones idénticas, la mayoría sigue un Approach por fases que se mover de la planificación a la ejecución.

Paso 1: Alinear con los objetivos comerciales

El proceso comienza estableciendo lo que la compañía necesita de sus datos, ya sea habilitando machine learning o apoyando el cumplimiento. Esto informa las prioridades arquitectónicas, qué fuentes de datos incluir y qué sistemas requieren integración.

Paso 2: Definir modelos de datos y gobernanza

Los Data Architect desarrollan modelos de datos conceptuales, lógicos y físicos para guiar la estructura y el flujo. Estos modelos ayudan a identificar entidades clave, relaciones, requisitos de datos y controles de acceso. Al mismo tiempo, se establecen políticas de gobernanza para definir la propiedad, los derechos de acceso y las reglas del ciclo de vida de los datos.

Paso 3: Diseñar la arquitectura

Con los modelos y políticas implementados, los equipos diseñan la arquitectura en sí seleccionando tecnologías para almacenamiento, integración, gestión de metadatos y consumo. Esto incluye definir cómo se moverán los datos entre sistemas y dónde residirán en los sistemas de almacenamiento.

Paso 4: Crear e integrar

La implementación suele implicar el despliegue de pipelines de ingesta, el establecimiento de API, la configuración de capas de gobernanza y la habilitación de puntos de acceso, como paneles o endpoints de consulta. Los requisitos de seguridad y cumplimiento se integran durante esta etapa para proteger los datos.

Paso 5: Monitorear, evolucionar y escalar

Una vez desplegada, una arquitectura de datos debe monitorearse y refinarse continuamente. Los volúmenes de datos crecen; los casos de uso evolucionan; cambio de regulaciones. Las organizaciones a menudo revisan y reoptimizan sus arquitecturas, particularmente a medida que adoptan plataformas en la nube y adoptan patrones arquitectónicos modernos.

Características clave de una arquitectura de datos moderna

A medida que las organizaciones escalan, también lo hace la necesidad de una arquitectura de datos flexible y resiliente. La arquitectura de datos moderna prioriza la interoperabilidad , el acceso en tiempo real y la capacidad de gestionar los datos como un producto, no solo como un activo. También permite una mayor estandarización, gestión de metadatos y democratización a través de API.

Las características clave de una arquitectura de datos moderna incluyen:

  • Diseño nativo de la nube, que ofrece escalabilidad elástica y alta disponibilidad.
  • Pipelines de datos inteligentes, que combinan integración en tiempo real, transmisión de datos y analytics cognitivos.
  • Perfecta integración basada en API con aplicaciones modernas y heredadas.
  • Habilitación de datos en tiempo real, incluida la validación, clasificación y gobernanza.
  • Servicios desacoplados y extensibles, que respaldan el crecimiento modular y la interoperabilidad abierta.
  • Organización basada en dominios , que utiliza eventos y microservicios para reflejar las estructuras empresariales.
  • Optimización integrada ,que equilibra el rendimiento, el costo y la simplicidad.

Patrones de arquitectura de datos modernos

Las organizaciones que modernizan su infraestructura de datos están adoptando nuevas estrategias de datos que reflejan la complejidad de los entornos híbridos, multinube actuales. Este cambio ha dado lugar a nuevos patrones arquitectónicos, en particular, tejidos de datos y mallas de datos.

Tejido de datos

El tejido de datos se centra en automatizar la integración y la gestión de datos en entornos híbridos. Utiliza metadatos activos y machine learning para descubrir relaciones entre sistemas y orquestar flujos de datos. Un tejido de datos puede aprovisionar productos de datos automáticamente y entregarlos bajo demanda, mejorando la eficiencia operativa y reduciendo los silos de datos.

Malla de datos

La malla de datos descentraliza la propiedad de los datos al alinear la arquitectura con los dominios empresariales. Alienta a los productores de datos, los más cercanos a la fuente, a tratar los datos como un producto y diseñar API pensando en los consumidores. Este modelo ayuda a eliminar los cuellos de botella y admite la democratización de datos escalable en toda la empresa.

Y aunque estos enfoques difieren, no son mutuamente excluyentes. Muchas organizaciones implementan elementos de ambos, utilizando la automatización de un tejido para escalar la gobernanza descentralizada de una malla.

Beneficios de las arquitecturas de datos

Una arquitectura de datos bien construida puede ofrecer a las empresas ventajas significativas, que incluyen:

  • Reducir la redundancia
  • Mejorar la calidad de los datos
  • Habilitar la integración
  • Gestión del ciclo de vida de los datos

Reducir la redundancia

La superposición de campos de datos en diferentes fuentes puede generar inconsistencias, imprecisiones y oportunidades perdidas para la integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y potencialmente reducir la redundancia, lo que permite realizar análisis holísticos y de mejor calidad.

Mejorar la calidad de los datos

Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los lagos de datos mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos apropiados (incluidas las prácticas de calidad y gobernanza de datos) para proporcionar insights valiosos. Las arquitecturas de datos pueden ayudar a hacer cumplir los estándares de gobernanza de datos y seguridad de datos, lo que permite una supervisión adecuada del pipeline de datos.

Habilitar la integración

Los datos a menudo están en silos debido a las limitaciones técnicas en el almacenamiento de datos y las barreras organizacionales dentro de la compañía. Las arquitecturas de datos actuales deben tener como objetivo facilitar la integración de datos entre dominios, de modo que diferentes regiones geográficas y funciones comerciales tengan acceso a los datos de los demás. Esto puede conducir a una comprensión mejor y más coherente de las métricas comunes y permite una visión más holística del negocio para fundamentar la toma de decisiones basada en datos.

Gestión del ciclo de vida de los datos

Una arquitectura de datos moderna puede abordar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volver menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos se pueden migrar a tipos de almacenamiento más baratos y lentos para que permanezcan disponibles para informes y auditorías, pero sin el gasto de almacenamiento de alto rendimiento.

Soluciones relacionadas
Herramientas y soluciones de analytics

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics Descubra los servicios de analytics