¿Qué es un almacén de datos?

By Jim Holdsworth , Matthew Kosinski , Alexandra Jonker

Qué es un almacén de datos

Un almacén de datos agrega datos de varias fuentes en un almacén de datos central optimizado para consultas y análisis. Por lo general, utiliza procesos de extracción, transformación y carga (ETL) o extracción, carga y transformación (ELT) para limpiar, preparar y organizar datos para business intelligence (BI) y otros casos de uso de análisis.

Los sistemas de almacenamiento de datos pueden consumir grandes cantidades de datos de una amplia gama de sistemas de origen, incluidas bases de datos operativas, sistemas transaccionales y plataformas de gestión de la relación con el cliente (CRM). Las herramientas de análisis de autoservicio permiten a los usuarios empresariales explorar y analizar estos datos para obtener perspectivas valiosas.

El concepto de almacén de datos surgió en la década de 1980 para integrar datos dispares en un formato coherente para el análisis. A medida que aumentaba el número de nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT), crecía la demanda de mayor capacidad de almacenamiento y análisis más rápidos.

Los almacenes de datos están configurados y optimizados para realizar análisis casi en tiempo real, lo que significa que no suelen ser ideales para almacenar cantidades masivas de big data sin estructurar. A medida que crece la cantidad de datos en un almacén, el coste y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia y rendimiento.

En respuesta, evolucionaron alternativas más flexibles, incluidos los almacenes de datos nativos de la nube y los lakehouses de datos. Para obtener más información, consulte "almacén de datos frente a lakehouse de datos".

¿Cómo funciona el almacenamiento de datos?

Los almacenes de datos suelen utilizar una arquitectura de tres niveles diseñada para transformar los datos para los análisis:

Nivel inferior
Nivel medio
Nivel superior

Nivel inferior

Los datos fluyen desde varios sistemas fuente a un servidor de almacén de datos, donde se almacenan. Tradicionalmente, los datos pasan por un proceso de integración de datos de extracción, transformación y carga (ETL), que utiliza la automatización para limpiar y organizar los datos antes de cargarlos en el almacén.

Dado que los almacenes de datos almacenan principalmente datos estructurados, la transformación de los datos se produce antes de la carga de los datos. En su lugar, algunos almacenes modernos utilizan procesos de extracción, carga y transformación (ELT), que cargan los datos en el almacén antes de transformarlos. Este método se utiliza habitualmente en data lakes, que pueden almacenar datos no estructurados y semiestructurados sin necesidad de formatos estandarizados.

Nivel medio

Este nivel contiene el motor de análisis, a menudo impulsado por un sistema de procesamiento analítico en línea (OLAP). Aunque las bases de datos relacionales tradicionales, incluidos muchos almacenes de datos, pueden almacenar datos multidimensionales (por ejemplo, las cifras de ventas pueden tener varias dimensiones, como ubicación, tiempo y producto), no están optimizadas para consultas multidimensionales.

Los sistemas OLAP están diseñados para realizar consultas complejas a alta velocidad y análisis multidimensionales sobre grandes volúmenes de datos. Utilizan "cubos" (estructuras de datos multidimensionales basadas en matrices) para permitir un análisis más rápido y flexible en múltiples dimensiones. Los casos de uso comunes incluyen la extracción de datos, el análisis financiero, la elaboración de presupuestos y la planificación de previsiones.

Diagrama que muestra la estructura de un cubo OLAP

Un cubo OLAP con dimensiones para productos, regiones de ventas y trimestres

OLAP versus OLTP: los sistemas de procesamiento de transacciones en línea (OLTP) capturan y actualizan grandes volúmenes de transacciones en tiempo real de muchos usuarios. Por el contrario, los sistemas OLAP analizan datos que ya han sido capturados.

Hay tres tipos de OLAP que se pueden utilizar en un almacén de datos:

Procesamiento analítico multidimensional en línea (MOLAP): trabaja directamente con un cubo OLAP multidimensional y suele ser el tipo de análisis de datos multidimensionales más rápido y práctico.
Procesamiento analítico relacional en línea (ROLAP): realiza análisis de datos multidimensionales que operan directamente en los datos de las tablas relacionales, sin reorganizarlos primero en un cubo.
Procesamiento analítico híbrido en línea (HOLAP): funciona para crear la división óptima del trabajo entre bases de datos relacionales y multidimensionales dentro de una única arquitectura OLAP.

Nivel superior

La capa final de un almacén de datos proporciona una interfaz de usuario front-end para informes, paneles de control y análisis de datos ad hoc de datos empresariales. Estas herramientas de inteligencia empresarial de autoservicio permiten a los usuarios generar informes basados en datos históricos, visualizar tendencias e identificar cuellos de botella en el flujo de trabajo sin necesidad de conocimientos técnicos de ingeniería de datos.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Modelos de implementación de almacén de datos: en las instalaciones, en la nube e híbrido

Los almacenes de datos han evolucionado de manera significativa, pasando de sistemas exclusivamente locales a modelos flexibles de nube y híbridos.

Almacenes de datos tradicionales

Históricamente, los almacenes de datos se alojaban en local utilizando hardware de serie. Estos sistemas se organizaron en arquitecturas de procesamiento paralelo masivo (MPP) o multiprocesamiento simétrico (SMP). También se distribuían como dispositivos independientes. Estas implementaciones requieren una inversión significativa. Sin embargo, pueden ser una buena opción para organizaciones en sectores con estrictos estándares de cumplimiento, seguridad de datos o protección de datos.

Almacén de datos en la nube

Hoy en día, muchos almacenes de datos se construyen para funcionar en la nube. Ofrecen los beneficios de cloud computing, como el almacenamiento de datos a escala de petabytes, computación y almacenamiento escalables y precios de pago por uso. Los almacenes de datos basados en la nube se entregan como una oferta de software como servicio (SaaS) totalmente gestionada, lo que elimina la necesidad de invertir por adelantado en hardware o software.

Esta prestación de servicios también reduce los recursos necesarios para la gestión de la infraestructura, de modo que las organizaciones pueden centrarse en el análisis y las perspectivas. Los almacenes de datos basados en la nube han ganado popularidad a medida que las organizaciones buscan la agilidad necesaria para escalar y reducir el espacio que ocupan en los centros de datos locales y el gasto en infraestructuras antiguas.

Cinco conceptos erróneos sobre el almacenamiento de datos en la nube

Enfoques híbridos

Algunas organizaciones podrían adoptar un modelo híbrido, que combine lo mejor de los almacenes de datos en las instalaciones y en la nube. Este enfoque les permite beneficiarse de la escalabilidad y la flexibilidad de la nube y, al mismo tiempo, conservar el control de las cargas de trabajo confidenciales que deben permanecer en las instalaciones.

¿Cuáles son los tres esquemas de un almacén de datos?

En un almacén de datos, los esquemas definen cómo se organizan los datos. Hay tres estructuras de esquema comunes: el esquema de estrella, el esquema de copo de nieve y el esquema de galaxias (también llamado esquema de constelación de hechos).

Todos estos esquemas son modelos de datos dimensionales diseñados para optimizar la velocidad de recuperación de datos en sistemas OLAP. Los modelos dimensionales pueden aumentar la redundancia, lo que facilita la localización de información para informes y recuperación y mejora el rendimiento de las consultas.

Estos esquemas contienen tablas de hechos y tablas de dimensiones, definidas de la siguiente manera:

Tablas de hechos: almacene datos cuantitativos como productos vendidos o cantidades de ingresos
Tablas de dimensiones: almacene información contextual y descriptiva para hechos, como fechas de venta y categorías de producto

Esquema de estrella

Los esquemas en estrella constan de una única tabla de hechos central rodeada de tablas de dimensiones. En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. El esquema en estrella se considera el tipo de esquema más simple y común, que ofrece a los usuarios velocidades de consulta más rápidas.

Gráfico que representa un esquema en estrella

Ejemplo de un esquema de estrella

Esquema de copo de nieve

Un esquema de copo de nieve coloca una tabla de hechos central en el núcleo, con numerosas tablas de dimensiones normalizadas que irradian hacia afuera y esas dimensiones se extienden a otras tablas de dimensiones a través de relaciones de muchos a uno. Este patrón complejo y ramificado puede parecerse a un copo de nieve. Los esquemas de copo de nieve tienen bajos niveles de redundancia de datos, pero este beneficio conlleva un coste en el rendimiento de las consultas más lento.

Ejemplo de un esquema de copo de nieve

Esquema de galaxia

Al igual que una galaxia contiene muchas estrellas, un esquema de galaxia contiene múltiples esquemas de estrella. Estos esquemas comparten tablas de dimensiones que están normalizadas para reducir la redundancia. El esquema de galaxia es más adecuado para almacenes de datos muy complejos, pero los usuarios pueden experimentar un rendimiento más bajo.

Ejemplo de esquema de galaxia

Componentes de la arquitectura de los almacenes de datos

Una arquitectura típica de almacén de datos tiene varios componentes que trabajan juntos para almacenar, gestionar, procesar y entregar datos para análisis.

Herramientas ETL/ELT
Capa de API
Capa de datos (o base de datos central)
Metadatos
Entorno aislado
Herramientas de acceso

Herramientas ETL/ELT

Las herramientas ETL extraen datos de los sistemas de origen, los transforman en un área de almacenamiento y los cargan en el almacén de datos. En ELT, los datos se transforman después de cargarse en el almacén. Una herramienta de marco de proceso de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

ELT frente a ETL: ¿cuál es la diferencia?

Capa de API

Una capa de conectividad para las interfaces de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de los sistemas operativos e integrarlos con ellos. Las API también pueden proporcionar acceso a herramientas de visualización y análisis.

Capa de datos (o base de datos central)

La capa de datos (o base de datos central) es el corazón del almacén de datos. Aquí, el sistema integra y almacena datos de diversas fuentes, como aplicaciones comerciales, listas de correo electrónico, sitios web u otras bases de datos. Los pipelines de datos ETL o ELT soportan esta capa y un sistema de gestión de bases de datos relacional (RDBMS) o una plataforma de almacén de datos en la nube la impulsa. Las capacidades de seguridad y gobierno de datos integradas pueden particionar los datos para que los usuarios accedan a lo que necesitan.

Los metadatos son datos sobre datos, que describen los datos que se almacenan en un sistema para que se puedan buscar y utilizar para el análisis. Incluye metadatos técnicos (como la estructura de la tabla y el tipo de datos) y metadatos descriptivos (como el autor, la fecha de creación o el tamaño del archivo). Los metadatos son clave para un gobierno y una gestión de datos eficaces.

Entorno aislado

Algunos almacenes de datos proporcionan un entorno aislado, que es un entorno de pruebas aislado que contiene una copia de los datos de producción y las herramientas de análisis pertinentes. Los analistas de datos y científicos de datos pueden probar nuevas técnicas analíticas en el entorno aislado sin afectar a las operaciones de almacén en vivo.

Herramientas de acceso

Las herramientas de acceso se conectan a un almacén de datos y proporcionan un front-end accesible. Los usuarios empresariales y los analistas de datos pueden utilizar paneles de control, aplicaciones y herramientas de visualización de datos para interactuar con los datos y extraer perspectivas. Algunas de estas herramientas son Tableau, Looker y Qlik.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Ir al episodio

Tipos de almacenes de datos

Hay tres tipos principales de almacén de datos:

Almacén de datos empresariales (EDW)
Almacén de datos operativos (ODS)
mercado de datos

Almacén de datos empresariales (EDW)

Un almacén de datos empresariales (EDW) es un almacén de datos que da servicio a toda la empresa. Actúa como un repositorio de información centralizado de datos históricos para todos los equipos y áreas temáticas. Un entorno de almacenamiento de datos empresarial también puede incluir un almacén de datos operativos (ODS) y almacenes de datos (data marts) específicos del departamento.

Almacén de datos operativos (ODS)

Un almacén de datos operativos (ODS) contiene la instantánea más reciente de los datos operativos. Un ODS se actualiza con frecuencia, lo que permite un acceso rápido a los datos casi en tiempo real. Las organizaciones suelen utilizar un ODS para la toma de decisiones operativas diarias y el análisis en tiempo real. También puede ser una fuente de datos para un EDW u otros sistemas de datos.

Almacén de datos (data mart)

Un data mart es un subconjunto de un almacén de datos existente (u otras fuentes de datos) y contiene datos adaptados a una línea de negocio o departamento específico en lugar de a toda la empresa. Por ejemplo, una empresa puede tener un almacén de datos que se alinee con el departamento de marketing. Esos usuarios pueden acceder a perspectivas más específicas para la segmentación de clientes y el rendimiento de las campañas sin navegar por el conjunto de datos empresariales más amplio.

Almacén de datos frente a otros tipos de almacenamiento de datos

Los términos almacén de datos, base de datos, data lake y lakehouse de datos a veces se utilizan indistintamente, pero existen diferencias importantes.

Almacenes de datos frente a data lakes frente a lakehouses de datos

Almacén de datos versus base de datos

Una base de datos es como un archivador creado principalmente para la captura automatizada de datos y el procesamiento rápido de transacciones. Normalmente sirve como almacén de datos específico para una aplicación concreta. Los almacenes de datos almacenan datos de cualquier número de aplicaciones en una organización y están optimizados para análisis predictivo y otros análisis avanzados.

Almacén de datos versus data lake

Un data lake es una solución de almacenamiento de bajo coste para cantidades masivas de datos sin procesar y utiliza un enfoque de esquema en lectura en lugar de un esquema predefinido. Los data lakes pueden almacenar datos estructurados, datos no estructurados y datos semiestructurados, como documentos, vídeos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales.

Se pueden crear en plataformas de big data como Apache Hadoop o en servicios de almacenamiento de objetos en la nube como Amazon Simple Storage Service (Amazon S3). Por lo general, no limpian, validan ni normalizan los datos para el análisis, como lo hace un almacén.

Data lakehouse frente a data warehouse

Un lakehouse de datos combina los puntos fuertes de los almacenes de datos y los data lakes, ofreciendo la flexibilidad de bajo coste de un data lake junto con el alto rendimiento de un almacén de datos. Al combinar las características clave de los lakes y los almacenes en una única plataforma de datos, los lakehouses pueden acelerar el procesamiento de grandes volúmenes de datos estructurados, no estructurados y en tiempo real.

También admiten cargas de trabajo de machine learning, ciencia de datos e inteligencia artificial (IA) de forma más eficiente. Los lakehouses de datos también pueden añadir características como metadatos compartidos y motores de Structured Query Language (SQL) distribuidos.

Beneficios del almacén de datos

Los almacenes de datos ponen los conocimientos y la información a disposición de los usuarios de toda una organización, ofreciendo muchos beneficios, como:

Mejore la calidad de los datos
Compatibilidad con IA y machine learning
Soporte mejorado para la toma de decisiones

Calidad de los datos mejorada

A través de procesos ELT o ETL, los almacenes de datos preparan los datos entrantes antes de que se almacenen en el almacén de datos. Esta preparación incluye métodos de calidad de los datos como la limpieza de datos, la estandarización y la deduplicación. Las políticas y prácticas sólidas de gobierno de datos también pueden ayudar a garantizar la precisión e integridad de los datos para todos los usuarios.

Al integrar datos de alta calidad en un único almacén, las organizaciones crean una única fuente fiable completa y de confianza, lo que ayuda a eliminar los silos de datos. Este repositorio central permite a los usuarios empresariales acceder con confianza a todos los datos pertinentes de la organización y utilizarlos para la toma de decisiones empresariales. Un almacén de datos de nivel empresarial podría incluir también soporte para formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría un mayor acceso a los datos y compartirlos a través de toda la empresa.

Compatibilidad con IA y machine learning

Los almacenes de datos modernos pueden admitir varios flujos de trabajo de IA y machine learning proporcionando datos limpios y fiables. Los científicos de datos pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o afinar los modelos existentes para satisfacer mejor sus necesidades empresariales únicas.

Un almacén de datos preparado para la IA debe ser capaz de recopilar, limpiar, organizar y estructurar datos, así como facilitar el flujo de datos a las plataformas de IA y machine learning. Sin embargo, no todos los almacenes de datos modernos están optimizados para cargas de trabajo de IA. Los lakehouses de datos se están convirtiendo cada vez más en las plataformas de datos preferidas para la infraestructura de IA.

Mayor apoyo a la toma de decisiones

Un almacén de datos centraliza y limpia los datos de diferentes fuentes para crear una única fuente fiable, proporcionando a las organizaciones una visión completa y veraz de los datos empresariales. Las herramientas de BI de autoservicio permiten a los usuarios de toda la empresa acceder y ejecutar consultas analíticas sobre estos datos agregados.

De esta manera, los almacenes de datos permiten a los usuarios empresariales de cualquier nivel de habilidad técnica descubrir e informar sobre temas, tendencias y agregaciones. Los líderes empresariales pueden utilizar estos conocimientos para tomar decisiones y realizar previsiones basadas en evidencia sólida en prácticamente todas las áreas de la organización, desde los procesos de negocios hasta la gestión financiera y la gestión de inventario.

Casos de uso de almacén de datos específicos de sectores

Los almacenes de datos también pueden servir para usos específicos del sector, como:

Gobierno

Las capacidades analíticas de un almacén de datos pueden ayudar a los gobiernos a comprender mejor fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

Atención médica

La capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados de pruebas, puede proporcionar a los proveedores de asistencia sanitaria unas perspectivas más profundas. Dichas perspectivas les ayudan a comprender los resultados de los pacientes, mejorar la eficiencia operativa y mucho más.

Viajes y sector hotelero

Las organizaciones pueden utilizar datos históricos relacionados con las opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.

Fabricación

Las grandes empresas manufactureras que generan enormes volúmenes de datos pueden utilizar soluciones de almacenamiento de datos para crear almacenes de datos adaptados a las necesidades de cada departamento.

Preguntas frecuentes sobre los almacenes de datos

¿Necesito un almacén de datos?

Un almacén de datos puede ser una opción inteligente si su organización agrega grandes cantidades de datos de múltiples sistemas operativos, como aplicaciones empresariales (BI), sitios web y otras bases de datos. Es especialmente útil si planea realizar análisis históricos complejos con herramientas de BI o paneles de control.

¿Cómo puedo optimizar los costes del almacén de datos?

Para optimizar los costes, busque arquitecturas que separen los recursos de datos y de procesamiento y le permitan escalarlos por separado. También puede utilizar el almacenamiento de objetos rentable y la gestión de carga de trabajo con IA para la distribución automatizada de recursos. Los formatos de datos abiertos facilitan el compartir datos entre almacenes y lakehouses, reduciendo los costes de almacenamiento y la complejidad.

¿Cómo gestionar los problemas de calidad de los datos en un almacén de datos?

Unos procesos ETL/ELT sólidos para la limpieza y normalización de los datos, unas políticas sólidas de gobierno de datos y observabilidad de los datos para detectar los problemas a medida que surgen pueden ayudar con los problemas de calidad de los datos. Un enfoque "shift left" también puede ayudar a detectar y resolver problemas de calidad de los datos más cerca de la causa raíz que de forma descendente.

¿En qué se diferencia un almacén de datos de una base de datos?

Una base de datos se construye principalmente para el procesamiento rápido de transacciones y, por lo general, sirve como almacenamiento de datos para una aplicación específica. Un almacén de datos agrega grandes volúmenes de datos de diversas fuentes, luego los limpia y prepara para business intelligence, consultas analíticas y otros análisis avanzados de datos.

¿Quién debe ser el propietario del almacén de datos?

Los ingenieros de datos construyen y mantienen la infraestructura, mientras que un director de datos establece la estrategia de datos y supervisa las funciones de gestión de datos. Los equipos de business intelligence gestionan las capas semánticas y los paneles de control, y los equipos de gobierno de datos multifuncionales ayudan a garantizar la calidad y seguridad de los datos.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

IBM watsonx.data: el único lakehouse de datos híbrido y abierto

Mejore la precisión de la IA con datos estructurados y no estructurados preparados para la IA.

Qué es un almacén de datos