Qué es un almacén de datos

Vista aérea de vehículos guiados automatizados renderizados en 3D en un almacén inteligente.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Qué es un almacén de datos

Un almacén de datos agrega datos de varias fuentes en un almacén de datos central optimizado para consultas y análisis. Por lo general, utiliza procesos de extracción, transformación y carga (ETL) o extracción, carga y transformación (ELT) para limpiar, preparar y organizar datos para inteligencia artificial (BI) y otros casos de uso de análisis.
 

Los sistemas de almacenamiento de datos pueden consumir grandes cantidades de datos de una amplia gama de sistemas de origen, incluidas bases de datos operativas, sistemas transaccionales y plataformas de gestión de la relación con el cliente (CRM). Las herramientas de análisis de autoservicio permiten a los usuarios empresariales explorar y analizar estos datos para obtener conocimientos valiosos.

El concepto de almacén de datos surgió en la década de 1980 para integrar datos dispares en un formato coherente para el análisis. A medida que aumentaba el número de nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT), crecía la demanda de mayor capacidad de almacenamiento y análisis más rápidos.

Los almacenes de datos están configurados y optimizados para realizar análisis casi en tiempo real, lo que significa que no suelen ser ideales para almacenar cantidades masivas de big data sin estructurar. A medida que crece la cantidad de datos en un almacén, el coste y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia y rendimiento.

En respuesta, evolucionaron alternativas más flexibles, incluidos los almacenes de datos nativos de la nube y los lakehouses de datos. (Consulte "lakehouse de datos vs. almacén de datos" para obtener más información).

¿Cómo funciona el almacenamiento de datos?

Los almacenes de datos suelen utilizar una arquitectura de tres niveles diseñada para transformar los datos para los análisis:

  • Nivel inferior
  • Nivel medio
  • Nivel superior

Nivel inferior

Los datos fluyen desde varios sistemas fuente a un servidor de almacén de datos, donde se almacenan. Tradicionalmente, los datos pasan por un proceso de integración de datos de extracción, transformación y carga (ETL), que utiliza la automatización para limpiar y organizar los datos antes de cargarlos en el almacén.

Dado que los almacenes de datos almacenan principalmente datos estructurados, la transformación de los datos se produce antes de la carga de los datos. En su lugar, algunos almacenes modernos utilizan procesos de extracción, carga y transformación (ELT), que cargan los datos en el almacén antes de transformarlos. Este método se utiliza habitualmente en data lakes, que pueden almacenar datos no estructurados y semiestructurados sin necesidad de formatos estandarizados.

Nivel medio

Este nivel contiene el motor de análisis, a menudo impulsado por un sistema de procesamiento analítico en línea (OLAP). Aunque las bases de datos relacionales tradicionales, incluidos muchos almacenes de datos, pueden almacenar datos multidimensionales (por ejemplo, las cifras de ventas pueden tener varias dimensiones, como ubicación, tiempo y producto), no están optimizadas para consultas multidimensionales.

Los sistemas OLAP están diseñados para realizar consultas complejas a alta velocidad y análisis multidimensionales sobre grandes volúmenes de datos. Utilizan "cubos" (estructuras de datos multidimensionales basadas en matrices) para permitir un análisis más rápido y flexible en múltiples dimensiones. Los casos de uso comunes incluyen la extracción de datos, el análisis financiero, la elaboración de presupuestos y la planificación de previsiones.

Diagrama que muestra la estructura de un cubo OLAP Un cubo OLAP con dimensiones para Productos, Regiones de Venta y Trimestres

OLAP vs. OLTP: los sistemas de procesamiento de transacciones en línea (OLTP) capturan y actualizan grandes volúmenes de transacciones en tiempo real de muchos usuarios. Por el contrario, los sistemas OLAP analizan datos que ya han sido capturados.

Hay tres tipos de OLAP que se pueden utilizar en un almacén de datos:

  • Procesamiento analítico multidimensional en línea (MOLAP): trabaja directamente con un cubo OLAP multidimensional y suele ser el tipo de análisis de datos multidimensionales más rápido y práctico.

  • Procesamiento analítico relacional en línea (ROLAP): realiza análisis de datos multidimensionales que operan directamente en los datos de las tablas relacionales, sin reorganizarlos primero en un cubo.

  • Procesamiento analítico híbrido en línea (HOLAP): funciona para crear la división óptima del trabajo entre bases de datos relacionales y multidimensionales dentro de una única arquitectura OLAP.

Nivel superior

La capa final de un almacén de datos proporciona una interfaz de usuario front-end para informes, paneles de control y análisis de datos ad hoc de datos empresariales. Estas herramientas de inteligencia empresarial de autoservicio permiten a los usuarios generar informes basados en datos históricos, visualizar tendencias e identificar cuellos de botella en el flujo de trabajo sin necesidad de conocimientos técnicos de ingeniería de datos.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Modelos de implementación de almacén de datos: en las instalaciones, en la nube e híbrido

Los almacenes de datos han evolucionado de manera significativa, pasando de sistemas exclusivamente locales a modelos flexibles de nube y híbridos.

Almacenes de datos tradicionales

Históricamente, los almacenes de datos se alojaban en las instalaciones utilizando hardware de serie. Estos sistemas se organizaron en arquitecturas de procesamiento paralelo masivo (MPP) o multiprocesamiento simétrico (SMP). También se distribuían como dispositivos independientes. Estas implementaciones requieren una inversión significativa. Sin embargo, pueden ser una buena opción para organizaciones en sectores con estrictos estándares de cumplimiento, seguridad de datos o protección de datos.

Almacén de datos en la nube

Hoy en día, muchos almacenes de datos se construyen para funcionar en la nube. Ofrecen los beneficios de cloud computing, como el almacenamiento de datos a escala de petabytes, computación y almacenamiento escalables y precios de pago por uso. Los almacenes de datos basados en la nube se entregan como una oferta de software como servicio (SaaS) totalmente gestionada, lo que elimina la necesidad de invertir por adelantado en hardware o software. Esta prestación de servicios también reduce los recursos necesarios para la gestión de la infraestructura, de modo que las organizaciones pueden centrarse en el análisis y el conocimiento.

Los almacenes de datos basados en la nube han ganado popularidad a medida que las organizaciones buscan la agilidad necesaria para escalar y reducir el espacio que ocupan en los centros de datos locales y el gasto en infraestructuras antiguas.

Enfoques híbridos

Algunas organizaciones podrían adoptar un modelo híbrido, que combine lo mejor de los almacenes de datos en las instalaciones y en la nube. Este enfoque les permite beneficiarse de la escalabilidad y la flexibilidad de la nube y, al mismo tiempo, conservar el control de las cargas de trabajo confidenciales que deben permanecer en las instalaciones.

¿Cuáles son los tres esquemas de un almacén de datos?

En un almacén de datos, los esquemas definen cómo se organizan los datos. Hay tres estructuras de esquema comunes: el esquema de estrella, el esquema de copo de nieve y el esquema de galaxias (también llamado esquema de constelación de hechos).

Todos estos esquemas son modelos de datos dimensionales diseñados para optimizar la velocidad de recuperación de datos en sistemas OLAP. Los modelos dimensionales pueden aumentar la redundancia, lo que facilita la localización de información para informes y recuperación y mejora el rendimiento de las consultas.

Estos esquemas contienen tablas de datos y tablas de dimensiones, que se definen a continuación:

  • Tablas de hechos: almacene datos cuantitativos como productos vendidos o cantidades de ingresos

  • Tablas de dimensiones: almacene información contextual y descriptiva para hechos, como fechas de venta y categorías de producto

Esquema de estrella

Los esquemas en estrella constan de una única tabla de hechos central rodeada de tablas de dimensiones. En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. El esquema en estrella se considera el tipo de esquema más simple y común, que ofrece a los usuarios velocidades de consulta más rápidas.

Gráfico que representa un esquema en estrella Ejemplo de un esquema de estrella

Esquema de copo de nieve

Un esquema de copo de nieve tiene una tabla de hechos central conectada a muchas tablas de dimensiones normalizadas, que luego pueden conectarse a otras tablas de dimensiones a través de relaciones de muchos a uno. Este patrón complejo y ramificado puede parecerse a un copo de nieve. Los esquemas de copos de nieve tienen bajos niveles de redundancia de datos, pero esto tiene como contrapartida un rendimiento más lento de las consultas.

Ejemplo de un esquema de copo de nieve Ejemplo de un esquema de copo de nieve

Esquema de galaxia

Al igual que nuestra galaxia contiene muchas estrellas, un esquema de galaxia contiene muchos esquemas de estrellas que comparten tablas de dimensiones que se normalizan para evitar la redundancia. El esquema de galaxia es más adecuado para almacenes de datos muy complejos, pero los usuarios pueden tener una experiencia de un rendimiento más bajo.

Ejemplo de esquema de galaxia Ejemplo de esquema de galaxia

Componentes de la arquitectura de los almacenes de datos

Una arquitectura típica de almacén de datos tiene varios componentes que trabajan juntos para almacenar, gestionar, procesar y entregar datos para análisis.

  • Herramientas ETL/ELT
  • Capa de API
  • Capa de datos (o base de datos central)
  • Metadatos
  • Entorno aislado
  • Herramientas de acceso

Herramientas ETL/ELT

Las herramientas ETL extraen datos de los sistemas de origen, los transforman en un área de almacenamiento y los cargan en el almacén de datos. En ELT, los datos se transforman después de cargarse en el almacén. Una herramienta de marco de proceso de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

Capa de API

Una capa de conectividad para las interfaces de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de los sistemas operativos e integrarlos con ellos. Las API también pueden proporcionar acceso a herramientas de visualización y análisis.

Capa de datos (o base de datos central)

La capa de datos (o base de datos central) es el corazón del almacén de datos. Aquí, el sistema integra y almacena datos de diversas fuentes, como aplicaciones comerciales, listas de correo electrónico, sitios web u otras bases de datos. Esta capa está respaldada por pipelines de datos ETL o ELT y utiliza un sistema de gestión de bases de datos relacionales (RDBMS) o una plataforma de almacén de datos en la nube. Las capacidades de seguridad y gobierno de datos integradas pueden particionar los datos para que los usuarios solo accedan a lo que necesitan.

Los metadatos son datos sobre datos, que describen los datos que se almacenan en un sistema para que se puedan buscar y utilizar para el análisis. Incluye metadatos técnicos (como la estructura de la tabla y el tipo de datos) y metadatos descriptivos (como el autor, la fecha de creación o el tamaño del archivo). Los metadatos son clave para un gobierno y una gestión de datos eficaces.

Entorno aislado

Algunos almacenes de datos proporcionan un entorno aislado, que es un entorno de pruebas aislado que contiene una copia de los datos de producción y las herramientas de análisis pertinentes. Los analistas de datos y los científicos de datos pueden experimentar con nuevas técnicas analíticas en el entorno aislado sin afectar a las operaciones del almacén de datos para otros usuarios.

Herramientas de acceso

Las herramientas de acceso se conectan a un almacén de datos para proporcionar un front-end fácil de usar para el usuario empresarial. Los usuarios empresariales y los analistas de datos pueden utilizar paneles de control, aplicaciones y visualización de datos para interactuar con los datos y extraer conocimiento. Algunas de estas herramientas son Tableau, Looker y Qlik.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Tipos de almacenes de datos

Hay tres tipos principales de almacén de datos:

  • Almacén de datos empresariales (EDW)
  • Almacén de datos operativos (ODS)
  • mercado de datos

Almacén de datos empresariales (EDW)

Un almacén de datos empresariales (EDW) es un almacén de datos que da servicio a toda la empresa. Actúa como un repositorio de información centralizado de datos históricos para todos los equipos y áreas temáticas. Un entorno de almacenamiento de datos empresarial también puede incluir un almacén de datos operativos (ODS) y almacenes de datos (data marts) específicos del departamento.

Almacén de datos operativos (ODS)

Un almacén de datos operativos (ODS) contiene la instantánea más reciente de los datos operativos. Un ODS se actualiza con frecuencia, lo que permite un acceso rápido a los datos casi en tiempo real. Las organizaciones suelen utilizar un ODS para la toma de decisiones operativas diarias y el análisis en tiempo real. También puede ser una fuente de datos para un EDW u otros sistemas de datos.

Almacén de datos (data mart)

Un almacén de datos (data mart) es un subconjunto de un almacén de datos existente (u otras fuentes de datos) y contiene datos adaptados a una línea de negocio o departamento específico en lugar de a toda la empresa. Por ejemplo, una empresa puede tener un almacén de datos alineado con el departamento de marketing. Esos usuarios pueden acceder a conocimientos más específicos para la segmentación de clientes y el rendimiento de las campañas sin navegar por el conjunto de datos empresariales más amplio.

Almacenes de datos frente a otros tipos de almacenamiento de datos

Los términos almacén de datos, base de datos, data lake y lakehouse de datos a veces se utilizan indistintamente, pero existen diferencias importantes.

Almacén de datos vs. base de datos

Una base de datos es como un archivador creado principalmente para la captura automatizada de datos y el procesamiento rápido de transacciones. Normalmente sirve como almacén de datos específico para una aplicación concreta. Los almacenes de datos almacenan datos de cualquier número de aplicaciones en una organización y están optimizados para análisis predictivo y otros análisis avanzados.

Almacén de datos vs. data lake

Un data lake es una solución de almacenamiento de bajo coste para cantidades masivas de datos sin procesar y utiliza un enfoque de esquema en lectura en lugar de un esquema predefinido. Los data lakes suelen contener datos no estructurados y datos semiestructurados, como documentos, vídeos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales.

Se pueden crear en plataformas de big data como Apache Hadoop o en servicios de almacenamiento de objetos en la nube como Amazon Simple Storage Service (Amazon S3). Por lo general, no limpian, validan ni normalizan los datos para el análisis, como lo hace un almacén.

Lakehouse de datos vs. almacén de datos

Un lakehouse de datos combina aspectos de los almacenes de datos y los data lakes, es decir, la flexibilidad de bajo coste de un data lake y el alto rendimiento de un almacén de datos. Al combinar las características clave de los lagos y almacenes en una única solución de datos, los lakehouses pueden ayudar a acelerar el proceso de datos para grandes cantidades de flujos de datos estructurados, no estructurados y en tiempo real para respaldar las cargas de trabajo de machine learning, ciencia de datos e inteligencia artificial (IA).

Los lakehouses de datos también pueden añadir características como metadatos compartidos y motores de Structured Query Language (SQL) distribuidos.

Beneficios del almacén de datos

Los almacenes de datos ponen los conocimientos y la información a disposición de los usuarios de toda una organización, ofreciendo muchos beneficios, como:

  • Mejore la calidad de los datos
  • Compatibilidad con IA y machine learning
  • Soporte mejorado para la toma de decisiones

Calidad de los datos mejorada

A través de procesos ELT o ETL, los almacenes de datos preparan los datos entrantes antes de que se almacenen en el almacén de datos. Esta preparación incluye métodos de calidad de datos como la limpieza de datos, la estandarización y la deduplicación. Las políticas y prácticas sólidas de gobierno de datos también pueden ayudar a garantizar la precisión e integridad de los datos para todos los usuarios.

Al integrar datos de alta calidad en un único almacén, las organizaciones crean una única fuente fiable completa y de confianza, lo que ayuda a eliminar los silos. Este repositorio central permite a los usuarios empresariales acceder con confianza a todos los datos pertinentes de la organización y utilizarlos para la toma de decisiones empresariales. Un almacén de datos de nivel empresarial podría incluir también soporte para formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría un mayor acceso a los datos y compartirlos a través de toda la empresa.

Compatibilidad con IA y machine learning

Los almacenes de datos modernos pueden admitir varios flujos de trabajo de IA y machine learning proporcionando datos limpios y fiables. Los científicos de datos pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o afinar los modelos existentes para satisfacer mejor sus necesidades empresariales únicas.

Un almacén de datos preparado para la IA debe ser capaz de recopilar, limpiar, organizar y estructurar datos, así como facilitar el flujo de datos a las plataformas de IA y machine learning. Sin embargo, no todos los almacenes de datos modernos están optimizados para cargas de trabajo de IA. Los lakehouses de datos se están convirtiendo cada vez más en las plataformas de datos preferidas para la infraestructura de IA.

Mayor apoyo a la toma de decisiones

Un almacén de datos centraliza y limpia los datos de diferentes fuentes para crear una única fuente fiable, proporcionando a las organizaciones una visión completa y veraz de los datos empresariales. Las herramientas de BI de autoservicio permiten a los usuarios de toda la empresa acceder y ejecutar consultas analíticas sobre estos datos agregados.

De esta manera, los almacenes de datos permiten a los usuarios empresariales de cualquier nivel de habilidad técnica descubrir e informar sobre temas, tendencias y agregaciones. Los líderes empresariales pueden utilizar estos conocimientos para tomar decisiones y realizar previsiones basadas en evidencia sólida en prácticamente todas las áreas de la organización, desde los procesos de negocios hasta la gestión financiera y la gestión de inventario.

Casos de uso de almacén de datos específicos de sectores

Los almacenes de datos también pueden servir para usos específicos del sector, como:

Gobierno

Las capacidades analíticas de un almacén de datos pueden ayudar a los gobiernos a comprender mejor fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

Atención médica

La capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados de pruebas, puede ayudar a los proveedores sanitarios a obtener conocimiento sobre los resultados de los pacientes, la eficiencia operativa y mucho más.

Viajes y sector hotelero

Las organizaciones pueden utilizar datos históricos relacionados con las opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.

Fabricación

Las grandes empresas manufactureras que generan enormes volúmenes de datos pueden utilizar soluciones de almacenamiento de datos para crear almacenes de datos adaptados a las necesidades de cada departamento.

Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data