¿Qué es un almacén de datos?
Un almacén de datos reúne datos de muchas fuentes diferentes en un único repositorio de datos para ofrecer analítica sofisticada y soporte de decisiones.
Suscríbase al boletín de IBM
fondo negro y azul
¿Qué es un almacén de datos?

Un almacén de datos, o almacén de datos empresarial (EDW), es un sistema que agrega datos de diferentes fuentes en un almacén de datos único, central y consistente para respaldar el análisis de datos, la minería de datos, la inteligencia artificial (IA) y machine learning. Un sistema de almacenamiento de datos permite a una organización ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes) de datos históricos de formas que una base de datos estándar no puede.

Los sistemas de almacenamiento de datos han sido parte de las soluciones de inteligencia empresarial (BI) durante más de tres décadas, pero han evolucionado recientemente con la aparición de nuevos tipos de datos y métodos de hosting de datos. Tradicionalmente, un almacén de datos se alojaba en las instalaciones, a menudo en una computadora central, y su funcionalidad se enfocaba en extraer datos de otras fuentes, limpiar y preparar los datos y cargar y mantener los datos en una base de datos relacional. Más recientemente, un almacén de datos puede estar alojado en un dispositivo dedicado o en la nube, y la mayoría de los almacenes de datos han agregado funcionalidades de analítica y herramientas de visualización y presentación de datos.

Descubra más acerca de las soluciones de almacenamiento de datos de IBM.

 

Descubra watsonx.data

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar

Arquitectura de almacenamiento de datos

En términos generales, los almacenes de datos tienen una arquitectura de tres niveles, que consta de un:

  • Nivel inferior: el nivel inferior consta de un servidor de almacenamiento de datos, generalmente un sistema de base de datos relacional, que recopila, limpia y transforma datos de múltiples fuentes de datos a través de un proceso conocido como Extraer, transformar y cargar (ETL) o un proceso conocido como Extraer, cargar y transformar (ELT).
  • Nivel intermedio: el nivel intermedio consta de un servidor OLAP (procesamiento analítico en línea) que permite velocidades de consulta rápidas. En este nivel, se pueden utilizar tres tipos de modelos OLAP, conocidos como ROLAP, MOLAP y HOLAP. El tipo de modelo OLAP utilizado depende del tipo de sistema de base de datos que exista.
  • Nivel superior: el nivel superior está representado por algún tipo de interfaz de usuario frontal o herramienta de informes, que permite a los usuarios finales realizar actividades de análisis de los datos bajo demanda en sus datos comerciales.
Comprensión de OLAP y OLTP en almacenes de datos

OLAP (acrónimo de online analytical processing), o procesamiento analítico en línea, es un software para realizar análisis multidimensionales a altas velocidades en grandes volúmenes de datos desde almacenes unificados y centralizados, como un almacén de datos. OLTP, o procesamiento transaccional en línea, permite la ejecución en tiempo real de un gran número de transacciones de bases de datos por un gran número de personas, normalmente a través de Internet. La principal diferencia entre OLAP y OLTP está en el nombre: OLAP es de naturaleza analítica, OLTP es de naturaleza transaccional. 

Las herramientas OLAP están diseñadas para el análisis multidimensional de datos en un almacén de datos, que contiene datos históricos y transaccionales. Los usos comunes de OLAP incluyen minería de datos y otras aplicaciones de inteligencia empresarial, cálculos analíticos complejos y escenarios predictivos, así como funciones de informes empresariales como, por ejemplo, análisis financiero, elaboración de presupuestos y planificación de previsiones.

OLTP está diseñado para admitir aplicaciones orientadas a transacciones al procesar transacciones recientes de la manera más rápida y precisa posible. Los usos comunes de OLTP incluyen cajeros automáticos, software de comercio electrónico, procesamiento de pagos con tarjeta de crédito, reservas en línea, sistemas de reserva y herramientas de mantenimiento de registros.

Para obtener información detallada acerca de las diferencias entre estos enfoques, consulte "OLAP frente a OLTP: ¿cuál es la diferencia?"

Esquemas en almacenes de datos

Los esquemas son formas en que se organizan los datos dentro de una base o almacén de datos. Hay dos tipos principales de estructuras de esquema, el esquema de estrella y el esquema de copo de nieve, que afectarán el diseño de su modelo de datos.

Esquema de estrella: este esquema consta de una tabla de hechos que se puede unir a varias tablas de dimensiones desnormalizadas. Se considera el tipo de esquema más simple y común, y ofrece a sus usuarios una mayor rapidez en las consultas.

Esquema de copo de nieve: aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas y estas tablas de dimensiones tienen tablas secundarias. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero el rendimiento de las consultas tiene un costo. 

Almacén de datos frente a base de datos, data lakes y mercado de datos

Los términos almacén de datos, base de datos, data lakes y data mart tienden a usarse indistintamente. Si bien los términos son similares, existen diferencias importantes:

Almacén de datos frente a data lake
 

Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central, estructurado mediante esquemas predefinidos diseñados para la analítica de datos. Un data lake es un almacén de datos sin los esquemas predefinidos. Como resultado, permite más tipos de analítica que un almacén de datos. Los data lakes se construyen comúnmente en plataformas de big data como, por ejemplo, Apache Hadoop.

Vea el siguiente video para conocer más acerca de los data lakes:

Almacén de datos frente a data mart
 

Un data mart es un subconjunto de un almacén de datos que contiene datos específicos de una línea de negocio o departamento en particular. Debido a que contienen un subconjunto más pequeño de datos, los data marts permiten que un departamento o una línea de negocios descubra insights más específicos más rápido que con los datos más amplios de un almacén de datos.

Almacén de datos frente a base de datos
 

Una base de datos se crea principalmente para consultas rápidas y procesamiento de transacciones, no para analítica. Una base de datos generalmente sirve como el almacén de datos para una aplicación específica, mientras que un almacén de datos almacena datos para varias aplicaciones en su empresa (o incluso para todas las aplicaciones).

Una base de datos consiste principalmente en actualizar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, ya que captura datos actuales e históricos para analítica predictiva, machine learning y otros tipos de análisis avanzados.

Tipos de almacenes de datos

Almacén de datos en la nube
 

Un almacén de datos en la nube es un almacén de datos diseñado específicamente para ejecutarse en la nube y se ofrece a los clientes como un servicio gestionado. Los almacenes de datos basados en la nube se han vuelto más populares en los últimos cinco a siete años a medida que más empresas utilizan los servicios en la nube y buscan reducir el espacio que ocupan sus centro de datos en las instalaciones.

Con un almacén de datos en la nube, la infraestructura del almacén de datos físico es gestionada por la empresa de la nube, lo que significa que el cliente no tiene que realizar una inversión inicial en hardware o software y no tiene que gestionar o mantener la solución del almacén de datos.

Software de almacenamiento de datos (en las instalaciones/con licencia)
 

Una empresa puede comprar una licencia de almacén de datos y luego implementar un almacén de datos en su propia infraestructura local. Aunque esto suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una mejor opción para entidades gubernamentales, instituciones financieras u otras organizaciones que deseen tener más control sobre sus datos o que necesiten cumplir con estrictas normas o regulaciones de seguridad o privacidad de datos.

Dispositivo de almacén de datos
 

Un dispositivo de almacén de datos es un paquete preintegrado de hardware y software (CPU, almacenamiento, sistema operativo y software de almacenamiento de datos) que una empresa puede conectar a su red y comenzar a usar tal cual. Un dispositivo de almacén de datos se encuentra en algún lugar entre las implementaciones en la nube y en las instalaciones en términos de costo inicial, velocidad de implementación, facilidad de escalabilidad y control de gestión.

Beneficios de un almacén de datos

Un almacén de datos proporciona una base para lo siguiente:

  • Mejor calidad de datos: un almacén de datos centraliza los datos de una variedad de fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego lo limpia, elimina los duplicados y lo estandariza para crear una única fuente de verdad.
  • Información empresarial más rápida: los datos de fuentes dispares limitan la capacidad de quienes toman las decisiones para establecer estrategias comerciales con confianza. Los almacenes de datos habilitan la integración de datos, lo que permite a los usuarios empresariales aprovechar todos los datos de una empresa en cada decisión comercial.
  • Toma de decisiones más inteligente: un almacén de datos admite funciones de BI a gran escala, como la minería de datos (encontrar patrones y relaciones invisibles en los datos), inteligencia artificial y machine learning, herramientas que los profesionales de datos y los líderes empresariales pueden utilizar para obtener pruebas contundentes para tomar decisiones más inteligentes en prácticamente todas las áreas de la organización, desde los procesos de negocio hasta la gestión financiera y la gestión de inventarios
  • Obtención y crecimiento de una ventaja competitiva: todo lo anterior se combina para ayudar a una organización a encontrar más oportunidades en los datos, más rápidamente de lo que es posible en diferentes almacenes de datos.
Soluciones relacionadas
Soluciones de almacén de datos

Las soluciones de almacén de datos de IBM ofrecen rendimiento y flexibilidad para respaldar datos estructurados y no estructurados para cargas de trabajo analíticas, incluyendo el machine learning.

Explore las soluciones de almacén de datos
Db2 Warehouse on Cloud

Explore las funcionalidades de un almacén de datos en la nube totalmente gestionado y flexible, creado para analítica de alto rendimiento e IA.

Explore Db2 Warehouse on Cloud
IBM® Cloud Pak for Data System

IBM® Cloud Pak for Data System es una plataforma de nube híbrida completa que ofrece un entorno preconfigurado, gestionado y altamente seguro en las instalaciones.

Explore IBM® Cloud Pak for Data System
Recursos Cómo encontrar el almacén de datos empresarial adecuado para afrontar el desafío de datos e IA

La IA puede presentar una serie de desafíos que los almacenes de datos empresariales y data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.

Cómo elegir el almacén de datos adecuado para la IA

Para elegir un almacén de datos empresarial, las empresas deben considerar el impacto de la IA, los diferenciadores clave del almacén y la variedad de modelos de implementación. Este e-book ayuda a hacer precisamente eso.

The Data Differentiator (Los datos como diferenciador)

Una guía para crear una organización basada en datos e impulsar la ventaja empresarial

Dé el siguiente paso

IBM ofrece soluciones de almacenamiento de datos en dispositivos integrados, en la nube y en las instalaciones, todas creadas sobre una base de analítica de datos e inteligencia artificial optimizada para proporcionar insights predictivos y toma de decisiones basada en datos. Las tres forman parte de la familia de productos IBM Db2, que ofrecen un motor SQL común para optimizar las consultas y las funciones de machine learning que mejoran el rendimiento de la gestión de datos.

Explore las soluciones de almacén de datos