Data Warehouse
fondo negro y azul
Data Warehouse

Un almacén de datos, componente principal de la inteligencia empresarial, reúne datos de muchas fuentes diferentes en un único repositorio de datos para ofrecer analítica y soporte de decisiones sofisticados.

Productos destacados

Db2 Warehouse on Cloud

Netezza Performance Server


¿Qué es un almacén de datos?

Un almacén de datos, o almacén de datos empresarial (EDW), es un sistema que agrega datos de diferentes fuentes en un almacén de datos único, central y consistente para respaldar el análisis de datos, la minería de datos, la inteligencia artificial (IA) y machine learning. Un sistema de almacenamiento de datos permite a una organización ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes) de datos históricos de formas que una base de datos estándar no puede.

Los sistemas de almacenamiento de datos han sido parte de las soluciones de inteligencia empresarial (BI) durante más de tres décadas, pero han evolucionado recientemente con la aparición de nuevos tipos de datos y métodos de alojamiento de datos. Tradicionalmente, un almacén de datos se alojaba en las instalaciones, a menudo en una computadora central, y su funcionalidad se enfocaba en extraer datos de otras fuentes, limpiar y preparar los datos y cargar y mantener los datos en una base de datos relacional. Más recientemente, un almacén de datos puede estar alojado en un dispositivo dedicado o en la nube, y la mayoría de los almacenes de datos han agregado funcionalidades de analítica y herramientas de visualización y presentación de datos.

Descubra más acerca de las soluciones de almacenamiento de datos de IBM.

Enlaces relacionados

Soluciones de almacén de datos de IBM


Arquitectura de almacenamiento de datos

En términos generales, los almacenes de datos tienen una arquitectura de tres niveles, que consta de un:

  • Nivel inferior:  el nivel inferior consta de un servidor de almacenamiento de datos, generalmente un sistema de base de datos relacional, que recopila, limpia y transforma datos de múltiples fuentes de datos a través de un proceso conocido como Extraer, transformar y cargar (ETL) o un proceso conocido como Extraer, cargar y transformar (ELT).
  • Nivel intermedio:  el nivel intermedio consta de un servidor OLAP (es decir, procesamiento analítico en línea) que permite velocidades de consulta rápidas. En este nivel, se pueden utilizar tres tipos de modelos OLAP, conocidos como ROLAP, MOLAP y HOLAP. El tipo de modelo OLAP utilizado depende del tipo de sistema de base de datos que exista.
  • Nivel superior:  el nivel superior está representado por algún tipo de interfaz de usuario frontal o herramienta de informes, que permite a los usuarios finales realizar actividades de  análisis de los datos  bajo demanda en sus  datos comerciales.

Comprensión de OLAP y OLTP en almacenes de datos

OLAP (para  procesamiento analítico en línea) es un software para realizar análisis multidimensionales a altas velocidades en grandes volúmenes de datos desde almacenes unificados y centralizados, como un almacén de datos. OLTP, o procesamiento transaccional en línea, permite la ejecución en tiempo real de un gran número de transacciones de bases de datos por un gran número de personas, normalmente a través de Internet. La principal diferencia entre OLAP y OLTP está en el nombre: OLAP es de naturaleza analítica y OLTP es transaccional. 

Las herramientas OLAP están diseñadas para el análisis multidimensional de datos en un almacén de datos, que contiene datos históricos y transaccionales. Los usos comunes de OLAP incluyen minería de datos y otras aplicaciones de inteligencia empresarial, cálculos analíticos complejos y escenarios predictivos, así como funciones de informes empresariales como, por ejemplo, análisis financiero, elaboración de presupuestos y planificación de previsiones.

OLTP está diseñado para admitir aplicaciones orientadas a transacciones al procesar transacciones recientes de la manera más rápida y precisa posible. Los usos comunes de OLTP incluyen cajeros automáticos, software de comercio electrónico, procesamiento de pagos con tarjeta de crédito, reservas en línea, sistemas de reserva y herramientas de mantenimiento de registros.

Para profundizar en las diferencias entre estos enfoques, consulte "OLAP vs. OLTP: ¿cuál es la diferencia?"


Esquemas en almacenes de datos

Los esquemas son formas en que se organizan los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema, el esquema de estrella y el esquema de copo de nieve, que afectarán el diseño de su modelo de datos.

Esquema de estrella:  este esquema consta de una tabla de hechos que se puede unir a varias tablas de dimensiones desnormalizadas. Se considera el tipo de esquema más simple y común, y sus usuarios se benefician de sus velocidades más rápidas al realizar consultas.

Esquema de copo de nieve:  aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas y estas tablas de dimensiones tienen tablas secundarias. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero el rendimiento de las consultas tiene un costo. 


Almacén de datos frente a base de datos, data lakes y mercado de datos

Los términos almacén de datos, base de datos, data lakes y mercado de datos tienden a usarse indistintamente. Si bien los términos son similares, existen diferencias importantes:

Almacén de datos vs. data lake
 

Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central, estructurado mediante esquemas predefinidos diseñados para la analítica de datos. Un data lake es un almacén de datos sin los esquemas predefinidos. Como resultado, permite más tipos de analítica que un almacén de datos. Los data lakes se construyen comúnmente en plataformas de big data como, por ejemplo, Apache Hadoop.

Vea el siguiente video para obtener más información sobre los data lakes:

Almacén de datos vs. data mart
 

Un data mart es un subconjunto de un almacén de datos que contiene datos específicos de una línea de negocio o departamento en particular. Debido a que contienen un subconjunto más pequeño de datos, los data marts permiten que un departamento o línea comercial descubra información más enfocada más rápidamente de lo que es posible cuando se trabaja con el conjunto de datos más amplio del almacén de datos.

Almacén de datos vs. base de datos
 

Almacén de datos frente a base de datos Una base de datos se crea principalmente para consultas rápidas y procesamiento de transacciones, no para analítica. Una base de datos generalmente sirve como el almacén de datos enfocado para una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número (o incluso de todas) las aplicaciones de su organización.

Una base de datos se enfoca en actualizar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos actuales e históricos para analítica predictiva, machine learning y otros tipos avanzados de análisis.


Tipos de almacenes de datos

Almacén de datos en la nube
 

Almacén de datos en la nube Un almacén de datos en la nube es un almacén de datos diseñado específicamente para ejecutarse en la nube y se ofrece a los clientes como un servicio gestionado. Los almacenes de datos basados en la nube se han vuelto más populares en los últimos cinco a siete años a medida que más empresas utilizan los servicios en la nube y buscan reducir  su  huella de centro de datos en las instalaciones.

Con un almacén de datos en la nube, la infraestructura del almacén de datos físico es gestionada por la empresa de la nube, lo que significa que el cliente no tiene que realizar una inversión inicial en hardware o software y no tiene que gestionar o mantener la solución del almacén de datos.

Software de almacenamiento de datos (en las instalaciones/con licencia)
 

Una empresa puede comprar una licencia de almacén de datos y luego implementar un almacén de datos en su propia infraestructura local. Aunque esto suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una mejor opción para entidades gubernamentales, instituciones financieras u otras organizaciones que deseen tener más control sobre sus datos o que necesiten cumplir con estrictas normas o regulaciones de seguridad o privacidad de datos.

Dispositivo de almacén de datos
 

Dispositivo de almacén de datosUn dispositivo de almacén de datos es un paquete preintegrado de hardware y software (CPU, almacenamiento, sistema operativo y software de almacenamiento de datos) que una empresa puede conectar a su  red  y comenzar a usar tal cual. Un dispositivo de almacén de datos se encuentra en algún lugar entre las implementaciones en la nube y en las instalaciones en términos de costo inicial, velocidad de implementación, facilidad de escalabilidad y control de gestión.


Beneficios de un almacén de datos

Un almacén de datos proporciona una base para lo siguiente:

  • Mejor calidad de datos:  un almacén de datos centraliza los datos de una variedad de fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego lo limpia, elimina los duplicados y lo estandariza para crear una única fuente de verdad.
  • Información empresarial más rápida:  los datos de fuentes dispares  limitan la capacidad de quienes toman las decisiones  para establecer estrategias comerciales con confianza. Los almacenes de datos  habilitan la integración de datos, lo que permite a los  usuarios  comerciales aprovechar todos los datos de una empresa en cada decisión comercial.
  • Toma de decisiones más inteligente:  un almacén de datos admite funciones de BI a gran escala, como la minería de datos (encontrar patrones y relaciones invisibles en los datos), inteligencia artificial y machine learning, herramientas que los profesionales de datos y los líderes empresariales pueden utilizar para obtener pruebas contundentes para tomar decisiones más inteligentes en prácticamente todas las áreas de la organización, desde los procesos de negocio hasta la gestión financiera y la gestión de inventarios
  • Obtención y crecimiento de una ventaja competitiva:  todo lo anterior se combina para ayudar a una organización a encontrar más oportunidades en los datos, más rápidamente de lo que es posible en diferentes almacenes de datos.

Almacén de datos e IBM Cloud

IBM ofrece soluciones almacenamiento de datos de un dispositivos integrados , en la nube y en las instalaciones, todas creadas sobre una base de analítica de datos e inteligencia artificial optimizada para proporcionar insights predictivos y toma de decisiones basada en datos. Las tres forman parte de la familia de productos IBM Db2, que ofrecen un motor SQL común para optimizar las consultas y las funciones de machine learning que mejoran el rendimiento de la gestión de datos.

IBM Db2 Warehouse on Cloud  es un almacén de datos en la nube flexible y totalmente gestionado que ofrece escalado independiente de almacenamiento y computación, con un almacén de datos en columnas altamente optimizado, compresión procesable y procesamiento en memoria para potenciar sus cargas de trabajo de analítica y machine learning. Los data marts y spin-ups más pequeños pueden agregar  Flex One, un almacén de datos flexible creado para analítica de alto rendimiento, que se puede implementar en varios proveedores de nube, a partir de 40 GB de almacenamiento.

La última evolución del dispositivo IBM Netezza,

Netezza Performance Server, se basa en la arquitectura hiperconvergente de  IBM Cloud Pak for Data System  para proporcionar un sistema de soporte de decisiones  nativo en la nube  para las actividades de analítica más complejas de su empresa.

IBM InfoSphere DataStage  es una herramienta de almacenamiento de datos que ofrece ETL empresarial avanzado y proporciona una plataforma  multinube  que integra datos en múltiples sistemas empresariales.

E  IBM Watson Studio, una solución de ciencia de datos y machine learning, que permite a las organizaciones aprovechar los activos de datos e inyectar predicciones en los procesos comerciales y las aplicaciones modernas.

Regístrese para obtener un IBMid y  cree su cuenta de IBM Cloud para obtener más información sobre los almacenes de datos.


Soluciones relacionadas

Soluciones de almacén de datos

Las soluciones de almacén de datos de IBM ofrecen rendimiento y flexibilidad para respaldar datos estructurados y no estructurados para cargas de trabajo analíticas, incluyendo el machine learning.


Db2 Warehouse on Cloud

Explore las capacidades de un almacén de datos en la nube totalmente administrado y flexible, creado para la analítica de alto rendimiento y la IA.


Netezza Performance Server

Explore un almacén de datos avanzado y una plataforma de analítica con potentes analítica en la base de datos, disponibles tanto en las instalaciones como en la nube.


IBM Cloud Pak for Data System

IBM Cloud Pak for Data System es una plataforma de nube híbrida completa que ofrece un entorno preconfigurado, gestionado y altamente seguro en las instalaciones.


IBM Watson Studio

Cree, ejecute y gestione modelos de IA. Prepare datos y cree modelos en cualquier nube utilizando código fuente abierto o modelado visual. Prediga y optimice sus resultados.


IBM DataStage

Explore IBM DataStage, una potente plataforma escalable de extracción, transformación y carga (ETL, por sus siglas en inglés) que ofrece una integración casi en tiempo real de todos los tipos de datos en sus instalaciones y en la nube.