Un almacén de datos, o almacén de datos empresarial (EDW), es un sistema que agrega datos de diferentes fuentes en un almacén de datos único, central y consistente para respaldar el análisis de datos, la minería de datos, la inteligencia artificial (IA) y machine learning. Un sistema de almacenamiento de datos permite a una organización ejecutar análisis potentes en grandes volúmenes (petabytes y petabytes) de datos históricos de formas que una base de datos estándar no puede.
Los sistemas de almacenamiento de datos han sido parte de las soluciones de inteligencia empresarial (BI) durante más de tres décadas, pero han evolucionado recientemente con la aparición de nuevos tipos de datos y métodos de alojamiento de datos. Tradicionalmente, un almacén de datos se alojaba en las instalaciones, a menudo en una computadora central, y su funcionalidad se enfocaba en extraer datos de otras fuentes, limpiar y preparar los datos y cargar y mantener los datos en una base de datos relacional. Más recientemente, un almacén de datos puede estar alojado en un dispositivo dedicado o en la nube, y la mayoría de los almacenes de datos han agregado funcionalidades de analítica y herramientas de visualización y presentación de datos.
Descubra más acerca de las soluciones de almacenamiento de datos de IBM.
Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar
En términos generales, los almacenes de datos tienen una arquitectura de tres niveles, que consta de un:
OLAP (para procesamiento analítico en línea) es un software para realizar análisis multidimensionales a altas velocidades en grandes volúmenes de datos desde almacenes unificados y centralizados, como un almacén de datos. OLTP, o procesamiento transaccional en línea, permite la ejecución en tiempo real de un gran número de transacciones de bases de datos por un gran número de personas, normalmente a través de Internet. La principal diferencia entre OLAP y OLTP está en el nombre: OLAP es de naturaleza analítica y OLTP es transaccional.
Las herramientas OLAP están diseñadas para el análisis multidimensional de datos en un almacén de datos, que contiene datos históricos y transaccionales. Los usos comunes de OLAP incluyen minería de datos y otras aplicaciones de inteligencia empresarial, cálculos analíticos complejos y escenarios predictivos, así como funciones de informes empresariales como, por ejemplo, análisis financiero, elaboración de presupuestos y planificación de previsiones.
OLTP está diseñado para admitir aplicaciones orientadas a transacciones al procesar transacciones recientes de la manera más rápida y precisa posible. Los usos comunes de OLTP incluyen cajeros automáticos, software de comercio electrónico, procesamiento de pagos con tarjeta de crédito, reservas en línea, sistemas de reserva y herramientas de mantenimiento de registros.
Para profundizar en las diferencias entre estos enfoques, consulte "OLAP vs. OLTP: ¿cuál es la diferencia?"
Los esquemas son formas en que se organizan los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema, el esquema de estrella y el esquema de copo de nieve, que afectarán el diseño de su modelo de datos.
Esquema de estrella: este esquema consta de una tabla de hechos que se puede unir a varias tablas de dimensiones desnormalizadas. Se considera el tipo de esquema más simple y común, y sus usuarios se benefician de sus velocidades más rápidas al realizar consultas.
Esquema de copo de nieve: aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas y estas tablas de dimensiones tienen tablas secundarias. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero el rendimiento de las consultas tiene un costo.
Los términos almacén de datos, base de datos, data lakes y mercado de datos tienden a usarse indistintamente. Si bien los términos son similares, existen diferencias importantes:
Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central, estructurado mediante esquemas predefinidos diseñados para la analítica de datos. Un data lake es un almacén de datos sin los esquemas predefinidos. Como resultado, permite más tipos de analítica que un almacén de datos. Los data lakes se construyen comúnmente en plataformas de big data como, por ejemplo, Apache Hadoop.
Vea el siguiente video para obtener más información sobre los data lakes:
Un data mart es un subconjunto de un almacén de datos que contiene datos específicos de una línea de negocio o departamento en particular. Debido a que contienen un subconjunto más pequeño de datos, los data marts permiten que un departamento o línea comercial descubra información más enfocada más rápidamente de lo que es posible cuando se trabaja con el conjunto de datos más amplio del almacén de datos.
Almacén de datos frente a base de datos Una base de datos se crea principalmente para consultas rápidas y procesamiento de transacciones, no para analítica. Una base de datos generalmente sirve como el almacén de datos enfocado para una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número (o incluso de todas) las aplicaciones de su organización.
Una base de datos se enfoca en actualizar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos actuales e históricos para analítica predictiva, machine learning y otros tipos avanzados de análisis.
Almacén de datos en la nube Un almacén de datos en la nube es un almacén de datos diseñado específicamente para ejecutarse en la nube y se ofrece a los clientes como un servicio gestionado. Los almacenes de datos basados en la nube se han vuelto más populares en los últimos cinco a siete años a medida que más empresas utilizan los servicios en la nube y buscan reducir su huella de centro de datos en las instalaciones.
Con un almacén de datos en la nube, la infraestructura del almacén de datos físico es gestionada por la empresa de la nube, lo que significa que el cliente no tiene que realizar una inversión inicial en hardware o software y no tiene que gestionar o mantener la solución del almacén de datos.
Una empresa puede comprar una licencia de almacén de datos y luego implementar un almacén de datos en su propia infraestructura local. Aunque esto suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una mejor opción para entidades gubernamentales, instituciones financieras u otras organizaciones que deseen tener más control sobre sus datos o que necesiten cumplir con estrictas normas o regulaciones de seguridad o privacidad de datos.
Dispositivo de almacén de datosUn dispositivo de almacén de datos es un paquete preintegrado de hardware y software (CPU, almacenamiento, sistema operativo y software de almacenamiento de datos) que una empresa puede conectar a su red y comenzar a usar tal cual. Un dispositivo de almacén de datos se encuentra en algún lugar entre las implementaciones en la nube y en las instalaciones en términos de costo inicial, velocidad de implementación, facilidad de escalabilidad y control de gestión.
Un almacén de datos proporciona una base para lo siguiente:
Las soluciones de almacén de datos de IBM ofrecen rendimiento y flexibilidad para respaldar datos estructurados y no estructurados para cargas de trabajo analíticas, incluyendo el machine learning.
Explore las capacidades de un almacén de datos en la nube totalmente administrado y flexible, creado para la analítica de alto rendimiento y la IA.
IBM Cloud Pak for Data System es una plataforma de nube híbrida completa que ofrece un entorno preconfigurado, gestionado y altamente seguro en las instalaciones.
La IA puede presentar una serie de desafíos que los almacenes de datos empresariales y data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.
Para elegir un almacén de datos empresarial, las empresas deben considerar el impacto de la IA, los diferenciadores clave del almacén y la variedad de modelos de implementación. Este e-book ayuda a hacer precisamente eso.
Una guía para construir una organización basada en datos e impulsar la ventaja empresarial