Mi IBM Inicie sesión Suscríbase

Actualizado: 11 de octubre de 2024 
Colaboradores
: Jim Holdsworth, Matthew Kosinski

Qué es un almacén de datos

Qué es un almacén de datos

Un almacén de datos es un sistema que agrega datos de varias fuentes en un único almacén de datos central y coherente. Los almacenes de datos ayudan a preparar los datos para las iniciativas de análisis de datos, inteligencia empresarial (BI), minería de datos, machine learning (ML) e inteligencia artificial (IA).

 

Un sistema de almacenamiento de datos empresarial permite a una organización ejecutar análisis potentes sobre grandes cantidades de datos (petabytes y más) de formas que una base de datos estándar no puede. Los datos pueden ser estructurados, semiestructurados o no estructurados. Los datos pueden introducirse en un almacén desde múltiples bases de datos, incluidos los sistemas de gestión de relaciones con los clientes (CRM), inventario, punto de venta (POS) y gestión de la cadena de suministro.

Los sistemas de almacenamiento de datos, a veces denominados sistemas de almacenamiento de datos empresariales (EDW), han respaldado los esfuerzos de inteligencia empresarial durante más de tres décadas. Sus funciones se centran en la extracción de datos de otras fuentes, la limpieza y preparación de los datos y la carga y el mantenimiento de los datos, a menudo en una base de datos relacional.

Tradicionalmente, un almacén de datos se alojaba en entornos locales, a menudo en un mainframe. Hoy en día, muchos almacenes de datos están alojados en la nube y se entregan como servicio en la nube. 

Evolución del almacén de datos

Evolución del almacén de datos

Los almacenes de datos nacieron en la década de 1980 para optimizar el análisis de datos al hacer que los datos de transacción estuvieran disponibles en un formato coherente. A medida que crecía el poder de las aplicaciones empresariales y estallaban nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT), crecía la necesidad de un mayor almacenamiento y un análisis más rápido.

A medida que el almacén de datos evolucionó para admitir mayores volúmenes y datos más granulares, más equipos dentro de las organizaciones solicitaron acceso directo a los datos para funciones de análisis de autoservicio

Muchas organizaciones se dieron cuenta de que sus almacenes de datos heredados no podían gestionar estas nuevas y enormes cargas de trabajo. Y como muchos almacenes de datos solo almacenaban datos estructurados, la riqueza del análisis podía ser limitada. En respuesta, evolucionaron alternativas más flexibles, incluidos los almacenes de datos nativos de la nube y los lakehouses de datos. (Consulte "lakehouse de datos vs. almacén de datos" para obtener más información). 

Arquitectura de los almacenes de datos

Arquitectura de los almacenes de datos

Para procesar los datos de forma rápida y eficiente, los almacenes de datos suelen utilizar una arquitectura de tres niveles.

Nivel inferior


Este nivel es donde los datos fluyen desde fuentes de datos dispar hacia un servidor de almacén de datos, donde se almacenan. La mayoría de las veces, los datos se mueven a través de un proceso conocido como extraer, transformar, cargar (ETL) o, a veces, un proceso conocido como extraer, cargar, transformar (ELT). Estos procesos se ejecutan de formas distintas, pero ambos utilizan la automatización para trasladar los datos a un almacén y prepararlos para su uso en análisis.

Nivel medio


Este nivel se construye tradicionalmente en torno a un motor de análisis, la mayoría de las veces un sistema de procesamiento analítico en línea (OLAP) diseñado para ofrecer análisis rápidos y velocidades de consulta. En este nivel se pueden utilizar tres tipos de modelos OLAP:

  • Procesamiento analítico relacional en línea (ROLAP), que permite el análisis de datos multidimensional de bases de datos relacionales.

  • Procesamiento analítico multidimensional en línea (MOLAP), que utiliza motores de almacenamiento multidimensional basados en matrices para crear vistas multidimensionales de los datos.

  • Procesamiento analítico híbrido en línea (HOLAP), que combina las capacidades de ROLAP y MOLAP.

El tipo de modelo OLAP utilizado depende del tipo de sistema de bases de datos que se utilice.

Nivel superior


Este nivel incluye una interfaz de usuario front-end o una herramienta de elaboración de informes, que permite a los usuarios realizar análisis de datos ad hoc sobre sus datos empresariales. La inteligencia empresarial de autoservicio tiene múltiples usos, como la generación de informes basados en datos históricos, la identificación de nuevas oportunidades o la identificación de cuellos de botella en los procesos.

Comprender OLAP y OLTP

Comprender OLAP y OLTP

La mayoría de los almacenes de datos utilizan sistemas OLAP para respaldar los análisis. El software OLAP realiza análisis multidimensionales a altas velocidades en grandes volúmenes de datos desde un almacén unificado y centralizado, como un almacén de datos.

Un dato comercial a menudo tiene múltiples dimensiones. Por ejemplo, las cifras de ventas podrían incluir varias dimensiones relacionadas con la ubicación (región, país y almacenar), el tiempo (año, mes, semana y día) o el producto (marca, tipo).

En una base de datos relacional tradicional, los datos se organizan en tablas de filas y columnas que solo pueden representar dos de estas dimensiones a la vez: una dimensión en la fila y una dimensión en la columna. Esto puede hacer que el análisis sea engorroso.

Sin embargo, los sistemas OLAP permiten a los usuarios analizar datos en múltiples dimensiones a la vez, lo que permite un procesamiento más rápido y un análisis más profundo. Los usos comunes de OLAP incluyen aplicaciones de minería de datos e inteligencia empresarial, cálculos analíticos complejos, escenarios predictivos, presupuestos y previsiones.

OLAP es distinto del procesamiento transaccional en línea u OLTP. Los sistemas OLTP rastrean un gran número de transacciones, por un gran número de usuarios, en tiempo real. La diferencia clave entre OLTP y OLAP es que los sistemas OLTP están diseñados principalmente para capturar datos, mientras que los sistemas OLAP analizan datos que ya han sido capturados.

Los sistemas OLTP suelen utilizar bases de datos relacionales para registrar transacciones como:

  • Transacciones bancarias y en cajeros automáticos
  • Comercio electrónico y compras en tienda
  • Reservas de hoteles y aerolíneas

Aunque los almacenes de datos no suelen implicar sistemas OLTP, los datos registrados en las bases de datos por los sistemas OLTP suelen alimentarse al almacén, donde un sistema OLAP permite el análisis.

OLAP y OLTP: ¿Cuál es la diferencia?
Esquemas en almacenes de datos

Esquemas en almacenes de datos

Los esquemas de bases de datos definen cómo se organizan los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema utilizadas en los almacenes de datos: el esquema en estrella y el esquema en copo de nieve.

El esquema de estrella y copo de nieve son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos. Los modelos dimensionales aumentan la redundancia para facilitar la localización de la información para la elaboración de informes y la recuperación. Este modelado se utiliza normalmente en todos los sistemas OLAP.

Esquema en estrella

 

Este esquema consta de una tabla de hechos (que contiene elementos medibles como los productos vendidos y los importes monetarios de las ventas) unida a tablas de dimensiones (es decir, información de referencia que muestra cómo se pueden agrupar y organizar los hechos, como las fechas de venta y el sector al que se vende).

En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. La estrella esquema se considera el tipo de esquema más simple y común, y sus usuarios se benefician de una velocidad más rápida al realizar consultas.

Esquema de copo de nieve

 

Aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa que se utiliza en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas que contienen datos descriptivos sobre los hechos de la tabla de hechos central. Estas tablas de dimensiones también tienen tablas secundarias.

Este patrón más complejo y ramificado puede parecerse a un copo de nieve. Los usuarios de un esquema en copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero esto conlleva un coste en el rendimiento de las consultas más lento. 

Componentes de la arquitectura de los almacenes de datos

Componentes de la arquitectura de los almacenes de datos

La mayoría de los almacenes de datos se construyen en torno a un sistema de base de datos relacional, ya sea local o en la nube, donde se almacenan y procesan los datos. Un almacén de datos típico tiene componentes como:

  • Capa de datos (o base de datos central)
  • Herramientas de acceso
  • Herramientas de extracción, transformación y carga (ETL)
  • Metadatos
  • Entorno aislado
  • Capa de API

Capa de datos (o base de datos central)

La capa de datos o base de datos central, es el corazón del almacén de datos y está respaldada por todos los demás componentes. Los datos pueden ser entrada desde aplicaciones comerciales, listas de correo electrónico, sitios web o cualquier otra base de datos relacional. Los datos se almacenan físicamente en un servidor o conjunto de servidores.

La capa de datos puede particionar segmentos de datos para que los usuarios solo puedan acceder a los datos que necesitan. Por ejemplo, el equipo de ventas normalmente no tendría acceso a los datos del equipo de RR. HH. y viceversa.

Por lo general, los almacenes de datos tienen incorporadas capacidades de seguridad y gobierno de datos, por lo que las organizaciones no necesitan hacer mucho trabajo de ingeniería de datos personalizado para incluir estas características. Es posible que las organizaciones necesiten actualizar los principios de gobierno de datos y las medidas de seguridad en el tiempo a medida que se añaden nuevos datos de diferentes fuentes al almacén.

Herramientas de acceso

Las herramientas de acceso se conectan a un almacén de datos para proporcionar un front-end fácil de usar para el usuario empresarial. Esto puede incluir paneles de control, informes y herramientas de visualización de datos que permitan a los analistas de datos y a los usuarios empresariales interactuar con los datos y extraer conocimientos. Algunas de estas herramientas son Tableau, Looker y Qlik.

Herramientas de extracción, transformación y carga (ETL)

Las herramientas ETL ayudan a mover datos de una fuente de datos al almacén de datos. Primero, los datos se "extraen" de su fuente, se mueven a un área de preparación donde se limpian y preparan (o "transforman") y, a continuación, se "cargan" en un almacén.

Las herramientas ETL convierten los datos a un formato consistente para que puedan analizarse y consultarse de manera eficiente cuando están dentro del almacén. Por ejemplo, se pueden extraer datos de múltiples bases de datos de clientes y luego transformarlos en un formato común para que todos los registros de clientes tengan los mismos campos.

Una herramienta de marco de proceso de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

Dado que un almacén de datos almacena principalmente datos estructurados, los datos suelen transformarse antes de moverse al almacén. Aunque algunos almacenes pueden utilizar en su lugar un proceso de extracción, carga y transformación (ELT), que carga los datos en el almacén antes de transformarlos, este proceso se utiliza más comúnmente para los data lakes, que no requieren formatos de datos estandarizados. (Consulte "data lake vs. almacén de datos" para obtener más información).

Metadatos

Los metadatos son datos sobre datos. Básicamente, describe los datos que se almacenan en un sistema para que se puedan buscar. Los metadatos incluyen características como autores, fechas o ubicaciones de artículos, fechas de creación y tamaños de archivo. Los metadatos y su sistema de gestión ayudan a organizar los datos y hacerlos utilizables para el análisis.

Entorno aislado

Algunos almacenes de datos ofrecen un entorno aislado de los datos en tiempo real. Podría utilizarse como entorno de pruebas, que contiene una copia de los datos de producción y herramientas de análisis y visualización pertinentes. Los analistas de datos y los científicos de datos pueden experimentar con nuevas técnicas analíticas en el entorno aislado sin afectar a las operaciones del almacén de datos para otros usuarios.

Capa de API

Una capa de conectividad para interfaz de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de fuentes organizativas y proporcionar acceso a herramientas de visualización y análisis.

Almacenes de datos frente a otros tipos de almacenamiento de datos

Almacenes de datos frente a otros tipos de almacenamiento de datos

Los términos almacén de datos, base de datos, data lake, almacén de datos (data mart) y lakehouse de datos a veces se utilizan indistintamente. Aunque estos sistemas son similares, existen diferencias importantes.

Base de datos vs. Almacén de datos

Una base de datos es como un archivador creado principalmente para consultas rápidas y procesamiento de transacciones, pero no para el análisis. Normalmente, una base de datos sirve como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número de aplicaciones de una organización.

Una base de datos se centra en capturar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos históricos, pero a veces datos actuales, para análisis predictivos, machine learning y otros análisis avanzados.

Data lake vs. Almacén de datos

Un data lake es una solución de almacenamiento para cantidades masivas de datos sin procesar sin un esquema predefinido. Los data lakes suelen contener datos no estructurados y datos semiestructurados, como documentos, vídeos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales. Suelen construirse sobre plataformas de big data como Apache Hadoop.

Los data lakes están diseñados principalmente para ofrecer almacenamiento de bajo coste para grandes cantidades de datos. Para mantener bajos los costes de almacenamiento, no suelen transformar los datos ni optimizarlos para el análisis, como hace un almacén.

Almacén de datos (data mart) vs. Almacén de datos

Un data mart es un tipo de almacén de datos que contiene datos específicos de una línea de negocio o departamento en particular, no de toda la empresa.

Dado que los data marts contienen un subconjunto de datos más pequeño, permiten a un departamento o línea de negocio descubrir información más específica y rápidamente que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.

Por ejemplo, un equipo de marketing podría utilizar un data mart para definir los datos demográficos objetivo ideales, mientras que un equipo de producto podría utilizar uno para analizar los patrones de inventario.

Lakehouse de datos vs. almacén de datos

Un lakehouse de datos es una plataforma de datos que fusiona aspectos de los almacenes de datos y los data lakes (es decir, la flexibilidad de un lake y el alto rendimiento de un almacén) en una única solución de gestión de datos. Los lakehouses de datos también pueden añadir características como metadatos compartidos, motores de lenguaje de consulta estructurado (SQL) distribuido y controles de gobierno y seguridad integrados.

La llegada de las tecnologías de código abierto y el deseo de reducir la duplicación de datos y las complejas canalizaciones ETL han conducido al desarrollo de los lakehouses de datos. Al combinar las características clave de los lagos y los almacenes en una solución de datos, los lakehouses pueden ayudar a acelerar el proceso de datos y respaldar el machine learning, la ciencia de datos y las cargas de trabajo de IA.

Tipos de almacenes de datos

Tipos de almacenes de datos

Almacén de datos en la nube

Un almacén de datos basado en la nube está diseñado para ejecutarse en la nube. A menudo se ofrece a las organizaciones como un servicio gestionado de almacenamiento de datos en el que la infraestructura del almacén de datos es gestionada por la empresa de la nube. La organización no necesita realizar una inversión inicial en hardware o software, ni gestionar su propio sistema. Los servicios en la nube también suelen ofrecer precios flexibles.

Los almacenes de datos basados en la nube se han hecho más populares a medida que más organizaciones utilizan los servicios de cloud computing y tratan de reducir su huella en los centros de datos locales.

Almacén de datos local o con licencia

Una empresa puede comprar una licencia de almacén de datos y luego implementar el almacén como su propia infraestructura local. Aunque suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una buena opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictas normas de seguridad o protección de datos.

Dispositivo de almacenamiento de datos 

Un dispositivo de almacén de datos es un paquete preintegrado de hardware y software, que suele incluir unidades centrales de procesamiento (CPU), almacenamiento, sistema operativo y software de almacén de datos, que una empresa puede conectar a su red y empezar a utilizar tal cual.

En términos de coste inicial, velocidad de implementación, facilidad de escalabilidad y control de gestión de datos, un dispositivo de almacén de datos suele situarse entre las implementaciones en la nube y en entornos locales.

Casos de uso de almacenes de datos

Casos de uso de almacenes de datos

Un almacén de datos puede poner información y conocimientos a disposición de los equipos de una organización mediante un autoservicio rápido, lo que permite múltiples casos de uso.

  • La IA y el aprendizaje automático
  • Inteligencia empresarial
  • Integración de datos
  • Usos específicos del sector

La IA y el aprendizaje automático

Los almacenes de datos pueden admitir diversas aplicaciones de IA y machine learning. Los científicos de datos pueden analizar datos históricos para desarrollar algoritmos predictivos. Pueden enseñar a las aplicaciones de machine learning a detectar patrones, como la actividad sospechosa de la cuenta que podría indicar un fraude. Pueden utilizar datos de almacén limpios y validados para crear modelos de IA patentados o afinar los modelos existentes para satisfacer mejor sus necesidades empresariales únicas.

Inteligencia empresarial

Un almacén de datos de nivel empresarial puede permitir que miles de usuarios accedan y ejecuten herramientas de análisis simultáneamente. Dado que los datos se almacenan por separado de las bases de datos operativas y en un formato más eficiente, los usuarios pueden ejecutar sus propias consultas de inteligencia empresarial de autoservicio sin ralentizar otros sistemas clave.

Integración de datos

Los almacenes de datos pueden ayudar a consolidar los datos aislados a través de canalizaciones ETL que automatizan la limpieza y la integración. Esto ayuda a acelerar las consultas y el procesamiento y permite que más usuarios accedan a los datos.

Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la empresa.

Usos específicos del sector

Los almacenes de datos también pueden servir para usos específicos del sector, como:

  • Gobierno: las capacidades analíticas de un almacén de datos pueden ayudar a los gobiernos a comprender mejor fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

  • Sanidad: la capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados de pruebas, puede ayudar a los hospitales a obtener información sobre los resultados de los pacientes, la eficiencia operativa y mucho más.

  • Hostelería y transporte: las organizaciones pueden utilizar datos históricos sobre opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.

  • Fabricación: las grandes empresas manufactureras generan enormes volúmenes de datos. Las organizaciones pueden utilizar los almacenes de datos para crear almacenes de datos (data marts) adaptados a las necesidades de cada departamento, lo que facilita a los usuarios el acceso a los datos relevantes para sus funciones.
Ventajas de un almacén de datos

Ventajas de un almacén de datos

Un almacén de datos combina flujos de datos de almacenes dispar, lo que facilita a las organizaciones el análisis de estos datos. Como resultado, las organizaciones pueden descubrir conocimientos valiosos, aumentar el rendimiento, mejorar las operaciones y, en última instancia, obtener una ventaja competitiva.

En concreto, los beneficios de un almacén de datos pueden incluir:

  • Mejor calidad de los datos
  • Conocimientos más profundos
  • Mejores decisiones de negocio

Mejor calidad de los datos

Un almacén de datos puede centralizar los datos de varias fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego limpia estos datos operativos, elimina los duplicados y los estandariza para crear una única fuente fiable que dé a la organización una visión completa y fiable delos datos empresariales.

Conocimientos más profundos

Cuando los datos están bloqueados en fuentes dispar, puede limitar la capacidad de los tomadores de decisiones de obtener conocimiento y establecer estrategias comerciales con confianza. Un almacén de datos con un repositorio central permite a los usuarios empresariales extraer todos los datos pertinentes de una organización para la toma de decisiones empresariales.

Al ejecutar informes sobre datos históricos, un almacén de datos puede ayudar a determinar qué sistemas y procesos están funcionando y qué necesita mejoras.

Mejores decisiones de negocio

Los almacenes de datos permiten descubrir e informar sobre temas, tendencias y agregaciones. Los profesionales de los datos y los líderes empresariales pueden utilizar estos conocimientos para tomar decisiones mejor informadas basándose en pruebas contundentes en prácticamente todas las áreas de la organización, desde los procesos empresariales hasta la gestión financiera y la gestión del inventario.

Desafíos de la arquitectura de los almacenes de datos

Desafíos de la arquitectura de los almacenes de datos

Al implementar soluciones de almacenamiento de datos, es posible que las organizaciones tengan que enfrentarse a ciertos desafíos para lograr un alto rendimiento. Entre los que se incluyen:

  • Grandes volúmenes de datos
  • Calidad y gestión de datos
  • Infraestructuras complejas en la nube
  • Soporte para The AI Ladder
  • Falta de flexibilidad de almacenamiento

Grandes volúmenes de datos

Ahora que los almacenes de datos de tamaño terabyte y petabyte son habituales, las operaciones de alto rendimiento requieren una carga excelente, un almacenamiento eficiente y potentes motores de bases de datos que satisfagan las demandas de hipereficiencia.

Calidad y gestión de datos

Se puede pedir a un almacén de datos que gestione enormes volúmenes de datos estructurados y no estructurados procedentes de muchas fuentes. Todos estos datos deben limpiarse y validarse antes de poder utilizarlos. Unas políticas y prácticas sólidas de gobierno de datos pueden ayudar a garantizar una única fuente fiable para todos los usuarios.

Infraestructuras complejas en la nube

Con los datos empresariales almacenados en entornos dispares, ya sea por normativa o por necesidad empresarial, los almacenes de datos actuales suelen requerir un almacenamiento híbrido y multinube, con el flujo de datos, la ingesta y el análisis moviéndose a través de diferentes sistemas. Las organizaciones pueden necesitar miembros del equipo de TI altamente experimentados para ayudar a implementar y mantener estos sistemas complejos.

 

Soporte para The AI Ladder

A medida que la IA y el machine learning se convierten en componentes críticos de la estrategia empresarial, las organizaciones necesitan almacenes de datos que puedan soportar estas cargas de trabajo.

Idealmente, un almacén de datos debería ser capaz de recopilar, limpiar, organizar y analizar los datos para que estén preparados para la IA, así como facilitar el flujo de datos a las aplicaciones de IA y machine learning. Sin embargo, no todos los almacenes de datos están diseñados para la IA, lo que puede dificultar el uso de datos organizativos para cargas de trabajo de IA.

Falta de flexibilidad de almacenamiento

Los almacenes de datos están configurados y optimizados para el análisis, lo que significa que no suelen ser ideales para almacenar cantidades masivas de datos. A medida que crece la cantidad de datos en un almacén, el coste y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia.

Un lakehouse de datos puede ser una opción para algunas organizaciones, en función de sus arquitecturas de datos únicas, ya que puede proporcionar capacidades de análisis y almacenamiento más baratas y flexibles.

Soluciones relacionadas

Soluciones relacionadas

Soluciones de almacenamiento de datos

Las soluciones de almacenamiento de datos de IBM ofrecen rendimiento y flexibilidad para dar soporte a datos estructurados y no estructurados para cargas de trabajo analíticas, incluido el machine learning.

Explore las soluciones de almacenamiento de datos
IBM Db2 Warehouse

Almacenamiento de datos basado en la nube diseñado para potenciar sus análisis operativos, la BI y los conocimientos impulsados por la IA.

Descubra Db2 Warehouse
IBM watsonx.data

Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos abierto e híbrido para inteligencia artificial y análisis.

Explore watsonx.data
Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Solicite una demostración en directo