Mi IBM Iniciar sesión Suscríbase
¿Qué es un almacén de datos?

¿Qué es un almacén de datos?

Explore la solución de almacén de datos de IBM Suscribirse al boletín de Think
Ilustración con collage de pictogramas de nubes, gráfico circular y gráficos

Actualizado: 11 de octubre de 2024 
Colaboradores
: Jim Holdsworth, Matthew Kosinski

¿Qué es un almacén de datos?

¿Qué es un almacén de datos?

Un almacén de datos es un sistema que agrega datos de múltiples fuentes en un solo almacén de datos central y congruente. Los almacenes de datos ayudan a preparar los datos para las iniciativas de analytics de datos, business intelligence (BI), minería de datos, machine learning (ML) e IA.

 

Un sistema de almacén de datos de nivel empresarial permite a una organización ejecutar analytics poderosos en grandes cantidades de datos (petabytes y más) de formas que una base de datos estándar no puede. Los datos pueden ser estructurados, semiestructurados o no estructurados. Los datos pueden ingresar a un almacén desde múltiples bases de datos, incluidos sistemas de gestión de relaciones con el cliente (CRM), inventario, puntos de venta (POS) y gestión de la cadena de suministro .

Los sistemas de almacenamiento de datos, a veces denominados sistemas de almacén de datos empresariales (EDW), llevan más de tres décadas apoyando los esfuerzos de inteligencia empresarial. Sus funciones se centran en extraer datos de otras fuentes, depurar y preparar los datos y cargarlos y mantenerlos, a menudo en una base de datos relacional.

Tradicionalmente, un almacén de datos se alojaba on premises, a menudo en una computadora mainframe. Hoy en día, muchos almacenes de datos están alojados en la nube y se entregan como servicio en la nube. 

Evolución del almacén de datos

Evolución del almacén de datos

Los almacenes de datos nacieron en la década de 1980 para optimizar analytics al hacer que los datos transaccionales integrados estén disponibles en un formato coherente. A medida que el poder de las aplicaciones comerciales creció y surgieron nuevas fuentes de datos (incluida la World Wide Web, las redes sociales y la Internet de las cosas (IoT)) creció la necesidad de almacenamiento más rápido.

A medida que el almacén de datos evolucionó para admitir mayores volúmenes y datos más granulares, más equipos dentro de las organizaciones solicitaron acceso directo a los datos para funciones de analytics de autoservicio.  

Muchas organizaciones se dieron cuenta de que sus almacenes de datos existentes no podían gestionar estas nuevas y enormes cargas de trabajo. Y debido a que muchos almacenes de datos almacenan solo datos estructurados, la riqueza del análisis podría ser limitada. En respuesta, evolucionaron alternativas más flexibles, incluidos almacenes de datos nativos de la nube y data lakehouses. (Consulte “Data lakehouse vs. data warehouse” para obtener más información).

Arquitectura de un almacén de datos

Arquitectura de un almacén de datos

Para procesar datos de manera rápida y eficiente, los data warehouses suelen utilizar una arquitectura de tres niveles.

Nivel inferior


Este nivel es donde los datos fluyen desde fuentes de datos dispares a un servidor de almacén de datos, donde se almacenan. Los datos se mueven con mayor frecuencia a través de un proceso conocido como extraer, transformar, cargar (ETL) o, a veces, un proceso conocido como extraer, cargar, transformar (ELT). Estos procesos se ejecutan de formas distintas, pero ambos usan la automatización para mover los datos a un almacén y prepararlos para su uso en analytics.

Nivel medio


Este nivel se desarrolla tradicionalmente en torno a un analytics engine, la mayoría de las veces un sistema de procesamiento analítico en línea (OLAP) diseñado para ofrecer analytics y velocidades de consulta rápidas. En este nivel se pueden utilizar tres tipos de modelos OLAP:

  • Procesamiento analítico en línea relacional (ROLAP), que permite el análisis multidimensional de datos de bases de datos relacionales.

  • Procesamiento analítico en línea multidimensional (MOLAP), que utiliza motores de almacenamiento de información multidimensional basados en arreglos de discos para crear vistas multidimensionales de los datos.

  • Procesamiento analítico híbrido en línea (HOLAP), que fusiona las capacidades de ROLAP y MOLAP.

El tipo de modelo OLAP utilizado depende del tipo de sistema de base de datos que se utilice.

Nivel superior


Este nivel incluye una interfaz de usuario de front-end o una herramienta de elaboración de informes, que permite a los usuarios realizar análisis de datos ad hoc en sus datos comerciales. La business intelligence de autoservicio tiene múltiples usos, como la generación de informes basados en datos históricos, la identificación de nuevas oportunidades o la identificación de cuellos de botella en los procesos.

Comprender OLAP y OLTP

Comprender OLAP y OLTP

La mayoría de los almacenes de datos utilizan sistemas OLAP para admitir analytics. El software OLAP realiza análisis multidimensionales a gran velocidad sobre grandes volúmenes de datos procedentes de un almacén unificado y centralizado, como un almacén de datos.

Una parte de los datos del negocio a menudo tiene múltiples dimensiones. Por ejemplo, las cifras de ventas pueden incluir varias dimensiones relacionadas con la ubicación (región, país y tienda), tiempo (año, mes, semana y día) o producto (marca, tipo).

En una base de datos relacional tradicional, los datos se organizan en tablas de filas y columnas que solo pueden representar dos de estas dimensiones a la vez: una dimensión en la fila y una dimensión en la columna. Esto puede hacer que el análisis sea engorroso.

Sin embargo, los sistemas OLAP permiten a los usuarios analizar datos en múltiples dimensiones a la vez, lo que permite un procesamiento más rápido y un análisis más profundo. Los usos comunes de OLAP incluyen minería de datos y aplicaciones de business intelligence, cálculos analíticos complejos, escenarios predictivos, elaboración de presupuestos y pronósticos.

OLAP es distinto del procesamiento transaccional en línea u OLTP. Los sistemas OLTP rastrean un gran número de transacciones, por un gran número de usuarios, en tiempo real. La diferencia clave entre OLTP y OLAP es que los sistemas OLTP están diseñados principalmente para capturar datos, mientras que los sistemas OLAP analizan datos que ya han sido capturados.

Los sistemas OLTP suelen utilizar bases de datos relacionales para registrar transacciones como:

  • Transacciones bancarias y de cajeros automáticos
  • Comercio electrónico y compras en tienda física
  • Reservas de hoteles y aerolíneas

Si bien los almacenes de datos generalmente no involucran sistemas OLTP, los datos registrados en las bases de datos por los sistemas OLTP generalmente se alimentan al almacén, donde un sistema OLAP permite el análisis.

OLAP vs. OLTP: ¿Cuál es la diferencia?
Esquemas en almacenes de datos

Esquemas en almacenes de datos

Los esquemas de base de datos definen cómo se organizan los datos dentro de una base de datos o un almacén de datos. Hay dos tipos principales de estructuras de esquema empleadas en los almacenes de datos: el esquema en estrella y el esquema en copo de nieve.

El esquema de estrella y copo de nieve son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos. Los modelos dimensionales aumentan la redundancia para facilitar la localización de la información para la generación de informes y la recuperación. Este modelado se utiliza normalmente en todos los sistemas OLAP.

Esquema de estrella

 

Este esquema consiste en una tabla de hechos (que contiene ítems medibles como productos vendidos y montos de ventas monetarias) unido a tablas de dimensiones (es decir, información de referencia que muestra cómo se pueden agrupar y organizar los hechos, como las fechas de venta y la industria vendida a).

En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. La esquema en estrella se considera el tipo de esquema más simple y frecuente y el beneficio para los usuarios es la mayor velocidad al realizar consultas.

Esquema de copo de nieve

 

Aunque no se ha adoptado tan ampliamente, el esquema de copo de nieve es otra estructura organizativa utilizada en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas que contienen datos descriptivos sobre los hechos en la tabla de hechos central. Estas tablas de dimensiones también tienen tablas secundarias.

Este patrón más complejo y ramificado puede semejarse a un copo de nieve. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero esto conlleva el costo de ralentizar el rendimiento de las consultas. 

Componentes de la arquitectura del almacén de datos

Componentes de la arquitectura del almacén de datos

La mayoría de los almacenes de datos se construyen en torno a un sistema de base de datos relacional, ya sea localmente o en la nube, donde se almacenan y procesan los datos. Un almacén de datos típico tiene componentes como:

  • Capa de datos (o base de datos central)
  • Herramientas de acceso
  • Herramientas de extracción, transformación y carga (ETL)
  • Metadatos
  • Recinto de pruebas
  • Capa de API

Capa de datos (o base de datos central)

La capa de datos o base de datos central, es el corazón del almacén de datos y se apoya en todos los demás componentes. Los datos pueden ser entrada desde aplicaciones empresariales, listas de correo electrónico, sitios web o cualquier otra base de datos relacional. Los datos se almacenan físicamente en un servidor o conjunto de servidores.

La capa de datos puede dividir segmentos de datos para que los usuarios solo puedan acceder a los datos que necesitan. Por ejemplo, el equipo de ventas normalmente no tendría acceso a los datos del equipo de RR. HH. y viceversa.

Por lo general, los almacenes de datos tienen buenas capacidades de seguridad y gobernanza de datos integradas, por lo que las organizaciones no necesitan realizar mucho trabajo de ingeniería de datos personalizado para incluir estas características. Es posible que las organizaciones necesiten actualizar los principios de gobernanza de datos y las medidas de seguridad con el paso del tiempo, a medida que se agregan al almacén nuevos datos procedentes de distintas fuentes.

Herramientas de acceso

Las herramientas de acceso se conectan a un almacén de datos para proporcionar un front end fácil de usar. Esto puede incluir paneles, informes y herramientas de visualización de datos que permiten a los analistas de datos y a los usuarios empresariales interactuar con los datos y extraer insights. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.

Herramientas de extracción, transformación y carga (ETL)

Las herramientas ETL ayudan a mover datos de una fuente de datos al almacén de datos. Los datos primero se "extraen" de su fuente, se mueven a un área de preparación donde se limpian y preparan (o "transforman") y luego se "cargan" en un almacén.

Las herramientas ETL convierten los datos en un formato coherente para que puedan analizarse y consultarse de manera eficiente cuando están dentro del almacén. Por ejemplo, los datos pueden extraerse de varias bases de datos de clientes y luego transformarse en un formato común para que todos los registros de clientes tengan los mismos campos.

Una herramienta de marco de procesamiento de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

Dado que un almacén de datos almacena principalmente datos estructurados, los datos por lo general se transforman antes de mover al almacén. Aunque algunos almacenes pueden usar en su lugar un proceso de extracción, carga y transformación (ELT) que carga los datos en el almacén antes de transformarlos, este proceso se usa más comúnmente para los data lakes, que no requieren formatos de datos estandarizados. (Para más información, ver "Data lake vs. data warehouse").

Metadatos

Los metadatos son datos acerca de los datos. Básicamente, describe los datos almacenados en un sistema para que puedan ser buscados. Los metadatos incluyen características como autores, fechas o ubicaciones de artículos, fechas de creación y tamaños de archivo. Los metadatos y su sistema de gestión ayudan a organizar los datos y hacerlos utilizables para analytics.

Recinto de pruebas

Algunos almacenes de datos proporcionan un sandbox que está amurallado de los datos en vivo. Podría utilizarse como entorno de pruebas, que contiene una copia de los datos de producción y herramientas de análisis y visualización pertinentes. Los analistas y científicos de datos pueden experimentar con nuevas técnicas analíticas en el sandbox sin afectar a las operaciones del almacén de datos para otros usuarios.

Capa de API

Una capa de conectividad para interfaces de programación de aplicaciones (API) puede ayudar al almacén a extraer datos de fuentes organizacionales y proporcionar acceso a herramientas de visualización y analytics.

Almacenes de datos vs. otros tipos de almacenamiento de datos

Almacenes de datos vs. otros tipos de almacenamiento de datos

Los términos almacén de datos, base de datos, data lake, mercado de datos y lakehouse de datos a veces se utilizan indistintamente. Si bien estos sistemas son similares, existen diferencias importantes.

Base de datos vs. almacén de datos

Una base de datos es como un archivador creado principalmente para consultas rápidas y procesamiento de transacciones, pero no para analytics. Una base de datos suele servir como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número de aplicaciones de una organización.

Una base de datos se centra en capturar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos históricos, pero a veces datos actuales, para análisis predictivos, machine learning y otros análisis avanzados.

Data lake vs. almacén de datos

Un data lake es una solución de almacenamiento para cantidades masivas de datos sin procesar sin un esquema predefinido. Los data lakes suelen contener datos no estructurados y semiestructurados, como documentos, videos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales. Suelen crearse en plataformas de big data, como Apache Hadoop.

Los data lakes están diseñados principalmente para ofrecer almacenamiento de información de bajo costo para grandes cantidades de datos. Para mantener bajos los costos de almacenamiento, no suelen transformar los datos ni optimizarlos para analytics, como lo hace un almacén.

Mercado de datos vs. almacén de datos

Un mercado de datos es un tipo de almacén de daros que contiene datos específicos de una línea de negocio o departamento en particular en lugar de una empresa completa.

Dado que los mercados de datos contienen un subconjunto de datos más reducido, permiten a un departamento o línea de negocio descubrir insights más específicos con mayor rapidez que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.

Por ejemplo, un equipo de marketing podría usar un mercado de datos para definir los datos demográficos objetivo ideales, mientras que un equipo de producto podría usar uno para analizar los patrones de inventario.

Data lakehouse vs. almacén de datos

Un lakehouse de datos es una plataforma de datos que fusiona aspectos de almacenes de datos y lakehouse de datos, es decir, la flexibilidad de un lake y el alto rendimiento de un almacén, en una única solución de gestión de datos. Los lakehouses de datos también pueden agregar características como metadatos compartidos, motores de lenguaje de consulta estructurado distribuido (SQL) y controles de seguridad y gobernanza integrados.

La llegada de las tecnologías de código abierto y el deseo de reducir la duplicación de datos y los complejos pipelines ETL ha llevado al desarrollo del lakehouse de datos. Al combinar las características clave de los lagos y los almacenes en una sola solución de datos, los lakehouses pueden ayudar a acelerar el procesamiento de datos y respaldar el machine learning, la ciencia de datos y las cargas de trabajo de IA.

Tipos de almacenes de datos

Tipos de almacenes de datos

Almacén de datos en la nube

Un almacén de datos basado en la nube está diseñado para ejecutarse en esta. A menudo se ofrece a las organizaciones como un servicio de almacenamiento de datos administrado en el que la infraestructura de almacén de datos es administrada por la empresa en la nube. La organización no necesita realizar una inversión inicial en hardware o software, ni necesita administrar su propio sistema. Los servicios en la nube a menudo también ofrecen precios flexibles.

Los almacenes de datos basados en la nube se han vuelto más populares a medida que más organizaciones utilizan servicios de computación en la nube y buscan reducir las footprints de sus centros de datos on-premises.

Almacén de datos on-premises o bajo licencia

Una empresa puede adquirir una licencia de almacén de datos y luego desplegar el almacén como su propia infraestructura on-premises. Aunque esto suele ser más costoso que un servicio de almacenamiento de datos en la nube, podría ser una buena opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictos estándares de privacidad de datos.

Dispositivo de almacenamiento de datos 

Un dispositivo de almacenamiento de datos es un paquete preintegrado de hardware y software que por lo general incluye unidades centrales de procesamiento (CPU), almacenamiento, sistema operativo y software de almacén de datos, que la empresa puede conectar a su red y empezar a emplear tal cual.

En términos de costo inicial, velocidad de despliegue, facilidad de escalabilidad y control de gestión de datos, un dispositivo de almacén de datos generalmente se encuentra entre la nube y las implementaciones on-premises.

Casos de uso para almacenes de datos

Casos de uso para almacenes de datos

Un data warehouse puede hacer que los insights y la información estén disponibles para los equipos de una organización con un autoservicio rápido, lo que permite múltiples casos de uso.

  • IA y aprendizaje automático
  • Inteligencia empresarial
  • Integración de datos
  • Usos específicos de la industria

IA y aprendizaje automático

Los almacenes de datos pueden admitir diversas aplicaciones de IA y machine learning. Los científicos de datos pueden analizar datos históricos para desarrollar algoritmos predictivos. Pueden enseñar a las aplicaciones de machine learning a detectar patrones, como la actividad sospechosa de la cuenta que podría indicar fraude. Pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o ajustar los modelos existentes para satisfacer mejor sus necesidades comerciales únicas.

Inteligencia empresarial

Un almacén de datos de nivel empresarial puede permitir que miles de usuarios accedan y ejecuten herramientas de analytics simultáneamente. Debido a que los datos se almacenar por separado de las bases de datos operativas y en un formato más eficiente, los usuarios pueden ejecutar sus propias consultas de business intelligence de autoservicio sin ralentizar otros sistemas clave.

Integración de datos

Los almacenes de datos pueden ayudar a consolidar los datos en silos a través de pipelines de ETL que automatizan la limpieza y la integración. Esto ayuda a acelerar las consultas y el procesamiento, y permite que más usuarios accedan a los datos.

Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la compañía.

Usos específicos de la industria

Los almacenes de datos también pueden servir para usos específicos de la industria, como:

  • Gobierno: las capacidades analíticas de un almacén de datos pueden ayudar a los gobiernos a comprender mejor los fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

  • Atención médica: la capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados, puede ayudar a los hospitales a obtener insights sobre los resultados de los pacientes, la eficiencia operativa y más.

  • Hotelería y transporte: Las organizaciones pueden usar datos históricos sobre opciones de viajes y alojamiento para orientar con mayor precisión la publicidad y las promociones a sus clientes.

  • Fabricación: las grandes compañías manufactureras generan enormes volúmenes de datos. Las organizaciones pueden usar los almacenes de datos para crear mercados de datos adaptados a las necesidades de cada departamento, lo que facilita a los usuarios el acceso a los datos que son relevantes para sus funciones.
Beneficios de un almacén de datos

Beneficios de un almacén de datos

Un almacén de datos combina flujos de datos de almacenes de datos dispares, lo que facilita a las organizaciones el análisis de estos datos. Como resultado, las organizaciones pueden descubrir insights valiosos, aumentar el rendimiento, mejorar las operaciones y, en última instancia, obtener un beneficio competitivo.

Más específicamente, los beneficios de un almacén de datos pueden incluir:

  • Mejor calidad de los datos
  • Insights más profundos
  • Mejores decisiones de negocio

Mejor calidad de los datos

Un almacén de datos puede centralizar datos de varias fuentes de datos, como sistemas transaccionales, bases de datos operativas y archivos planos. Luego limpia estos datos operativos, elimina los duplicados y los estandariza para crear una única fuente de información que brinda a una organización una visión integral y confiable de los datos empresariales.

Insights más profundos

Cuando los datos están bloqueados en fuentes dispares, pueden limitar la capacidad de los responsables de la toma de decisiones para obtener insights y establecer estrategias empresariales con confianza. Un almacén de datos con un repositorio central permite a los usuarios empresariales extraer todos los datos pertinentes de una organización para la toma de decisiones comerciales.

Al ejecutar informes sobre datos históricos, un almacén de datos puede ayudar a determinar qué sistemas y procesos están funcionando y qué necesita mejoras.

Mejores decisiones de negocio

Los almacenes de datos permiten descubrir e informar sobre temas, tendencias y agregaciones. Los profesionales de datos y los líderes empresariales pueden emplear estos insights para tomar decisiones mejor informadas basadas en evidencia estable en prácticamente todas las áreas de la organización, desde los procesos comerciales hasta la gestión financiera y la gestión de inventario.

Desafíos con la arquitectura del almacén de datos

Desafíos con la arquitectura del almacén de datos

Al implementar soluciones de almacén de datos, es posible que las organizaciones deban enfrentar ciertos desafíos para lograr un alto rendimiento. Esto puede incluir:

  • Grandes volúmenes de datos
  • Calidad y gestión de datos
  • Infraestructuras complejas en la nube
  • Soporte para The AI Ladder
  • Falta de flexibilidad de almacenamiento

Grandes volúmenes de datos

Debido a que los almacenes de datos de tamaño terabyte y petabytes que ahora son comunes, las operaciones requieren una carga excelente, eficiente almacenamiento y potentes motores de bases de datos que satisfagan las demandas de hipereficiencia.

Calidad y gestión de datos

A un almacén de datos se le puede pedir que gestione enormes volúmenes de datos estructurados y no estructurados procedentes de muchas fuentes. Todos estos datos deben limpiarse y validarse antes de que puedan utilizarse. Las políticas y prácticas sólidas de gobernanza de datos pueden ayudar a garantizar una única fuente de información precisa para todos los usuarios.

Infraestructuras complejas en la nube

Con el almacén de datos empresariales en entornos dispares, ya sea por regulación o por necesidad comercial, los almacenes de datos de hoy en día a menudo requieren almacenamiento híbrido y multinube, con flujo de datos, ingesta y análisis que se mueven a través de diferentes sistemas. Las organizaciones pueden necesitar miembros del equipo de TI con gran experiencia para ayudar a implantar y mantener estos complejos sistemas.

 

Soporte para The AI Ladder

A medida que la IA y machine learning se convierten en componentes críticos de la estrategia empresarial, las organizaciones necesitan almacenes de datos que puedan admitir estas cargas de trabajo.

Idealmente, un almacén de datos debería poder recopilar, limpiar, organizar y analizar datos para que estén preparados para la IA, así como facilitar el flujo de datos a las aplicaciones de IA y machine learning. Sin embargo, no todos los almacenes de datos están diseñados para IA, lo que puede dificultar el uso de datos organizacionales para cargas de trabajo de IA.

Falta de flexibilidad de almacenamiento

Los almacenes de datos están configurados y optimizados para analytics de datos, lo que significa que normalmente no son ideales para almacenar cantidades masivas de datos. A medida que crece la cantidad de datos en un almacén, el costo y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia.

Un lakehouse de datos puede ser una opción para algunas organizaciones, dependiendo de sus arquitecturas de datos únicas, porque puede proporcionar capacidades de almacenamiento y analytics más baratos y flexibles.

Soluciones relacionadas

Soluciones relacionadas

Soluciones de almacenamiento de datos

Las soluciones de almacenamiento de datos de IBM ofrecen rendimiento y flexibilidad para admitir datos estructurados y no estructurados para cargas de trabajo de análisis, incluido el aprendizaje automático.

Explore las soluciones de almacenamiento de datos
IBM Db2 Warehouse

Almacenamiento de datos en la nube creado para potenciar sus analytics operativos, BI e insights impulsados por IA.

Conozca Db2 Warehouse
IBM watsonx.data™

Ponga sus datos a trabajar, dondequiera que residan, con el data lakehouse abierto e híbrido para Analytics e IA.

Explore watsonx.data
Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Reserve una demostración en vivo