Potenciar la empresa agéntica Vea la presentación de Think

¿Qué es un almacén de datos?

¿Qué es un almacén de datos?

Un almacén de datos agrega datos de diversas fuentes en un almacén de datos central optimizado para consultas y análisis. Generalmente, utiliza procesos de extracción, transformación y carga (ETL) o extracción, carga y transformación (ELT) para limpiar, preparar y organizar datos para business intelligence (BI) y otros casos de uso de analytics de datos.
 

Los sistemas de almacenamiento de datos pueden integrar grandes cantidades de datos de una amplia gama de sistemas de origen, incluidas bases de datos operativas, sistemas transaccionales y plataformas de gestión de relaciones con los clientes (CRM). Las herramientas de analytics de autoservicio permiten a los usuarios empresariales explorar y analizar estos datos para obtener insights valiosos.

El concepto de almacén de datos surgió en la década de 1980 para integrar datos dispares en un formato coherente para el análisis. A medida que el número de nuevas fuentes de datos aumentó, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT), la demanda de mayor capacidad de almacenamiento y análisis más rápidos creció.

Los depósitos de datos están configurados y optimizados para análisis en tiempo real, lo que significa que normalmente no son ideales para almacenar cantidades masivas de big data sin estructurar. A medida que crece la cantidad de datos en un depósito, el costo y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia y rendimiento.

En respuesta, evolucionaron alternativas más flexibles, incluidos depósitos de datos nativos de la nube y lakehouses de datos. Para obtener más información, consulte “Depósito de datos frente a lakehouse de datos” para obtener más información.

¿Cómo funciona el depósito de datos?

Los depósitos de datos a menudo utilizan una arquitectura de tres niveles diseñada para transformar datos para analytics:

  • Nivel inferior
  • Nivel medio
  • Nivel superior

Nivel inferior

Los datos fluyen desde múltiples sistemas de origen a un servidor de depósito de datos, donde se almacenan. Tradicionalmente, los datos se mueven a través de un proceso de integración de datos de extracción, transformación y carga (ETL), que utiliza la automatización para limpiar y organizar los datos antes de cargarlos en el depósito.

Debido a que los depósitos de datos almacenan principalmente datos estructurados, la transformación de datos se produce antes de la carga de datos. Algunos depósitos modernos utilizan procesos de extracción, carga y transformación (ELT), que cargan datos en el depósito antes de transformarlos. Este método se usa comúnmente en lagos de datos, que pueden almacenar datos no estructurados y semiestructurados sin requerir formatos estandarizados.

Nivel medio

Este nivel contiene el motor de analytics, a menudo impulsado por un sistema de procesamiento analítico en línea (OLAP). Mientras que las bases de datos relacionales tradicionales (incluidos muchos depósitos de datos) pueden almacenar datos multidimensionales (las cifras de ventas pueden tener varias dimensiones, como ubicación, tiempo y producto), no están optimizadas para consultas multidimensionales.

Los sistemas OLAP están diseñados para consultas complejas de alta velocidad y análisis multidimensionales de grandes volúmenes de datos. Utilizan “cubos” (estructuras de datos multidimensionales basadas en matrices) para permitir un análisis más rápido y flexible en múltiples dimensiones. Los casos de uso comunes incluyen minería de datos, análisis financiero, elaboración de presupuestos y planificación de pronósticos.

Diagrama que muestra la estructura de un cubo OLAP Un cubo OLAP con dimensiones para productos, regiones de ventas y trimestres

OLAP frente a OLTPlos sistemas de procesamiento de transacciones en línea (OLTP) capturan y actualizan grandes volúmenes de transacciones en tiempo real de muchos usuarios. Por el contrario, los sistemas OLAP analizan datos que ya se han capturado.

Hay tres tipos de OLAP que uno podría usar en un depósito de datos:

  • Procesamiento analítico multidimensional en línea (MOLAP): trabaja directamente con un cubo OLAP multidimensional y suele ser el tipo de análisis de datos multidimensionales más rápido y práctico.

  • Procesamiento analítico en línea relacional (ROLAP): realiza análisis de datos multidimensionales que opera directamente sobre los datos en tablas relacionales, sin primero reorganizarlos en un cubo.

  • Procesamiento analítico híbrido en línea (HOLAP): funciones para crear la división óptima del trabajo entre bases de datos relacionales y multidimensionales dentro de una única arquitectura OLAP.

Nivel superior

La capa final de un depósito de datos proporciona una interfaz de usuario frontend para informes, paneles y análisis de datos ad hoc de datos empresariales. Estas herramientas de business intelligence de autoservicio permiten a los usuarios generar informes basados en datos históricos, visualizar tendencias e identificar cuellos de botella en el flujo de trabajo sin experiencia técnica en ingeniería de datos.

Modelos de despliegue de depósito de datos: on premises, en la nube e híbridos

Los depósitos de datos evolucionaron significativamente, pasando de sistemas exclusivamente on premises a modelos híbridos y en la nube flexibles.

Depósitos de datos tradicionales

Históricamente, los almacenes de datos se alojaban on premises utilizando hardware básico. Estos sistemas se organizaron en arquitecturas de procesamiento paralelo masivo (MPP) o multiprocesamiento simétrico (SMP). También se entregaron como dispositivos independientes. Estos despliegues requieren una inversión significativa. Sin embargo, pueden ser una buena opción para organizaciones en sectores con estándares estrictos de cumplimiento, seguridad de datos o privacidad de datos.

Depósitos de datos en la nube

Hoy en día, muchos depósitos de datos están diseñados para ejecutarse en la nube. Ofrecen los beneficios de la computación en la nube, como el almacenamiento de datos a escala de petabytes, computación y almacenamiento altamente escalables y precios de pago por uso. Los depósitos de datos basados en la nube suelen entregarse como una oferta de software como servicio (SaaS) totalmente gestionada, lo que elimina la necesidad de una inversión inicial en hardware o software.

Esta prestación de servicios también reduce los recursos necesarios para la gestión de la infraestructura para que las organizaciones puedan centrarse en los analytics y los insights. Los depósitos de datos basados en la nube han ganado popularidad a medida que las organizaciones buscan la agilidad para escalar y reducir las huellas de su centro de datos on premises y los costos de infraestructura heredada.

Enfoques híbridos

Algunas organizaciones pueden adoptar un modelo híbrido, que combina lo mejor de los almacenes de datos on premises y en la nube. Este enfoque les permite usar la escalabilidad y flexibilidad de la nube, al tiempo que conservan el control de las cargas de trabajo que deben permanecer on premises.

¿Cuáles son los tres esquemas de un depósito de datos?

En un depósito de datos, los esquemas definen cómo se organizan los datos. Hay tres estructuras de esquema comunes: el esquema de estrella, el esquema de copo de nieve y el esquema de galaxias (también llamado esquema de constelación de hechos).

Todos estos esquemas son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos en los sistemas OLAP. Los modelos dimensionales pueden aumentar la redundancia, lo que facilita la localización de información para la generación de informes y la recuperación y mejora del rendimiento de las consultas.

Estos esquemas contienen tablas de hechos y tablas de dimensiones, definidas de la siguiente manera:

  • Tablas de hechos: almacene datos cuantitativos, como productos vendidos o cantidades de ingresos

  • Tablas de dimensiones: almacene información contextual y descriptiva para hechos, como fechas de venta y categorías de producto

Esquema en estrella

Los esquemas en estrella consisten en una única tabla de hechos central rodeada de tablas de dimensiones. En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. El esquema en estrella se considera el tipo de esquema más simple y común, ya que ofrece a los usuarios velocidades de consulta más rápidas.

Gráfico que representa un esquema de estrella Ejemplo de un esquema de estrella

Esquema en copo de nieve

Un esquema de copo de nieve coloca una tabla de hechos central en el núcleo, con numerosas tablas de dimensiones normalizadas que irradian hacia afuera y esas dimensiones se extienden más a otras tablas de dimensiones a través de relaciones de muchos a uno. Este patrón más complejo y ramificado puede asemejarse a un copo de nieve. Los esquemas de copos de nieve tienen bajos niveles de redundancia de datos, pero este beneficio viene con el costo de un rendimiento de consulta más lento.

Ejemplo de un esquema de copo de nieve Ejemplo de un esquema de copo de nieve

Esquema de galaxia

Al igual que nuestra galaxia contiene muchas estrellas, un esquema de galaxia contiene muchos esquemas de estrellas. Estos esquemas comparten tablas de dimensiones que están normalizadas para reducir la redundancia. El esquema de galaxia es más adecuado para depósitos de datos muy complejos, pero los usuarios pueden experimentar un rendimiento inferior.

Ejemplo de un esquema de galaxia Ejemplo de un esquema de galaxia

Componentes de la arquitectura de un depósito de datos

Una arquitectura de depósito de datos típica tiene varios componentes que trabajan juntos para almacenar, gestionar, procesar y entregar datos para analytics.

  • Herramientas ETL/ELT
  • Capa de API
  • Capa de datos (base de datos central)
  • Metadatos
  • Sandbox
  • Herramientas de acceso

Herramientas ETL/ELT

Las herramientas ETL extraen datos de los sistemas de origen, los transforman en un área de preparación y los cargan en el depósito de datos. En ELT, los datos se transforman después de cargarse en el depósito. Una herramienta de marco de procesamiento de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

Capa de API

Una capa de conectividad para interfaces de programación de aplicaciones (API) puede ayudar al depósito a extraer datos de los sistemas operativos e integrarlos con ellos. Las API también pueden proporcionar acceso a herramientas de visualización y analytics avanzadas.

Capa de datos (o base de datos central)

La capa de datos (o base de datos central) es el centro del depósito de datos. Aquí, el sistema integra y almacena datos de diversas fuentes, como aplicaciones comerciales, listas de correo electrónico, sitios web u otras bases de datos. Los pipelines de datos ETL o ELT admiten esta capa y un sistema de gestión de bases de datos relacionales (RDBMS) o una plataforma de almacenamiento de depósito de datos en la nube la potencia. Las capacidades integradas de gobernanza de datos y seguridad pueden particionar los datos para que los usuarios accedan a lo que necesitan.

Los metadatos son datos sobre datos, que describen los datos que se almacenan en un sistema para que puedan buscarse y utilizarse para analytics. Incluye metadatos técnicos (como la estructura de la tabla y el tipo de datos) y metadatos descriptivos (como el autor, la fecha de creación o el tamaño del archivo). Los metadatos  son clave para una gobernanza de datos y gestión de datos eficaces.

Sandbox

Algunos depósitos de datos proporcionan un sandbox, que es un entorno de prueba aislado que contiene una copia de los datos de producción y las herramientas de análisis relevantes. Los analistas y científicos de datos pueden probar nuevas técnicas analíticas en el sandbox sin afectar las operaciones de depósito en tiempo real.

Herramientas de acceso

Las herramientas de acceso se conectan a los depósitos de datos y ofrecen una interfaz fácil de usar. Los usuarios empresariales y los analistas de datos pueden utilizar paneles, aplicaciones y herramientas de visualización de datos para interactuar con los datos y extraer insights. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Tipos de almacenes de datos

Existen tres tipos principales de depósitos de datos

  • Depósito de datos empresariales (EDW)
  • Almacén de datos operativos (ODS)
  • mercado de datos

Depósito de datos empresariales (EDW)

Un depósito de datos empresarial (EDW) es un depósito de datos que da servicio a toda la empresa. Actúa como repositorio de información centralizada de datos históricos de todos los equipos y áreas temáticas. Un entorno de depósito de datos empresariales también puede incluir un almacén de datos operativos (ODS) y mercados de datos específicos de cada departamento.

Almacén de datos operativos (ODS)

Un almacén de datos operativos (ODS) contiene la instantánea más reciente de los datos operativos. Un ODS se actualiza con frecuencia, lo que permite un acceso rápido a los datos casi en tiempo real. Las organizaciones suelen utilizar un ODS para la toma de decisiones operativas diarias y el análisis en tiempo real. También puede ser una fuente de datos para un EDW u otros sistemas de datos.

Mercado de datos

Un mercado de datos es un subconjunto de un depósito de datos existente (u otras fuentes de datos) y contiene datos adaptados a una línea de negocio o departamento específico en lugar de a toda la empresa. Por ejemplo, una empresa puede tener un mercado de datos que se alinee con el departamento de marketing. Esos usuarios pueden acceder a insights más enfocados para la segmentación de clientes y el rendimiento de las campañas sin tener que navegar por el conjunto de datos más amplio de la empresa.

Depósitos de datos frente a otros tipos de almacenamiento de datos

Los términos depósito de datos, base de datos, lago de datos y lakehouse de datos a veces se usan indistintamente, pero existen diferencias importantes.

Depósito de datos frente a base de datos

Una base de datos es como un archivador construido principalmente para la captura automatizada de datos y el procesamiento rápido de transacciones. Generalmente sirve como almacén de datos específico para una aplicación específica. Los depósitos de datos almacenan datos de cualquier cantidad de aplicaciones en una organización y están optimizados para análisis predictivos y otros análisis avanzados.

Depósito de datos frente a data lake

Un data lake es una solución de almacenamiento de bajo costo para cantidades masivas de datos sin procesar y utiliza un enfoque de esquema en lectura en lugar de un esquema predefinido. Los data lakes pueden almacenar datos estructurados, datos no estructurados y datos semiestructurados, como documentos, videos, registros de IoT y publicaciones en redes sociales.

Se pueden crear en plataformas de big data, como Apache Hadoop, o en servicios de almacenamiento de objetos en la nube, como Amazon Simple Storage Service (Amazon S3). Por lo general, no limpian, ni validan ni normalizan los datos para analytics, como lo hace un depósito.

Lakehouse de datos frente a depósito de datos

Un lakehouse de datos combina las fortalezas de los depósitos de datos y data lakes, ofreciendo la flexibilidad de bajo costo de un lago junto con el alto rendimiento de un depósito. Al combinar las características clave de lagos y depósitos en una única plataforma de datos, los lakehouses pueden acelerar el procesamiento de grandes volúmenes de datos estructurados, no estructurados y en tiempo real.

También apoyan de forma más eficiente las cargas de trabajo de machine learning, ciencia de datos e inteligencia artificial (IA). Los lakehouses de datos también pueden agregar características, como metadatos compartidos y motores de lenguaje de consulta estructurado (SQL) distribuidos.

Beneficios del depósito de datos

Los depósitos de datos ponen los insights y los beneficios a disposición de los usuarios de toda una organización, ofreciendo muchos beneficios, como:

  • Mejor calidad de los datos
  • Soporte para IA y machine learning
  • Mayor apoyo a la toma de decisiones

Mejor calidad de los datos

A través de procesos de ELT o ETL, los depósitos de datos preparan los datos entrantes antes de almacenarlos en el depósito. Esta preparación incluye métodos de calidad de datos como limpieza, estandarización y deduplicación de datos. Las políticas y prácticas sólidas de gobernanza de datos también pueden ayudar a garantizar la precisión e integridad de los datos para todos los usuarios.

Al integrar datos de alta calidad en un único almacén, las organizaciones crean una única fuente de información completa y confiable, lo que ayuda a eliminar los silos de datos. Este repositorio central permite a los usuarios empresariales acceder con confianza a todos los datos pertinentes de la organización y utilizarlos para la toma de decisiones empresariales. Un depósito de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la empresa.

Soporte para IA y machine learning

Los depósitos de datos modernos pueden admitir varios flujos de trabajo de IA y machine learning proporcionando datos limpios y confiables. Los científicos de datos pueden utilizar datos de depósitos limpios y validados para crear modelos de IA generativa patentados o ajustar los modelos existentes para satisfacer mejor sus necesidades comerciales únicas.

Un depósito de datos listo para la IA debe poder recopilar, limpiar, organizar y estructurar datos, así como facilitar el flujo de datos a las plataformas de IA y machine learning. Sin embargo, no todos los almacenes de datos modernos están optimizados para cargas de trabajo de IA. Los lakehouses de datos se están convirtiendo cada vez más en las plataformas de datos preferidas para la infraestructura de IA.

Mayor apoyo a la toma de decisiones

Un almacén de datos centraliza y limpia los datos de diferentes fuentes para crear una única fuente de verdad, brindando a las organizaciones una visión integral y confiable de los datos empresariales. Las herramientas de BI de autoservicio permiten a los usuarios de toda la empresa acceder a consultas analíticas y ejecutarlas sobre estos datos agregados.

De este modo, los almacenes de datos permiten a los usuarios empresariales de cualquier nivel técnico descubrir y elaborar informes sobre temas, tendencias y agregaciones. Los directivos de las empresas pueden emplear estos insights para tomar decisiones mejor informadas y realizar forecasting basados en pruebas fehacientes en prácticamente todos los ámbitos de la organización, desde los procesos empresariales hasta la gestión financiera y de inventarios.

Casos de uso de depósitos de datos específicos de la industria

Los depósitos de datos también pueden servir para usos específicos de la industria, como:

Gobierno

Las capacidades analíticas de un depósito de datos pueden ayudar a los gobiernos a comprender mejor los fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

Atención médica

La capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados de pruebas, puede brindar a los proveedores de atención médica un insight más profundo. Estos insights les ayudan a comprender los resultados de los pacientes, mejorar la eficiencia operativa y mucho más.

Viajes y hospitalidad

Las organizaciones pueden utilizar datos históricos relacionados con las opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.

Manufactura

Las grandes empresas manufactureras que generan enormes volúmenes de datos pueden utilizar soluciones de depósito de datos para crear mercados de datos adaptados a las necesidades de cada departamento.

Preguntas frecuentes sobre los depósitos de datos

¿Necesito un depósito de datos?

Un depósito de datos puede ser una opción acertada si su organización recopila grandes cantidades de datos procedentes de múltiples sistemas operativos, como aplicaciones empresariales (BI), sitios web y otras bases de datos. Es especialmente útil cuando planea realizar análisis históricos complejos con herramientas o paneles de BI.

¿Cómo puedo optimizar los costos del depósito de datos?

Para la optimización de costos, busque arquitecturas que separen los datos y los recursos informáticos, lo que le permitirá escalarlos por separado. También puede utilizar un almacenamiento de objetos rentable en la nube y una gestión de cargas de trabajo basada en IA para la distribución automatizada de recursos. Los formatos de datos abiertos facilitan compartir datos entre almacenes y lakehouses, reduciendo los costos y la complejidad de almacenamiento.

¿Cómo se abordan los problemas de calidad de los datos en un depósito de datos?

Los sólidos procesos ETL/ELT para la limpieza y estandarización de datos, las políticas sólidas de gobernanza de datos y la observabilidad de los datos para detectar problemas a medida que surgen pueden ayudar con los problemas de calidad de los datos. Un enfoque de estrategia de integración de pruebas, seguridad y calidad desde las etapas más tempranas del ciclo de vida también puede ayudar a detectar y resolver problemas de calidad de datos más cerca de la causa principal en lugar de en el proceso descendente.

¿En qué se diferencia un depósito de datos de una base de datos?

Una base de datos se construye principalmente para el procesamiento rápido de transacciones y, por lo general, sirve como almacenamiento de datos para una aplicación específica. Un depósito de datos agrega grandes volúmenes de datos de diversas fuentes, luego los limpia y prepara para business intelligence, consultas analíticas y otros análisis avanzados de datos.

¿Quién debería ser el responsable del depósito de datos?

Los ingenieros de datos se encargan de crear y mantener la infraestructura, mientras que el director de datos establece la estrategia de datos y supervisa las funciones de gestión de datos. Los equipos de business intelligence gestionan las capas semánticas y los paneles, y los equipos de gobernanza de datos multifuncionales ayudan a garantizar la calidad y seguridad de los datos.

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Soluciones relacionadas
IBM watsonx.data

watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Soluciones de lago de datos

Potencie sus aplicaciones, analytics e IA con cualquier dato en un data lakehouse abierto

Descubra las soluciones de data lakes
Servicios de consultoría de datos e IA

Escale con éxito la IA con la estrategia, los datos, la seguridad y la gobernanza adecuados.

Explore servicios de consultoría de datos e IA
Dé el siguiente paso

Unifique todos sus datos para IA y analytics con IBM® watsonx.data. Ponga sus datos a trabajar, dondequiera que residan, con el data lakehouse híbrido y abierto para IA y analytics.

  1. Descubra watsonx.data
  2. Explore los datos para soluciones de IA