Los sistemas de almacenamiento de datos pueden ingerir grandes cantidades de datos de una amplia gama de sistemas de origen, incluidas bases de datos operativas, sistemas transaccionales y plataformas de gestión de relaciones con los clientes (CRM). Las herramientas de analytics de autoservicio permiten a los usuarios empresariales explorar y analizar estos datos para obtener insights valiosos.
El concepto de almacén de datos surgió en la década de 1980 para integrar datos dispares en un formato coherente para el análisis. A medida que aumentó el número de nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT),creció la demanda de mayor capacidad de almacenamiento y análisis más rápidos.
Los depósitos de datos están configurados y optimizados para análisis en tiempo real, lo que significa que normalmente no son ideales para almacenar cantidades masivas de big data sin estructurar. A medida que crece la cantidad de datos en un almacén, el costo y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia y rendimiento.
En respuesta, evolucionaron alternativas más flexibles, incluidos depósitos de datos nativos de la nube y lakehouses de datos. (Consulte “Depósito de datos frente a lakehouse de datos” para obtener más información).
Los depósitos de datos a menudo utilizan una arquitectura de tres niveles diseñada para transformar datos para analytics:
Los datos fluyen desde múltiples sistemas de origen a un servidor de depósito de datos, donde se almacenan. Tradicionalmente, los datos se mueven a través de un proceso de integración de datos de extracción, transformación y carga (ETL), que utiliza la automatización para limpiar y organizar los datos antes de cargarlos en el depósito.
Debido a que los depósitos de datos almacenan principalmente datos estructurados, la transformación de datos se produce antes de la carga de datos. Algunos depósitos modernos utilizan procesos de extracción, carga y transformación (ELT), que cargan datos en el depósito antes de transformarlos. Este método se usa comúnmente en lagos de datos, que pueden almacenar datos no estructurados y semiestructurados sin requerir formatos estandarizados.
Este nivel contiene el motor de analytics, a menudo impulsado por un sistema de procesamiento analítico en línea (OLAP). Si bien las bases de datos relacionales tradicionales, incluidos muchos depósitos de datos, pueden almacenar datos multidimensionales (por ejemplo, las cifras de ventas pueden tener varias dimensiones, como ubicación, tiempo y producto), no están optimizadas para consultas multidimensionales.
Los sistemas OLAP están diseñados para consultas complejas de alta velocidad y análisis multidimensionales de grandes volúmenes de datos. Utilizan "cubos" (estructuras de datos multidimensionales basadas en matrices) para permitir un análisis más rápido y flexible en múltiples dimensiones. Los casos de uso comunes incluyen minería de datos, análisis financiero, elaboración de presupuestos y planificación de pronósticos.
OLAP frente a OLTP: los sistemas de procesamiento de transacciones en línea (OLTP) capturan y actualizan grandes volúmenes de transacciones en tiempo real de muchos usuarios. Por el contrario, los sistemas OLAP analizan datos que ya se han capturado.
Hay tres tipos de OLAP que uno podría usar en un depósito de datos:
La capa final de un depósito de datos proporciona una interfaz de usuario frontend para informes, paneles y análisis de datos ad hoc de datos empresariales. Estas herramientas de business intelligence de autoservicio permiten a los usuarios generar informes basados en datos históricos, visualizar tendencias e identificar cuellos de botella en el flujo de trabajo sin experiencia técnica en ingeniería de datos.
Boletín de la industria
Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los depósitos de datos evolucionaron significativamente, pasando de sistemas exclusivamente on premises a modelos híbridos y en la nube flexibles.
Históricamente, los almacenes de datos se alojaban on premises utilizando hardware básico. Estos sistemas se organizaron en arquitecturas de procesamiento paralelo masivo (MPP) o multiprocesamiento simétrico (SMP). También se entregaron como dispositivos independientes. Estos despliegues requieren una inversión significativa. Sin embargo, pueden ser una buena opción para organizaciones en sectores con estándares estrictos de cumplimiento, seguridad de datos o privacidad de datos.
Hoy en día, muchos depósitos de datos están diseñados para ejecutarse en la nube. Ofrecen los beneficios de la computación en la nube, como el almacenamiento de datos a escala de petabytes, computación y almacenamiento altamente escalables y precios de pago por uso. Los depósitos de datos basados en la nube suelen entregarse como una oferta de software como servicio (SaaS) totalmente gestionada, lo que elimina la necesidad de una inversión inicial en hardware o software. Esta prestación de servicios también reduce los recursos necesarios para la gestión de la infraestructura para que las organizaciones puedan centrarse en analytics e insights.
Los depósitos de datos basados en la nube han crecido en popularidad a medida que las organizaciones buscan la agilidad para escalar y reducir las huellas de sus centro de datos on premises y el gasto en infraestructura heredada.
Algunas organizaciones pueden adoptar un modelo híbrido, que combina lo mejor de los almacenes de datos on premises y en la nube. Este enfoque les permite usar la escalabilidad y flexibilidad de la nube, al tiempo que conservan el control de las cargas de trabajo que deben permanecer on premises.
En un depósito de datos, los esquemas definen cómo se organizan los datos. Hay tres estructuras de esquema comunes: el esquema de estrella, el esquema de copo de nieve y el esquema de galaxias (también llamado esquema de constelación de hechos).
Todos estos esquemas son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos en los sistemas OLAP. Los modelos dimensionales pueden aumentar la redundancia, lo que facilita la localización de información para la generación de informes y la recuperación y mejora del rendimiento de las consultas.
Estos esquemas contienen tablas de hechos y tablas de dimensiones, definidas a continuación:
Los esquemas en estrella consisten en una única tabla de hechos central rodeada de tablas de dimensiones. En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. El esquema en estrella se considera el tipo de esquema más simple y común, ya que ofrece a los usuarios velocidades de consulta más rápidas.
Un esquema de copo de nieve tiene una tabla de hechos central conectada a muchas tablas de dimensiones normalizadas, que luego pueden conectarse a otras tablas de dimensiones a través de relaciones de muchos a uno. Este patrón más complejo y ramificado puede asemejarse a un copo de nieve. Los esquemas de copos de nieve tienen bajos niveles de redundancia de datos, pero esto tiene el costo de un rendimiento de consulta más lento.
Al igual que nuestra galaxia contiene muchas estrellas, un esquema de galaxia contiene muchos esquemas de estrellas que comparten tablas de dimensiones que se normalizan para evitar la redundancia. El esquema de galaxia es más adecuado para depósitos de datos muy complejos, pero los usuarios pueden tener una experiencia inferior.
Una arquitectura de depósito de datos típica tiene varios componentes que trabajan juntos para almacenar, gestionar, procesar y entregar datos para analytics.
Las herramientas ETL extraen datos de los sistemas de origen, los transforman en un área de preparación y los cargan en el depósito de datos. En ELT, los datos se transforman después de cargarse en el depósito. Una herramienta de marco de procesamiento de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.
Una capa de conectividad para interfaces de programación de aplicaciones (API) puede ayudar al depósito a extraer datos de los sistemas operativos e integrarlos con ellos. Las API también pueden proporcionar acceso a herramientas de visualización y analytics avanzadas.
La capa de datos (o base de datos central) es el centro del depósito de datos. Aquí, el sistema integra y almacena datos de diversas fuentes, como aplicaciones comerciales, listas de correo electrónico, sitios web u otras bases de datos. Esta capa es compatible con pipelines de datos ETL o ELT y utiliza un sistema de gestión de bases de datos relacionales (RDBMS) o una plataforma de almacenamiento de datos en la nube. Las capacidades integradas de gobernanza de datos y seguridad pueden particionar los datos para que los usuarios solo accedan a lo que necesitan.
Los metadatos son datos sobre datos, que describen los datos que se almacenan en un sistema para que puedan buscarse y utilizarse para analytics. Incluye metadatos técnicos (como la estructura de la tabla y el tipo de datos) y metadatos descriptivos (como el autor, la fecha de creación o el tamaño del archivo). Los metadatos son clave para una gobernanza de datos y gestión de datos eficaces.
Algunos depósitos de datos proporcionan un sandbox, que es un entorno de prueba aislado que contiene una copia de los datos de producción y las herramientas de análisis relevantes. Los analistas y científicos de datos pueden experimentar con nuevas técnicas analíticas en el sandbox sin afectar las operaciones del depósito de datos para otros usuarios.
Las herramientas de acceso se conectan a un depósito de datos para proporcionar un frontend empresarial fácil de usar. Los usuarios empresariales y los analistas de datos pueden utilizar paneles, aplicaciones y herramientas de visualización de datos para interactuar con los datos y extraer insights. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.
Existen tres tipos principales de depósitos de datos
Un depósito de datos empresarial (EDW) es un almacén de datos que da servicio a toda la empresa. Actúa como repositorio de información centralizada de datos históricos de todos los equipos y áreas temáticas. Un entorno de depósito de datos empresariales también puede incluir un almacén de datos operativos (ODS) y mercados de datos específicos de cada departamento.
Un almacén de datos operativos (ODS) contiene la instantánea más reciente de los datos operativos. Un ODS se actualiza con frecuencia, lo que permite un acceso rápido a los datos casi en tiempo real. Las organizaciones suelen utilizar un ODS para la toma de decisiones operativas diarias y el análisis en tiempo real. También puede ser una fuente de datos para un EDW u otros sistemas de datos.
Un mercado de datos es un subconjunto de un almacén de datos existente (u otras fuentes de datos) y contiene datos adaptados a una línea de negocio o departamento específico en lugar de a toda la empresa. Por ejemplo, una empresa puede tener un mercado de datos alineado con el departamento de marketing. Estos usuarios pueden acceder a insights más específicos para la segmentación de clientes y el rendimiento de las campañas sin tener que navegar por el conjunto de datos más amplio de la empresa.
Los términos depósito de datos, base de datos, lago de datos y lakehouse de datos a veces se usan indistintamente, pero existen diferencias importantes.
Una base de datos es como un archivador construido principalmente para la captura automatizada de datos y el procesamiento rápido de transacciones. Generalmente sirve como almacén de datos específico para una aplicación específica. Los depósitos de datos almacenan datos de cualquier cantidad de aplicaciones en una organización y están optimizados para análisis predictivos y otros análisis avanzados.
Un lago de datos es una solución de almacenamiento de bajo costo para cantidades masivas de datos sin procesar y utiliza un enfoque de esquema en lectura en lugar de un esquema predefinido. Los lagos de datos suelen contener datos no estructurados y semiestructurados, como documentos, videos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales.
Se pueden crear en plataformas de big data, como Apache Hadoop, o en servicios de almacenamiento de objetos en la nube, como Amazon Simple Storage Service (Amazon S3). Por lo general, no limpian, ni validan ni normalizan los datos para analytics, como lo hace un depósito.
Un lakehouse de datos fusiona aspectos de los depósitos de datos y los lagos de datos, a saber, la flexibilidad de bajo costo de un lago y el alto rendimiento de un depósito. Al combinar las características clave de los lagos y depósitos en una solución de datos, los lakehouses pueden ayudar a acelerar el procesamiento de datos para grandes cantidades de flujos de datos estructurados, no estructurados y en tiempo real para respaldar el machine learning, la ciencia de datos y las cargas de trabajo de inteligencia artificial (IA).
Los lakehouses de datos también pueden agregar características, como metadatos compartidos y motores de lenguaje de consulta estructurado (SQL) distribuidos.
Los depósitos de datos ponen los insights y los beneficios a disposición de los usuarios de toda una organización, ofreciendo muchos beneficios, como:
A través de procesos de ELT o ETL, los depósitos de datos preparan los datos entrantes antes de almacenarlos en el depósito. Esta preparación incluye métodos de calidad de datos como limpieza, estandarización y deduplicación de datos. Las políticas y prácticas sólidas de gobernanza de datos también pueden ayudar a garantizar la precisión e integridad de los datos para todos los usuarios.
Al integrar datos de alta calidad en un único almacén, las organizaciones crean una única fuente de información completa y confiable, lo que ayuda a eliminar los silos de datos. Este repositorio central permite a los usuarios empresariales acceder con confianza a todos los datos pertinentes de la organización y utilizarlos para la toma de decisiones empresariales. Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la empresa.
Los depósitos de datos modernos pueden admitir varios flujos de trabajo de IA y machine learning proporcionando datos limpios y confiables. Los científicos de datos pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o ajustar los modelos existentes para satisfacer mejor sus necesidades comerciales únicas.
Un depósito de datos listo para la IA debe poder recopilar, limpiar, organizar y estructurar datos, así como facilitar el flujo de datos a las plataformas de IA y machine learning. Sin embargo, no todos los almacenes de datos modernos están optimizados para cargas de trabajo de IA. Los lakehouses de datos se están convirtiendo cada vez más en las plataformas de datos preferidas para la infraestructura de IA.
Un almacén de datos centraliza y limpia los datos de diferentes fuentes para crear una única fuente de verdad, brindando a las organizaciones una visión integral y confiable de los datos empresariales. Las herramientas de BI de autoservicio permiten a los usuarios de toda la empresa acceder a consultas analíticas y ejecutarlas sobre estos datos agregados.
De este modo, los almacenes de datos permiten a los usuarios empresariales de cualquier nivel técnico descubrir y elaborar informes sobre temas, tendencias y agregaciones. Los directivos de las empresas pueden emplear estos insights para tomar decisiones mejor informadas y realizar forecasting basados en pruebas fehacientes en prácticamente todos los ámbitos de la organización, desde los procesos empresariales hasta la gestión financiera y de inventarios.
Los depósitos de datos también pueden servir para usos específicos de la industria, como:
Las capacidades analíticas de un depósito de datos pueden ayudar a los gobiernos a comprender mejor los fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.
Atención médica: la capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados, puede ayudar a los proveedores de atención médica a obtener insights sobre los resultados de los pacientes, la eficiencia operativa y más.
Las organizaciones pueden utilizar datos históricos relacionados con las opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.
Las grandes empresas manufactureras que generan enormes volúmenes de datos pueden utilizar soluciones de depósito de datos para crear mercados de datos adaptados a las necesidades de cada departamento.
Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.
watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.
Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.