¿Qué es un data mart?
Conozca qué es el data mart, o despensa de datos, y cómo puede mejorar la eficiencia de los equipos, reducir los costes y facilitar la toma de decisiones tácticas más inteligentes en las empresas
Fondo azul y negro
¿Qué es un data mart?

Una despensa de datos (data mart) es un subconjunto de un almacén de datos centrado en una línea de negocio, departamento o área en particular. Los data marts ponen datos específicos a disposición de un grupo definido de usuarios, lo que les permite acceder rápidamente a información crítica sin perder tiempo buscando en todo un almacén de datos. Por ejemplo, muchas empresas pueden tener un data mart para un departamento específico en la empresa, como finanzas, ventas o marketing.

Comparación entre data mart, almacén de datos y data lake

Los data marts, los almacenes de datos y los data lakes son repositorios de datos centrales cruciales, pero atienden diferentes necesidades dentro de una organización.

Un almacén de datos es un sistema que agrega datos de varios orígenes en un único almacén de datos central y coherente para dar soporte a la minería de datos, la inteligencia artificial (IA) y machine learning que, en última instancia, mejora el análisis sofisticado y la inteligencia empresarial. A través de este proceso estratégico de recopilación, las soluciones de almacén de datos reúnen datos de los diferentes orígenes para que estén disponibles de forma unificada. 

Un almacén de datos (como se ha indicado anteriormente) es una versión focalizada de un almacén de datos que contiene un subconjunto más pequeño de datos importantes y necesarios para un equipo único o un grupo seleccionado de usuarios dentro de una organización. Un almacén de datos se crea a partir de un almacén de datos existente (u otros orígenes de datos) a través de un procedimiento complejo que implica varias tecnologías y herramientas para diseñar y construir una base de datos física, rellenarla con datos y configurar complejos protocolos de gestión y acceso.

Si bien es un proceso complicado, permite a una línea de negocio descubrir información más específica más rápido que si se trabaja con un conjunto de datos de un almacén de datos más amplio. Por ejemplo, los equipos de marketing pueden beneficiarse de crear un almacén de datos a partir de un almacén existente, ya que sus actividades suelen realizarse de forma independiente del resto de la empresa. Por lo tanto, el equipo no necesita acceso a todos los datos de la empresa.

Un data lake, o lago de datos, también es un repositorio de datos. Un data lake proporciona almacenamiento masivo de datos no estructurados o datos sin procesar a través de varios orígenes pero la información aún no ha sido procesada ni preparada para su análisis. La capacidad de almacenar datos en un formato sin procesar hace que los data lake sean más accesibles y rentables que los almacenes de datos. No es necesario limpiar y procesar datos antes de su ingesta.

Por ejemplo, los gobiernos pueden utilizar la tecnología para realizar el seguimiento de datos sobre el comportamiento del tráfico, el uso de la energía y las vías fluviales, y almacenarlos en un data lake mientras averiguan cómo utilizar los datos para crear "ciudades más inteligentes" con servicios más eficientes.

Ventajas de un data mart

Los data marts están diseñados para atender las necesidades de grupos específicos ya que abarcan un tema de datos comparativamente limitado. Y si bien un data mart aún puede contener millones de registros, su objetivo es proporcionar a los usuarios de la empresa los datos más relevantes en el menor tiempo posible. 

Con su diseño más pequeño y focalizado, un data mart presenta varias ventajas para el usuario final, incluidas las siguientes:

  • Rentabilidad: hay muchos factores a tener en cuenta cuando se configura un data mart, como el ámbito, las integraciones y el proceso de extracción, transformación y carga (ETL). Sin embargo, un data mart generalmente solo incurre en una fracción del coste de un almacén de datos.

  • Acceso a datos simplificado: los data marts solo retienen un pequeño subconjunto de datos, por lo que los usuarios pueden recuperar rápidamente los datos que necesitan con menos trabajo que cuando lo hacen con un conjunto de datos más amplio de un almacén de datos.

  • Acceso más rápido a la información: la intuición obtenida de un almacén de datos apoya la toma de decisiones estratégica a nivel de empresa, lo que afecta a toda la empresa. Un data mart alimenta la inteligencia empresarial y el análisis para guiar las decisiones a nivel de departamento. Los equipos pueden aplicar la información de los datos focalizados a sus objetivos específicos. Como los equipos identifican y extraen datos valiosos en un espacio de tiempo más corto, la empresa se beneficia de procesos de negocio acelerados y una mayor productividad.

  • Mantenimiento de datos más sencillo: un almacén de datos alberga una gran cantidad de información sobre la empresa, con ámbito para varias líneas de negocio. Los data marts se centran en una única línea, con un alojamiento inferior a 100 GB, lo que se traduce en menos desorden y un mantenimiento más fácil.

  • Implementación más fácil y rápida: un almacén de datos requiere dedicar una cantidad de tiempo importante a la implementación, especialmente en una empresa grande, ya que recopila datos de un host de orígenes internos y externos. Por otro lado, solo necesitará un pequeño subconjunto de datos cuando configure un data mart, por lo que implementación tiende a ser más eficiente e incluye menos tiempo de configuración.
Tipos de data marts

Existen tres tipos de data marts cuya diferencia radica en la relación con el almacén de datos y los respectivos orígenes de datos de cada sistema.

  • Los data marts dependientes son segmentos particionados dentro de un almacén de datos de empresa. Este procedimiento de arriba a abajo comienza con el almacenamiento de todos los datos empresariales en una ubicación central. Los data marts recién creados extraen un subconjunto definido de los datos principales siempre que sea necesario para su análisis.

  • Los data marts independientes actúan como un sistema autónomo que no depende de un almacén de datos. Los analistas pueden extraer datos sobre un tema o proceso de negocio concreto de orígenes de datos internos o externos, procesarlos y luego almacenarlos en un repositorio del data mart hasta que el equipo los necesite.

  • Los data marts híbridos combinan datos de almacenes de datos existentes y otros orígenes operativos. Este enfoque unificado aprovecha la velocidad y la interfaz intuitiva de un procedimiento de arriba a abajo y también ofrece la integración a nivel empresarial del método independiente.
Estructura de un data mart

Un data mart es una base de datos relacional centrada en un tema que almacena datos de transacciones en filas y columnas, lo que facilita su acceso, organización y comprensión. Como contiene datos históricos, esta estructura facilita que un analista determine las tendencias de los datos. Los campos de datos típicos incluyen orden numérico, valor de tiempo y referencias a uno o más objetos.

Las empresas organizan los data marts en un esquema multidimensional como modelo para atender las necesidades de las personas que utilizan las bases de datos para tareas analíticas. Los tres tipos principales de esquema son estrella, copo de nieve y caja fuerte.

Estrella
 

El esquema de estrella es una formación lógica de tablas en una base de datos multidimensional con una forma similar a una estrella. En este modelo, una tabla de hechos (un conjunto de métricas que se relaciona con un evento de negocio o proceso específico) reside en el centro de la estrella, rodeada por varias tablas de dimensión asociadas.

No hay dependencia entre las tablas de dimensión, por lo que un esquema de estrella requiere menos uniones cuando se escriben consultas. Esta estructura facilita las consultas; por ello, los esquemas de estrella son altamente eficientes para los analistas que necesitan acceder y examinar grandes conjuntos de datos.

Copo de nieve
 

Un esquema de copo de nieve es una ampliación lógica de un esquema de estrella, creando el modelo con tablas de dimensión adicionales. Las tablas de dimensión están normalizadas para proteger la integridad de los datos y minimizar su redundancia.

Si bien este método requiere menos espacio para almacenar tablas de dimensión, es una estructura compleja que puede ser difícil de mantener. La principal ventaja de utilizar un esquema de copo de nieve es la baja demanda de espacio de disco, pero por contra, incide negativamente sobre el rendimiento debido a las tablas adicionales.

Caja fuerte
 

La caja fuerte de datos es una técnica de modelado de bases de datos moderna que permite a los profesionales de TI diseñar almacenes de datos empresariales ágiles. Este enfoque aplica una estructura en capas y ha sido desarrollado específicamente para combatir los problemas de agilidad, flexibilidad y escalabilidad que surgen al usar los otros modelos de esquema.

La caja fuerte elimina la necesidad de limpieza del esquema de estrella y agiliza la adición de nuevos orígenes de datos sin generar ninguna disrupción al esquema existente.

¿Quién usa un data mart (y cómo)?

Los data marts guían decisiones importantes a nivel departamental. Por ejemplo, un equipo de marketing puede utilizar data marts para analizar los comportamientos de los consumidores, mientras que el personal de ventas podría utilizarlas para compilar informes trimestrales de ventas. Como estas tareas se realizan dentro de sus respectivos departamentos, los equipos no necesitan acceso a todos los datos empresariales.

Por lo general, un data mart es creado y gestionado por el departamento específico de la empresa que tiene intención de utilizarla. El proceso para diseñar un data mart generalmente comprende los siguientes pasos:

  1. Documentar los requisitos esenciales para comprender las necesidades técnicas y de negocio del data mart.

  2. Identificar los orígenes de datos en los que se basará su data mart para obtener información.

  3. Determinar el subconjunto de datos, ya sea toda la información sobre un tema o sobre campos específicos a un nivel más granular.

  4. Trazar el diseño lógico para el data mart seleccionando un esquema que se correlacione con el almacén de datos más grande.

Con el trabajo de base hecho, puede maximizar el valor de un data mart si utiliza herramientas de inteligencia empresarial avanzadas, como Qlik o SiSense. Estas soluciones incluyen un panel de control y visualizaciones que facilitan discernir información de los datos, lo que a su vez conduce a decisiones más inteligentes que benefician a la compañía.

Data mart y arquitectura de nube

Si bien los data marts ofrecen a las empresas las ventajas de una mayor eficiencia y flexibilidad, el crecimiento imparable de los datos plantea un problema para las empresas que siguen utilizando una solución en local.

A medida que los almacenes de datos se migren a la nube, los data marts los seguirán. Al reunir los recursos de datos en un único repositorio que contiene todos los data marts, las empresas pueden reducir costes y asegurar que todos los departamentos tengan acceso ilimitado a los datos que necesitan en tiempo real.

Las plataformas basadas en la nube permiten crear, compartir y almacenar conjuntos de datos masivos con facilidad, allanando el camino a un acceso a datos y análisis más eficiente y efectivo. Los sistemas en la nube están diseñados para facilitar el crecimiento sostenible del negocio. Además, muchos proveedores de software como servicio (SaaS) modernos separan almacenamiento de datos de la informática para mejorar la escalabilidad a la hora de consultar datos.

Soluciones relacionadas
Db2 Warehouse on Cloud

Explore las funcionalidades de un almacén de datos en nube elástico y completamente gestionado, creado para la analítica de alto rendimiento y la IA.

Explore Db2 Warehouse on Cloud
InfoSphere Master Data Management

Descubra cómo IBM InfoSphere Master Data Management facilita la colaboración y la innovación entre usuarios de negocio y de TI con datos maestros fiables en toda la empresa.

Explore InfoSphere Master Data Management
Recursos Cómo encontrar el almacén de datos empresarial adecuado para superar los retos que plantean los datos y la IA

La IA puede presentar distintos retos que los almacenes de datos empresariales y los data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.

Data lakes meet data warehouses

Conozca la opinión del analista David Menninger de Ventana Research sobre la intersección entre data lakes y almacenes de datos, una consideración importante a la hora de crear cualquier data mart.

Dé el siguiente paso

IBM Db2 Warehouse on Cloud es un almacén de datos en nube elástico que proporciona un escalado independiente de almacenamiento y computación. Los data marts más pequeños pueden utilizar la función Flex One, que es un almacén de datos elástico creado para realizar análisis de alto rendimiento. Este sistema se puede desplegar en varios proveedores de nube, a partir de 40 GB de almacenamiento.

Explore IBM Db2 Warehouse on Cloud