¿Qué es un data mart?
Fondo azul y negro
¿Qué es un data mart?

Un data mart es un subconjunto de un almacén de datos centrado en una línea de negocio, departamento o área en particular. Ponen datos específicos a disposición de un grupo definido de usuarios, lo que les permite acceder rápidamente a información crítica sin perder tiempo buscando en todo un almacén de datos.

Por ejemplo, muchas empresas pueden tener un data mart que se alinea con un departamento específico de la empresa, como finanzas, ventas o marketing.

Centro de datos vs. almacén de datos vs. data lake

Los data marts, los almacenes de datos y los data lakes son repositorios de datos centrales cruciales, pero satisfacen diferentes necesidades dentro de una organización.

Un almacén de datos es un sistema que agrega datos de múltiples fuentes a un único almacén de datos centralizado y consistente para respaldar la minería de datos, la inteligencia artificial (IA) y el machine learning, lo que, en última instancia, puede mejorar la analítica avanzada y la inteligencia empresarial. A través de este proceso estratégico de recopilación, las soluciones de almacenamiento de datos consolidan los datos de las diferentes fuentes para que estén disponibles en una forma unificada.

Un data mart es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos importantes y necesarios para un solo equipo o un grupo selecto de usuarios dentro de una organización. Un data mart se crea a partir de un almacén de datos existente (u otras fuentes de datos) mediante un procedimiento complejo que involucra múltiples tecnologías y herramientas para diseñar y crear una base de datos física, llenarla con datos y configurar protocolos complejos de gestión y acceso.

Si bien es un proceso desafiante, permite que una línea de negocios descubra insights más específicos más rápido que al trabajar con un conjunto de datos de almacenamiento de datos más amplio. Por ejemplo, los equipos de marketing pueden beneficiarse de la creación de un data mart a partir de un almacén existente, ya que sus actividades generalmente se realizan de forma independiente del resto de la empresa. Por lo tanto, el equipo no necesita acceder a todos los datos empresariales.

Un data lake también es un repositorio de datos. Un data lake proporciona un gran almacenamiento de datos brutos o sin estructura obtenidos de múltiples fuentes, pero la información aún no se ha procesado ni preparado para el análisis. Como resultado de poder almacenar datos en un formato sin procesar, los data lakes son más accesibles y rentables que los almacenes de datos. No es necesario limpiar y procesar los datos antes de ingerirlos.

Por ejemplo, los gobiernos pueden usar la tecnología para rastrear datos sobre el comportamiento del tráfico, el uso de energía y las vías fluviales, y almacenarlos en un data lake mientras descubren cómo usar los datos para crear "ciudades más inteligentes" con servicios más eficientes.

 

Beneficios de un data mart
  1. Rentabilidad
  2. Acceso a datos simplificado
  3. Acceso más rápido a insights
  4. Mantenimiento de datos más sencillo
  5. Implementación más fácil y rápida

Los data marts están diseñados para satisfacer las necesidades de grupos específicos al tener un tema de datos comparativamente limitado. Y aunque un data mart todavía puede contener millones de registros, su objetivo es proporcionar a los usuarios empresariales los datos más relevantes en el menor tiempo posible. 

Con su diseño más pequeño y enfocado, un data mart tiene varios beneficios para el usuario final, incluidos los siguientes:

Rentabilidad

Hay muchos factores que considerar implementar un data mart, como el alcance, las integraciones y el proceso para extraer, transformar y cargar (ETL). Sin embargo, un data mart normalmente solo incurre en una fracción del costo de un almacén de datos.

Acceso a datos simplificado

Los data marts solo contienen un pequeño subconjunto de datos, por lo que los usuarios pueden extraer rápidamente los datos que necesitan con menos esfuerzo del que les tomaría al trabajar con un conjunto de datos más amplio de un almacén de datos.

Acceso más rápido a insights

La intuición obtenida de un almacén de datos respalda la toma de decisiones estratégicas a nivel empresarial, lo que afecta a toda la empresa. Un data mart impulsa la inteligencia empresarial y la analítica que influencian las decisiones a nivel de departamento. Los equipos pueden aprovechar los insights de datos enfocados con sus objetivos específicos en mente. A medida que los equipos identifican y extraen datos valiosos en menor tiempo, la empresa se beneficia de procesos de negocios acelerados y una mayor productividad.

Mantenimiento de datos más sencillo

Un almacén de datos contiene una gran cantidad de información empresarial, con capacidad para múltiples líneas de negocio. Los data marts se centran en una sola línea, con menos de 100 GB, lo que reduce el desorden y facilita el mantenimiento.

Implementación más fácil y rápida

Un almacén de datos implica un tiempo de implementación significativo, especialmente en una gran empresa, ya que recopila datos de una gran cantidad de fuentes internas y externas. Por otro lado, solo necesita un pequeño subconjunto de datos para configurar un data mart, por lo que la implementación tiende a ser más eficiente y más rápida.

Tipos de data marts
  1. Data marts dependientes
  2. Data marts independientes
  3. Data marts híbridos

Hay tres tipos de data marts que se diferencian según su relación con el almacén de datos y las respectivas fuentes de datos de cada sistema.

Data marts dependientes

Son segmentos particionados dentro de un almacén de datos empresarial. Este abordaje de arriba hacia abajo comienza con el almacenamiento de todos los datos empresariales en una ubicación central. Los data marts recién creados extraen un subconjunto definido de los datos primarios siempre que sea necesario para analizarlos.

Data marts independientes

Actúan como un sistema autónomo que no depende de un almacén de datos. Los analistas pueden extraer datos de un tema o proceso de negocios en particular de fuentes de datos internas o externas, procesarlos y luego almacenarlos en un repositorio de data mart hasta que el equipo los necesite.

Data marts híbridos

Combinan datos de almacenes de datos existentes y otras fuentes operativas. Este abordaje unificado aprovecha la velocidad y la interfaz intuitiva de un abordaje de arriba hacia abajo, y también ofrece la integración del método independiente a nivel empresarial.

Estructura de un data mart

Un data mart es una base de datos relacional orientada por temas que almacena datos transaccionales en filas y columnas, lo que facilita el acceso, la organización y la comprensión.

Como contiene datos históricos, esta estructura facilita que un analista determine las tendencias de los datos. Los campos de datos típicos incluyen orden numérico, valor de tiempo y referencias a uno o más objetos.

Las empresas organizan los data marts en un esquema multidimensional como un modelo para abordar las necesidades de las personas que utilizan las bases de datos para tareas analíticas. Los tres tipos principales de esquema son estrella, copo de nieve y bóveda.

Estrella
 

El esquema de estrella es una formación lógica de tablas en una base de datos multidimensional que se asemeja a una forma de estrella. En este plano, una tabla de hechos (un conjunto de métricas que se relaciona con un evento o proceso empresarial específico) reside en el centro de la estrella, rodeada de varias tablas de dimensiones asociadas.

No hay dependencia entre las tablas de dimensiones, por lo que un esquema en estrella requiere menos combinaciones al escribir consultas. Esta estructura facilita las consultas, por lo que los esquemas en estrella son muy eficientes para los analistas que desean acceder a grandes conjuntos de datos y explorarlos.

Copo de nieve
 

El esquema de copo de nieve es una extensión lógica de un esquema de estrella, que extiende el plano con tablas de dimensiones adicionales. Las tablas de dimensiones están normalizadas para proteger la integridad de los datos y minimizar la redundancia de datos.

Si bien este método requiere menos espacio para almacenar tablas de dimensiones, es una estructura compleja que puede ser difícil de mantener. El principal beneficio de usar el esquema de copo de nieve es la baja demanda de espacio en disco, pero puede tener un impacto negativo en el rendimiento debido a las tablas adicionales.

Bóveda
 

La bóveda de datos es una técnica moderna de modelado de bases de datos que permite a los profesionales de TI diseñar almacenes de datos empresariales ágiles. Este enfoque aplica una estructura en capas y se ha desarrollado específicamente para combatir los problemas que surgen cuando se utilizan los otros modelos de esquema con agilidad, flexibilidad y escalabilidad.

La bóveda de datos elimina la necesidad de limpieza del esquema de estrella y agiliza la adición de nuevas fuentes de datos sin interrumpir el esquema existente.

¿Quién usa un data mart (y cómo)?

Los data marts guían las decisiones empresariales importantes a nivel departamental. Por ejemplo, un equipo de marketing puede utilizar data marts para analizar el comportamiento de los consumidores, mientras que el personal de ventas puede utilizar data marts para compilar informes de ventas trimestrales.

Como estas tareas ocurren dentro de sus respectivos departamentos, los equipos no necesitan acceso a todos los datos de la empresa.

Normalmente, un data mart lo crea y gestiona el departamento empresarial específico que tiene la intención de utilizarlo. El proceso para diseñar un data mart generalmente comprende los siguientes pasos:

  1. Documentar los requisitos esenciales para comprender las necesidades empresariales y técnicas del data mart.

  2. Identificar las fuentes de datos en las que se basará su data mart para obtener información.

  3. Determinar el subconjunto de datos, ya sea toda la información de un tema o campos específicos a un nivel más granular.

  4. Crear el diseño lógico para el data mart eligiendo un esquema que se correlacione con el almacén de datos más grande.

Una vez hecho el trabajo preliminar, puede obtener el máximo valor de un data mart mediante el uso de herramientas de inteligencia empresarial especializadas, como Qlik o SiSense.

Estas soluciones incluyen un panel de control y visualizaciones que facilitan el discernimiento de los insights obtenidos de los datos, lo que en última instancia ayuda a tomar decisiones más inteligentes que benefician a la empresa.

Data mart y arquitectura en la nube

Si bien los data marts ofrecen a las empresas los beneficios de una mayor eficiencia y flexibilidad, el crecimiento imparable de datos plantea un problema para las empresas que continúan utilizando una solución local.

Conforme los  almacenes de datos se trasladen a la nube, seguirán los data marts. Al consolidar los recursos de datos en un único repositorio que contiene todos los data marts, las empresas pueden reducir los costos y garantizar que todos los departamentos tengan acceso sin restricciones a los datos que necesitan en tiempo real.

Las plataformas basadas en la nube permiten crear, compartir y almacenar grandes conjuntos de datos con facilidad, facilitando el acceso y el análisis de datos más eficientes y efectivos.

Los sistemas en la nube están diseñados para el crecimiento empresarial sostenible, con muchos proveedores de Software como servicio (SaaS) que separan el almacenamiento de datos de la computación para mejorar la escalabilidad al consultar datos.

Soluciones relacionadas
Db2 Warehouse on Cloud

Explore las capacidades de un almacén de datos en la nube totalmente gestionado y flexible, creado para la analítica e IA de alto rendimiento.

Explore Db2 Warehouse on Cloud
InfoSphere Master Data Management

Descubra cómo IBM InfoSphere Master Data Management facilita la colaboración y la innovación entre usuarios empresariales y de TI con datos maestros confiables en toda la empresa.

Explore InfoSphere Master Data Management
Recursos Encontrar el almacén de datos empresarial adecuado para afrontar el desafío de los datos e IA

La IA puede presentar una serie de desafíos que los almacenes de datos empresariales y data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.

Dé el siguiente paso

IBM Db2 Warehouse on Cloud es un almacén de datos en la nube flexible que ofrece escalamiento de forma independiente de almacenamiento y computación. Los data marts más pequeños pueden usar la función Flex One, que es un almacén de datos flexible creado para analítica de alto rendimiento. Este sistema se puede implementar en varios proveedores de la nube, a partir de 40 GB de almacenamiento.

Explore IBM Db2 Warehouse on Cloud