Un data mart es un subconjunto de un almacén de datos centrado en una línea de negocio, departamento o área temática en particular. Los mercados de datos ponen datos específicos a disposición de un grupo definido de usuarios, lo que les permite acceder rápidamente a información crítica sin perder tiempo buscando en todo un almacén de datos. Por ejemplo, muchas empresas pueden tener un data mart que se alinea con un departamento específico de la empresa, como finanzas, ventas o marketing.
Soluciones de IBM Data Warehouse
Soluciones de IBM Data Lake
Los data marts, los almacenes de datos y los data lakes son repositorios de datos centrales cruciales, pero satisfacen diferentes necesidades dentro de una organización.
Un almacén de datos es un sistema que agrega datos de múltiples fuentes en un único almacén de datos centralizado y consistente para respaldar la minería de datos, la inteligencia artificial (IA) y el machine learning, lo que, en última instancia, puede mejorar el análisis sofisticado y la inteligencia empresarial. A través de este proceso estratégico de recolpilación, soluciones de almacenamiento de datos consolidar los datos de las diferentes fuentes para que estén disponibles en una forma unificada.
Un data mart (como se indicó anteriormente) es una versión enfocada de un almacén de datos que contiene un subconjunto más pequeño de datos importantes y necesarios para un solo equipo o un grupo selecto de usuarios dentro de una organización. Un data mart se construye a partir de un almacén de datos existente (u otras fuentes de datos) mediante un procedimiento complejo que involucra múltiples tecnologías y herramientas para diseñar y construir una base de datos física, llenarla con datos y configurar intrincados protocolos de acceso y administración.
Si bien es un proceso desafiante, permite que una línea de negocios descubra información más enfocada más rápido que trabajar con un conjunto de datos de almacenamiento de datos más amplio. Por ejemplo, los equipos de marketing pueden beneficiarse de la creación de un data mart a partir de un almacén existente, ya que sus actividades generalmente se realizan de forma independiente del resto de la empresa. Por lo tanto, el equipo no necesita acceder a todos los datos de la empresa.
Un data lake también es un repositorio de datos. Un lago de datos proporciona un almacenamiento masivo de datos sin estructura o sin procesar alimentados a través de múltiples fuentes, pero la información aún no se ha procesado ni preparado para el análisis. Como resultado de poder almacenar datos en un formato sin procesar, los data lakes son más accesibles y rentables que los almacenes de datos. No es necesario limpiar y procesar los datos antes de ingerirlos.
Por ejemplo, los gobiernos pueden usar la tecnología para rastrear datos sobre el comportamiento del tráfico, el uso de energía y las vías fluviales, y almacenarlos en un lago de datos mientras descubren cómo usar los datos para crear "ciudades más inteligentes" con servicios más eficientes.
Los mercados de datos están diseñados para satisfacer las necesidades de grupos específicos al tener un tema de datos comparativamente estrecho. Y aunque un data mart todavía puede contener millones de registros, su objetivo es proporcionar a los usuarios comerciales los datos más relevantes en el menor tiempo posible.
Con su diseño más pequeño y enfocado, un data mart tiene varios beneficios para el usuario final, incluidos los siguientes:
Hay tres tipos de data marts que se diferencian en función de su relación con el almacén de datos y las respectivas fuentes de datos de cada sistema.
Un data mart es una base de datos relacional orientada por temas que almacena datos transaccionales en filas y columnas, lo que facilita el acceso, la organización y la comprensión. Como contiene datos históricos, esta estructura facilita que un analista determine las tendencias de los datos. Los campos de datos típicos incluyen orden numérico, valor de tiempo y referencias a uno o más objetos.
Las empresas organizan los mercados de datos en un esquema multidimensional como un modelo para abordar las necesidades de las personas que utilizan las bases de datos para tareas analíticas. Los tres tipos principales de esquema son estrella, copo de nieve y bóveda.
El esquema de estrella es una formación lógica de tablas en una base de datos multidimensional que se asemeja a una forma de estrella. En este plano, una tabla de hechos, un conjunto de métricas que se relaciona con un evento o proceso empresarial específico, reside en el centro de la estrella, rodeada por varias tablas de dimensiones asociadas.
No hay dependencia entre las tablas de dimensiones, por lo que un esquema en estrella requiere menos combinaciones al escribir consultas. Esta estructura facilita las consultas, por lo que los esquemas en estrella son muy eficientes para los analistas que desean acceder a grandes conjuntos de datos y navegar por ellos.
Un esquema de copo de nieve es una extensión lógica de un esquema en estrella, que construye el plano con tablas de dimensiones adicionales. Las tablas de dimensiones están normalizadas para proteger la integridad de los datos y minimizar la redundancia de datos.
Si bien este método requiere menos espacio para almacenar tablas de dimensiones, es una estructura compleja que puede ser difícil de mantener. El principal beneficio de usar el esquema de copo de nieve es la baja demanda de espacio en disco, pero la advertencia es un impacto negativo en el rendimiento debido a las tablas adicionales.
Bóveda La bóveda de datos es una técnica moderna de modelado de bases de datos que permite a los profesionales de TI diseñar almacenes de datos empresariales ágiles. Este enfoque aplica una estructura en capas y se ha desarrollado específicamente para combatir los problemas con agilidad, flexibilidad y escalabilidad que surgen cuando se utilizan los otros modelos de esquema.
La bóveda de datos elimina la necesidad de limpieza del esquema en estrella y agiliza la adición de nuevas fuentes de datos sin interrumpir el esquema existente.
Los data marts guían las decisiones comerciales importantes a nivel departamental. Por ejemplo, un equipo de marketing puede utilizar data marts para analizar el comportamiento de los consumidores, mientras que el personal de ventas puede utilizar data marts para compilar informes de ventas trimestrales. Como estas tareas ocurren dentro de sus respectivos departamentos, los equipos no necesitan acceso a todos los datos de la empresa.
Normalmente, una despensa de datos la crea y gestiona el departamento de negocios específico que tiene la intención de utilizarla. El proceso para diseñar un data mart generalmente comprende los siguientes pasos:
Una vez hecho el trabajo preliminar, puede obtener el máximo valor de un mercado de datos mediante el uso de herramientas de inteligencia empresarial especializadas, como Qlik o SiSense. Estas soluciones incluyen un panel de control y visualizaciones que facilitan el discernimiento de los conocimientos de los datos, lo que en última instancia conduce a decisiones más inteligentes que benefician a la empresa.
Si bien los mercados de datos ofrecen a las empresas los beneficios de una mayor eficiencia y flexibilidad, el crecimiento imparable de datos plantea un problema para las empresas que continúan utilizando una solución local.
Conforme los data marts se trasladen a la nube, seguirán los mercados de datos. Al consolidar los recursos de datos en un único repositorio que contiene todos los mercados de datos, las empresas pueden reducir los costos y garantizar que todos los departamentos tengan acceso sin restricciones a los datos que necesitan en tiempo real.
Las plataformas basadas en la nube permiten crear, compartir y almacenar conjuntos de datos masivos con facilidad, allanando el camino para un acceso y análisis de datos más eficientes y efectivos. Los sistemas en la nube están diseñados para el crecimiento de negocios sostenible, con muchos proveedores de Software como servicio (SaaS) que separan el almacenamiento de datos de la computación para mejorar la escalabilidad al consultar datos.
IBM Db2 Warehouse on Cloud es un almacén de datos en la nube flexible que ofrece escalamiento de forma independiente de almacenamiento y cómputo. Los data marts más pequeños pueden utilizar la funcionalidad de Flex One , que es un almacén de datos elástico creado para análisis de alto rendimiento. Este sistema se puede implementar en varios proveedores de la nube, a partir de 40 GB de almacenamiento.
Otra opción que vale la pena considerar es IBM InfoSphere® Master Data Management (MDM). Este sistema personalizable administra todos los aspectos de sus datos empresariales críticos, brindando a los usuarios acceso en una vista única de confianza. A través de este panel optimizado, los usuarios tienen la capacidad de realizar análisis detallados, obtener información útil y garantizar el cumplimiento total de las políticas y el gobierno de datos en toda la empresa.
Regístrese para obtener un IBMid y crear su cuenta de IBM Cloud.
Explore las capacidades de un almacén de datos en la nube totalmente administrado y flexible, creado para la analítica de alto rendimiento y la IA.
Descubra cómo IBM InfoSphere Master Data Management facilita la colaboración y la innovación entre usuarios de negocio y de TI con datos maestros de confianza en toda la empresa.