数据集市
蓝黑背景
数据集市

了解数据集市以及它如何帮助提高团队效率、降低成本并促成企业中更加智慧的战术性业务决策。

特色产品

Db2 Warehouse on Cloud

InfoSphere Master Data Management


什么是数据集市?

数据集市是专注于特定业务线、部门或主题领域的 数据仓库 子集。 数据集市将特定数据提供给所定义的用户组,允许这些用户快速访问关键洞察,而无需浪费时间来搜索整个数据仓库。 例如,许多公司可能具有符合特定业务部门(如财务、销售或营销部门)需求的数据集市。 

相关链接

IBM 数据仓库解决方案

IBM 数据湖解决方案


数据集市、数据仓库与数据湖

数据集市、数据仓库和数据湖都是非常重要的中央数据存储库,但它们却是满足组织内的不同需求。

  数据仓库 是一个系统,它会将来自多个源的数据汇总到一个统一的中央数据存储中,以便支持数据挖掘、人工智能 (AI) 和机器学习,从而改善复杂的分析和商业智能。 通过这个战略性收集过程, 数据仓库解决方案 整合了来自不同源的数据,以统一的形式提供数据。 

数据集市(如上所述)是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。 数据集市是通过一个复杂的过程基于现有数据仓库(或其他数据源)构建的,该过程会使用多种技术和工具来设计和构建物理数据库,使用数据填充数据库,并设置复杂的访问和管理协议。

虽然这是一个具有挑战性的过程,但与使用更广泛的数据仓库数据集相比,它能让业务线更快地发现更有针对性的洞察。 例如,营销团队可以通过从现有仓库创建数据集市来受益,因为其活动往往独立于企业的其他部门。 因此,该团队不需要访问所有企业数据。

数据湖也是一个数据存储库。 数据湖可以海量存储通过多个源提供的非结构化或原始数据,但这些信息尚未处理或尚未准备好用于分析。 由于能够以原始格式存储数据,因此数据湖比数据仓库更易于访问且更具成本效益。 在采集数据之前无需清理和处理数据。

例如,政府可以使用技术来跟踪交通行为、用电量和航道的相关数据并将其存储在数据湖中,同时了解如何使用这些数据来创建“智慧城市”以提供更高效的服务。


数据集市的优势

数据集市旨在通过面向相对狭窄的数据主题来满足特定用户组的需求。 虽然数据集市仍可以包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。  

凭借其更小且更有针对性的设计,数据集市可以为最终用户提供多种优势,包括: 

  • 成本效益: 建立数据集市时需要考虑许多因素,例如,范围、集成以及 提取、转换和加载 (ETL) 流程。 然而,数据集市的成本通常只占数据仓库成本的一小部分。


    • 简化的数据访问: 数据集市仅保存一小部分数据,因此与使用数据仓库中的更广泛数据集相比,用户可以通过更少的工作量来快速检索所需的数据。


      • 更快地获得洞察: 从数据仓库中获得的洞察可支持企业级的战略决策,而这类决策会影响到整个企业。 数据集市为可指导部门级决策的商业智能和分析提供了动力。 团队可以利用有针对性的数据洞察来实现特定目标。 随着团队可以在更短的时间内识别和提取有价值的数据,企业将从加速的业务流程和更高的生产力中受益。


        • 更简单的数据维护: 数据仓库包含丰富的业务信息,适用于多个业务线。 数据集市专注于单个业务线,其容量低于 100GB,因此可以减少混乱并更易于维护。


          • 更简单快捷的实施: 数据仓库需要大量的实施时间,尤其是在大型企业中,因为它需要从大量内部和外部源中收集数据。 另一方面,在设置数据集市时,您只需要一小部分数据,因此实施往往更高效并且设置时间更少。


数据集市类型

存在三种类型的数据集市,它们因与数据仓库的关系以及每个系统对应的数据源而异。

  • 从属数据集市 是企业数据仓库内的分区段。 这种自上而下的方法首先会将所有业务数据存储在一个中心位置。 新创建的数据集市在需要分析时会提取主要数据的已定义子集。   
  • 独立数据集市 是一个独立的系统,它们不依赖于数据仓库。 分析人员可以从内部或外部数据源中提取特定主题或业务流程的数据,对这些数据进行处理,然后将其存储在数据集市存储库中,直到团队需要为止。   
  • 混合数据集市 将来自现有数据仓库和其他运营源的数据合并在一起。 这种统一方法不仅具备自上而下方法的速度和用户友好界面,还提供了独立方法的企业级集成。

数据集市的结构

数据集市是面向主题的  关系数据库 ,它以行和列的形式存储事务数据,以便于访问、组织和理解数据。 由于它包含历史数据,因此分析人员可通过这种结构更轻松地确定数据趋势。 典型的数据字段包括数字顺序、时间值和对一个或多个对象的引用。

公司采用多维模式将数据集市组织为蓝图,以满足要使用数据库执行分析任务的用户的需求。 下面是三种主要类型的模式:星型、雪花和保险库。

星型

 

星型模式是多维数据库中表的逻辑结构,其形状跟星形相似。 在此蓝图中,一个事实表(与特定业务事件或流程相关的指标集)位于星型模式的中心,周围环绕着几个关联的维度表。

维度表之间没有依赖关系,因此星型模式在编写查询时需要的连接更少一些。 这种结构可以简化查询,因此星型模式对于想要访问和导航大型数据集的分析人员来说非常高效。

雪花

 

雪花模式是星型模式的逻辑扩展,它使用额外的维度表来扩建蓝图。 这些维度表已进行了规范化,因此可以保护数据完整性并最大限度地减少数据冗余。

虽然此方法只需要较少的空间来存储维度表,但它却是一种难以维护的复杂结构。 使用雪花模式的主要好处是对磁盘空间的需求较低,但需要注意的是,额外的表会对性能产生负面影响。

保险库

 

数据保险库是一种现代数据库建模技术,IT 专业人员可通过这种技术来设计敏捷的企业数据仓库。 这种方法强制实施了分层结构,专用于解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性问题。

数据保险库不需要像星型模式那样清理数据,并在不中断现有模式的情况下简化了新数据源的添加过程。


谁会使用数据集市(以及如何使用)?

数据集市在部门级别指导重要的业务决策。 例如,营销团队可以使用数据集市来分析消费者行为,而销售人员可以使用数据集市来编制季度销售报告。 由于这些任务都是发生在各自的部门内,因此团队不需要访问所有企业数据。

通常,数据集市由打算使用它的特定业务部门来创建和管理。 设计数据集市的过程通常包括以下步骤:

  1. 记录基本需求 ,旨在了解数据集市的业务和技术需求。   
  2. 确定数据源 ,数据集市将从这些数据源中获取信息。   
  3. 确定数据子集,无论是关于某个主题的所有信息还是更细粒度的特定字段。   
  4. 设计数据集市的逻辑布局 ,方法是选择与更大数据仓库相关的模式。
  5. 完成基础工作后,您可以使用专业的商业智能工具(例如 Qlik 或 SiSense)从数据集市中获得最大价值。 这些解决方案都包含一个仪表板和若干个可视化,以便您轻松地从数据中发掘洞察,制定更明智的决策,从而使公司受益。


数据集市与云架构

虽然数据集市可以为企业提供了更高的效率和更大的灵活性,但数据的不断增长也给继续使用本地解决方案的公司带来了新的问题。

随着  数据仓库迁移到云端,数据集市也会紧随其后迁移到云端。 通过将数据资源整合到包含所有数据集市的单个存储库中,企业可以降低成本并确保所有部门都可以不受限制地实时访问所需的数据。

使用基于云的平台,可以轻松创建、共享和存储海量数据集,以便提供更高效且更有效的数据访问和分析。 云系统是专为实现可持续业务增长而构建的,许多现代的 软件即服务 (SaaS)  提供商都会将数据存储与计算分开,以便提高查询数据时的可扩展性。


数据集市与 IBM Cloud

IBM Db2 Warehouse on Cloud  是一种富有弹性的云数据仓库,能够独立扩展存储和计算能力。 较小的数据集市可以使用   Flex One  功能,这是一个专为高性能分析而构建的弹性数据仓库。 该系统可部署在多个云提供商的平台上,其起始存储容量为 40 GB。

另一个值得注意的选项是   IBM InfoSphere® Master Data Management (MDM)。 这个可定制系统将管理关键企业数据的各个方面,让用户可以在一个可信视图中访问数据。 通过这个简化的仪表板,用户可以进行详细分析,获得可操作的洞察,并确保在整个企业中完全遵守数据治理要求和策略。

注册一个 IBMid 并 创建 IBM Cloud 帐户


相关解决方案

Db2 Warehouse on Cloud

探索为高性能分析和 AI 构建的完全管理的弹性云数据仓库的功能。


InfoSphere Master Data Management

探索 IBM InfoSphere Master Data Management 如何支持业务和 IT 用户利用整个企业中的可信主数据开展协作和创新。