数据集市是专注于特定业务线、部门或主题领域的 数据仓库 子集。 数据集市将特定数据提供给所定义的用户组,允许这些用户快速访问关键洞察,而无需浪费时间来搜索整个数据仓库。 例如,许多公司可能具有符合特定业务部门(如财务、销售或营销部门)需求的数据集市。
IBM 数据仓库解决方案
IBM 数据湖解决方案
数据集市、数据仓库和数据湖都是非常重要的中央数据存储库,但它们却是满足组织内的不同需求。
数据仓库 是一个系统,它会将来自多个源的数据汇总到一个统一的中央数据存储中,以便支持数据挖掘、人工智能 (AI) 和机器学习,从而改善复杂的分析和商业智能。 通过这个战略性收集过程, 数据仓库解决方案 整合了来自不同源的数据,以统一的形式提供数据。
数据集市(如上所述)是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。 数据集市是通过一个复杂的过程基于现有数据仓库(或其他数据源)构建的,该过程会使用多种技术和工具来设计和构建物理数据库,使用数据填充数据库,并设置复杂的访问和管理协议。
虽然这是一个具有挑战性的过程,但与使用更广泛的数据仓库数据集相比,它能让业务线更快地发现更有针对性的洞察。 例如,营销团队可以通过从现有仓库创建数据集市来受益,因为其活动往往独立于企业的其他部门。 因此,该团队不需要访问所有企业数据。
数据湖也是一个数据存储库。 数据湖可以海量存储通过多个源提供的非结构化或原始数据,但这些信息尚未处理或尚未准备好用于分析。 由于能够以原始格式存储数据,因此数据湖比数据仓库更易于访问且更具成本效益。 在采集数据之前无需清理和处理数据。
例如,政府可以使用技术来跟踪交通行为、用电量和航道的相关数据并将其存储在数据湖中,同时了解如何使用这些数据来创建“智慧城市”以提供更高效的服务。
数据集市旨在通过面向相对狭窄的数据主题来满足特定用户组的需求。 虽然数据集市仍可以包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。
凭借其更小且更有针对性的设计,数据集市可以为最终用户提供多种优势,包括:
存在三种类型的数据集市,它们因与数据仓库的关系以及每个系统对应的数据源而异。
数据集市是面向主题的 关系数据库 ,它以行和列的形式存储事务数据,以便于访问、组织和理解数据。 由于它包含历史数据,因此分析人员可通过这种结构更轻松地确定数据趋势。 典型的数据字段包括数字顺序、时间值和对一个或多个对象的引用。
公司采用多维模式将数据集市组织为蓝图,以满足要使用数据库执行分析任务的用户的需求。 下面是三种主要类型的模式:星型、雪花和保险库。
星型星型模式是多维数据库中表的逻辑结构,其形状跟星形相似。 在此蓝图中,一个事实表(与特定业务事件或流程相关的指标集)位于星型模式的中心,周围环绕着几个关联的维度表。
维度表之间没有依赖关系,因此星型模式在编写查询时需要的连接更少一些。 这种结构可以简化查询,因此星型模式对于想要访问和导航大型数据集的分析人员来说非常高效。
雪花雪花模式是星型模式的逻辑扩展,它使用额外的维度表来扩建蓝图。 这些维度表已进行了规范化,因此可以保护数据完整性并最大限度地减少数据冗余。
虽然此方法只需要较少的空间来存储维度表,但它却是一种难以维护的复杂结构。 使用雪花模式的主要好处是对磁盘空间的需求较低,但需要注意的是,额外的表会对性能产生负面影响。
保险库数据保险库是一种现代数据库建模技术,IT 专业人员可通过这种技术来设计敏捷的企业数据仓库。 这种方法强制实施了分层结构,专用于解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性问题。
数据保险库不需要像星型模式那样清理数据,并在不中断现有模式的情况下简化了新数据源的添加过程。
数据集市在部门级别指导重要的业务决策。 例如,营销团队可以使用数据集市来分析消费者行为,而销售人员可以使用数据集市来编制季度销售报告。 由于这些任务都是发生在各自的部门内,因此团队不需要访问所有企业数据。
通常,数据集市由打算使用它的特定业务部门来创建和管理。 设计数据集市的过程通常包括以下步骤:
完成基础工作后,您可以使用专业的商业智能工具(例如 Qlik 或 SiSense)从数据集市中获得最大价值。 这些解决方案都包含一个仪表板和若干个可视化,以便您轻松地从数据中发掘洞察,制定更明智的决策,从而使公司受益。
虽然数据集市可以为企业提供了更高的效率和更大的灵活性,但数据的不断增长也给继续使用本地解决方案的公司带来了新的问题。
随着 数据仓库迁移到云端,数据集市也会紧随其后迁移到云端。 通过将数据资源整合到包含所有数据集市的单个存储库中,企业可以降低成本并确保所有部门都可以不受限制地实时访问所需的数据。
使用基于云的平台,可以轻松创建、共享和存储海量数据集,以便提供更高效且更有效的数据访问和分析。 云系统是专为实现可持续业务增长而构建的,许多现代的 软件即服务 (SaaS) 提供商都会将数据存储与计算分开,以便提高查询数据时的可扩展性。
IBM Db2 Warehouse on Cloud 是一种富有弹性的云数据仓库,能够独立扩展存储和计算能力。 较小的数据集市可以使用 Flex One 功能,这是一个专为高性能分析而构建的弹性数据仓库。 该系统可部署在多个云提供商的平台上,其起始存储容量为 40 GB。
另一个值得注意的选项是 IBM InfoSphere® Master Data Management (MDM)。 这个可定制系统将管理关键企业数据的各个方面,让用户可以在一个可信视图中访问数据。 通过这个简化的仪表板,用户可以进行详细分析,获得可操作的洞察,并确保在整个企业中完全遵守数据治理要求和策略。
注册一个 IBMid 并 创建 IBM Cloud 帐户。