什么是数据市场?

女商人在会议室做演示

什么是数据市场?

数据市场是数据仓库的一个子集,专注于特定的业务线、部门或主题领域。数据市场可以提高团队效率、降低成本并促使企业做出更明智的战术业务决策。

数据市场向特定用户组提供特定数据,这使这些用户能够快速访问关键见解,而无需浪费时间搜索整个数据仓库。例如,许多公司的数据市场可能与业务中的特定部门(例如财务、销售或市场营销)保持一致。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据市场、数据仓库和数据湖

数据市场、数据仓库和数据湖是至关重要的中央数据存储库,但它们满足组织内的不同需求。

数据仓库是一种系统,它将多个来源的数据汇聚到一个单一、集中、一致的数据存储库中,以支持数据挖掘、人工智能 (AI) 和机器学习,这最终可增强高级的分析和商业智能。通过这种战略性的收集过程,数据仓库解决方案可以整合不同来源的数据,以统一的形式提供给用户。

数据市场(如上所述)是数据仓库的集中版本,其中包含对组织内的单个团队或选定用户组十分重要且为其所需的一小部分数据。数据市场是从现有的数据仓库(或其他数据源)通过复杂程序构建的,该程序涉及多种技术和工具,用于设计和构建物理数据库,向其中填充数据,并设置复杂的访问和管理协议。

虽然这是一个具有挑战性的过程,但与使用更广泛的数据仓库数据集相比,它能使业务线更快地发现更有针对性的见解。例如,营销团队可能会因从现有仓库创建数据市场而受益,因为其活动通常独立于业务的其他部分。因此,团队不需要访问所有企业数据。

数据湖也是数据的存储库。数据湖提供获取自多个来源的大量非结构化或原始数据的存储,但这些信息尚未被处理或正准备进行分析。由于能够以原始格式存储数据,数据湖比数据仓库更易于访问且更具成本效益。采集之前无需清理和处理数据。

例如,政府可以利用技术跟踪有关交通行为、用电量和航道的数据,并将其存储在数据湖中,同时研究如何使用这些数据来建设“更智慧的城市”,提供更高效的服务。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据市场的益处

数据市场旨在通过相对狭义的数据主体来满足特定群体的需求。虽然数据市场仍然包含数百万条记录,但其目标是在最短的时间内为业务用户提供最相关的数据。

凭借其更小、更集中的设计,数据市场为最终用户带来一些益处,包括以下几点:

  • 成本效益:在建立数据市场时要考虑很多因素,如范围、整合以及提取、转换和加载 (ETL) 流程。然而,数据市场通常仅为数据仓库成本的一小部分。

  • 简化数据访问:数据市场仅保存一小部分数据,因此与处理数据仓库中更广泛的数据集相比,用户可以快速检索所需数据,且投入的工作量更少。

  • 更快地获得见解:从数据仓库获得的符合直觉的知识可支持企业层面的战略决策,这会影响业务的整体。数据市场可辅助商业智能和分析,指导部门层面的决策。团队可以在牢记具体目标的情况下利用有针对性的数据见解。随着团队在更短的时间内识别和提取有价值的数据,企业将受益于更快的业务流程和更高的生产力。

  • 更简单的数据维护:数据仓库承载着多条业务线的大量商业信息。数据市场专注于单一业务线,容量低于 100GB,可减少混乱且更易于维护。

  • 实施更方便快捷:数据仓库需要大量的实施时间,尤其是在大型企业中,因为它要从大量内部和外部来源收集数据。另一方面,在设置数据市场时,您只需要一小部分数据,因此实施往往会更高效,并且设置时间也更少。

数据市场的类型

数据市场分为三种类型,它们因为与数据仓库的关系以及每个系统各自的数据来源不同而存在差异。

  • 从属数据市场是企业数据仓库中的分区片段。这种自上而下的方法首先将所有业务数据存储在一个中心位置。新创建的数据市场可根据分析需要随时从主数据中提取确定的子集。

  • 独立数据市场充当不依赖于数据仓库的独立系统。分析师可以从内部或外部数据源提取有关特定主题或业务流程的数据,进行处理,然后将其存储在数据市场存储库中,直到团队需要它们。

  • 混合数据市场结合了来自现有数据仓库和其他操作源的数据。这种统一的方法利用了自上而下方法带来的速度和用户友好界面,同时提供了独立方法的企业级集成。

数据市场的结构

数据市场是一种面向主题的关系数据库,它将交易数据存储在行和列中,以便于访问、组织和理解。由于这一结构包含历史数据,因此可以帮助分析人员更轻松地确定数据趋势。典型的数据字段包括数字顺序、时间值以及对一个或多个对象的引用。

企业采用多维模式构建数据市场,作为蓝图满足人们使用数据库执行分析任务的需求。主要模式分为三种:星型、雪花型和保险库型。

星型

星型架构是多维数据库中表格的一种逻辑结构,类似于星形。在此蓝图中,一个事实表(与特定业务事件或流程相关的指标集)位于星形的中心,周围环绕着几个相关的维度表。

维度表之间没有依赖关系,因此星型模式在编写查询时需要的连接更少。这种结构更易于查询,因此星型模式对于希望访问和浏览大型数据集的分析师来说非常高效。

Snowflake

雪花架构是星型架构的逻辑扩展,使用额外的维度表来构建蓝图。维度表经过规范化处理,以保护数据完整性并最大限度地减少数据冗余。

虽然这种方法需要较少的空间来存储维度表,但它是一种复杂的结构,难以维护。使用雪花架构的主要好处是对磁盘空间的需求低,但需要注意的是,额外的表会对性能产生负面影响。

保险库

数据保险库是一种现代数据库建模技术,使 IT 专业人员能够设计敏捷的企业数据仓库。这种方法采用分层结构,专门用于解决使用其他模式模型时出现的敏捷性、灵活性和可扩展性问题。

数据保险库消除了星型模式的清理需求,并简化了新数据源的添加,而不会对现有模式造成任何干扰。

谁使用数据市场(以及如何使用)?

数据市场可指导部门层面的重要业务决策。例如,营销团队可使用数据市场来分析消费者行为,而销售人员则可使用数据市场来编制季度销售报告。由于这些任务在各自的部门内执行,因此团队无需访问所有企业数据。

通常,数据市场由打算使用它的特定业务部门创建和管理。设计数据市场的过程通常包括以下步骤:

  1. 记录基本要求,了解数据市场的业务和技术需求。

  2. 确定数据市场获取信息所依赖的数据源

  3. 确定数据子集,它是关于某个主题的所有信息还是更细粒度的特定字段。

  4. 通过选择与更大的数据仓库相关的架构来设计数据市场的逻辑布局

完成基础工作后,您可以借助 Qlik 或 SiSense 等专业商业智能工具,从数据市场中获得最大价值。这些解决方案包括仪表板和可视化功能,可以轻松地从数据中辨别出见解,最终做出有利于公司的更明智的决策。

数据市场和云架构

虽然数据市场为企业带来了更高的效率和灵活性,但无法阻挡的数据增长给继续使用内部部署解决方案的企业带来了问题。

随着数据仓库转移到云端,数据市场也将随之转移。通过将数据资源整合到包含所有数据市场的单个存储库中,企业可以降低成本并确保所有部门都能不受限制地实时访问所需数据。

基于云的平台可以轻松创建、共享和存储海量数据集,为更高效、更有效的数据访问和分析铺平道路。云系统是为了可持续的业务增长而构建的,许多现代软件即服务 (SaaS) 提供商将数据存储与计算分离,以提高查询数据时的可扩展性。

相关解决方案
IBM watsonx.data

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据仓库解决方案

针对整个组织中的已治理数据,扩展始终在线的高性能分析和 AI 工作量

深入了解数据仓库解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

借助 IBM watsonx.data 统一所有 AI 和分析数据。利用混合、开放的湖仓一体,无论数据位于何处,都能为 AI 和分析所用。

了解 watsonx.data 深入了解数据仓库解决方案