云数据湖、数据仓库和数据市场:

抽象流动光轨

本文将深入了解目前存在的三种不同类型的云存储库,分析它们之间的区别,并探讨哪种解决方案最适合您的用例。

如今,无论是用于日常业务还是完成特定任务,基于云的企业数据存储(尤其是大数据)都是人们关注的焦点。

数据驱动着众多商业职能,从为客户与潜在用户创建精准营销方案,到优化生产制造与运营流程,再到病毒检测及疫苗的研发、测试、分发与追踪。现代企业的命脉在于能够随时按需获取所需数据。然而,寻找最适合需求的数据存储方案并非易事,往往需要为不同数据类别配置多种类型的存储库。

让我们从基础概念入手,通过具体案例探讨为何企业需要单一或多类型数据存储库来满足业务需求。

 

三种类型的云存储库

目前存在三种不同类型的云存储库,每一种都服务于不同的目的,以满足特定的需求:

数据湖

数据湖是原始数据的大型存储库,无论是非结构化的还是半结构化的都可以存储。这些数据是从各种来源汇总并简单存储的。它不为特定目的或特定格式而改变。为分析工作准备数据需要耗费大量时间进行数据整理、清洗与标准化重构,以确保数据格式的统一性。数据湖是市政机构及其他组织的理想数据存储方案,适用于停电记录、交通流量、犯罪数据及人口统计等信息的存储与管理。这些数据可在后期用于更新公共工程部门或紧急救援服务的预算及资源配置。

数据仓库

数据仓库是将许多来源的数据汇聚到一个单一的集中式存储库中,形成统一数据的质量和格式,使数据科学家能够在数据挖掘AI机器学习以及最终的分析和商业智能中使用这些数据。大型城市可采用数据仓库技术,聚合来自不同部门的电子交易记录,包括超速罚单、养犬许可证、消费税缴纳及其他各类交易数据。市政部门将分析这些结构化数据,用于后续发票开具、人口普查数据更新及警务记录维护。开发者亦可借助数据仓库,整合汽车传感器生成的 TB 级数据,为自动驾驶解决方案的决策过程提供支撑。

数据市场

数据市场是数据仓库的一个子集,专为服务企业或业务部门内的特定用户群体而设计。制造企业的营销部门可采用数据市场,精准定位目标客群画像,为营销计划制定提供数据支撑。制造部门也可以利用它来分析性能和错误率,从而实现持续改进。数据市场内的数据集常通过实时分析技术进行处理,以获取即时洞察与可落地的业务成果。

数据湖、数据仓库与数据市场:关键差异

虽然这三种类型的云数据存储库都保存数据,但它们之间存在明显的差异。例如,数据仓库和数据湖都是大型数据聚合体,但数据湖通常在实施和维护方面更具成本效益,因为它是非结构化的。

过去几年,数据湖架构不断发展,可以支持更大规模的数据和云计算。大量数据从多个数据源传输到中央位置。

数据仓库可以通过以下三种方式之一来构建:

  1. 作为云供应商提供的托管服务。
  2. 作为一套提供内部管控与严格安全协议的软件解决方案,在处理合规事务时展现出显著优势。
  3. 作为设备,通常是即插即用的捆绑软件和硬件解决方案。

与数据湖中的数据相比,数据仓库中的数据更容易用于各种用途。原因在于数据仓库是结构化的,可以更轻松地挖掘或分析。

另一方面,数据市场包含的数据量比数据湖和数据仓库都要少,而且数据是按特定用途或特定人口统计或业务部门进行分类的。数据市场可采用多种逻辑结构(星型、雪花型或仓储型),其中仓储型结构在敏捷性、灵活性与扩展性方面均优于其他格式。

数据市场有三种类型:

  1. 从属数据市场,由企业数据仓库分区组成。它是数据仓库中主数据的子集。
  2. 独立的数据市场是一种独立的系统,专用于服务企业内特定业务板块的独立需求。
  3. 混合数据市场,由来自仓库和独立来源的数据组成。这种类型通常提供更快的数据访问和用户友好的界面。

您选择的数据存储库类型及其结构在很大程度上取决于您的业务需求和要求。若符合业务需求,企业应充分发挥混合云存储的优势,以获得灵活性、可扩展性,并构建更全面、智能的决策与问题解决体系。

基于云的数据存储库解决方案的行业用例

制造业

一家大型跨国制造企业会生成海量数据以用于多种用途。有些数据很重要,而其他数据在未来可能有用也可能没用。公司采用云数据仓库存储批量数据,其成本低于其他数据存储方案。与此同时,该公司还部署了多个从属数据市场,服务于特定业务领域,为财务、生产与营销等部门的业务用户创造价值。每一个数据市场都包含专门用于特定用途的数据,使其格式化以便于分析。例如:

  • 财务部门使用其数据市场编制客户账户报表和资产负债表。
  • 制造部门利用其专属数据市场分析生产线效率、处理 AI 解决方案的输入数据,并维护采购数据库。
  • 市场部利用其数据市场来分析和整理调查回复,从而确定营销活动和客户沟通的效果。

大型城市政府

大型城市政府需要一套经济实用的数据解决方案,既能控制成本,又能保证数据的可用性。该市利用云端的数据湖来维护交通数据。它目前无力分析这些数据并采取行动,但已做好资金到位后立即实施的准备。它还使用本地部署的软件数据仓库来跟踪税单状态。此外,该市还使用混合数据市场来追踪病毒在居民中的传播情况,将来自各个医院和市政卫生服务机构的数据汇总到一个单一的存储库中,供卫生部门分析和使用。

关于基于云的数据存储的常见误解

关于基于云的数据存储库存在很多误解。一些最常见的误解包括:

  • 一刀切:在考虑云数据存储解决方案时,绝对不是所有情况都适用统一的方案。每个企业都有不同的预算限制、目标、资源分配和偏好。评估您的业务需求和预算,并根据这些来决定最适合您的解决方案,这是至关重要的。
  • 数据孤岛将数据困在存储库中:这是错误的。云存储的本质是,只要具有适当的权限,允许在任何地方访问数据。
  • 基于云的解决方案安全性较低:实际上,云服务提供商会定期进行更新,采用最先进的协议,因而能够提供更强的安全性。它们通常拥有一支安全专家团队,具备最新的认证,致力于确保最严格的安全解决方案保护您的数据。许多提供商还设有与监管合规机构合作的团队,以优化其解决方案。然而,在一些行业(如医疗保健和金融)中,监管合规要求可能需要在没有互联网连接的情况下访问数据,这时就需要本地设备。
  • 云数据存储库很昂贵:实际上,基于云的存储可能比本地解决方案便宜,因为不需要进行大量的前期基础设施投资,也不涉及冷却、占地或持续的维护费用,也不需要内部专家团队。月度费用根据不同的供应商或云服务提供商而有所不同。

 

如何确定哪种基于云存储解决方案最适合您的业务

您的企业是独特的,拥有特定的资源、目标和挑战。请仔细评估您的选项,以确定哪个解决方案最能满足您的需求。请考虑以下事项:

  • 您的业务和技术目标
  • 您的预算
  • 需要存储的数据量
  • 需要访问数据的频率
  • 您今天或短期内是否有特定需求

这些因素将帮助您确定哪个解决方案,或是哪些解决方案的组合,能够帮助您实现目标。

云端的 IBM 数据存储库:解决方案和管理

IBM 提供了多种解决方案来帮助满足您的云存储和数据科学需求。

  • IBM Db2 Warehouse on Cloud 是一款弹性云数据仓库,提供存储和计算的独立扩展能力。较小的数据市场可以使用 Flex One 功能,这是一个专为高性能分析而构建的弹性数据仓库。该系统可部署在多个云服务提供商平台上,起始存储容量为 40 GB。
  • 另一个值得考虑的选择是 IBM© InfoSphere Master Data Management (MDM)。这个可定制的系统管理您企业的关键数据,使用户能够在单一可信视图中访问数据。通过这个简化的仪表板,用户可以进行详细分析,获取可操作的洞察,并确保在整个企业范围内完全遵守数据治理和相关政策。
  • Netezza Performance Server 是 IBM Netezza 设备的下一代演进版本,它基于 IBM Cloud Pak for Data System 的超融合架构,为企业最复杂的分析需求提供云原生决策支持系统。它现在也可在 AWS 和 Azure 上使用。
  • IBM Watson Studio 是一款数据科学和机器学习产品,它使组织能够利用数据资产并将预测结果注入到业务流程和现代应用程序中。

    作者

    Tanmay Sinha

    Program Director, Db2 Portfolio