如今,无论是用于日常业务还是完成特定任务,基于云的企业数据存储(尤其是大数据)都是人们关注的焦点。
数据驱动着众多商业职能,从为客户与潜在用户创建精准营销方案,到优化生产制造与运营流程,再到病毒检测及疫苗的研发、测试、分发与追踪。现代企业的命脉在于能够随时按需获取所需数据。然而,寻找最适合需求的数据存储方案并非易事,往往需要为不同数据类别配置多种类型的存储库。
让我们从基础概念入手,通过具体案例探讨为何企业需要单一或多类型数据存储库来满足业务需求。
目前存在三种不同类型的云存储库,每一种都服务于不同的目的,以满足特定的需求:
数据湖是原始数据的大型存储库,无论是非结构化的还是半结构化的都可以存储。这些数据是从各种来源汇总并简单存储的。它不为特定目的或特定格式而改变。为分析工作准备数据需要耗费大量时间进行数据整理、清洗与标准化重构,以确保数据格式的统一性。数据湖是市政机构及其他组织的理想数据存储方案,适用于停电记录、交通流量、犯罪数据及人口统计等信息的存储与管理。这些数据可在后期用于更新公共工程部门或紧急救援服务的预算及资源配置。
数据仓库是将许多来源的数据汇聚到一个单一的集中式存储库中,形成统一数据的质量和格式,使数据科学家能够在数据挖掘、AI、机器学习以及最终的分析和商业智能中使用这些数据。大型城市可采用数据仓库技术,聚合来自不同部门的电子交易记录,包括超速罚单、养犬许可证、消费税缴纳及其他各类交易数据。市政部门将分析这些结构化数据,用于后续发票开具、人口普查数据更新及警务记录维护。开发者亦可借助数据仓库,整合汽车传感器生成的 TB 级数据,为自动驾驶解决方案的决策过程提供支撑。
数据市场是数据仓库的一个子集,专为服务企业或业务部门内的特定用户群体而设计。制造企业的营销部门可采用数据市场,精准定位目标客群画像,为营销计划制定提供数据支撑。制造部门也可以利用它来分析性能和错误率,从而实现持续改进。数据市场内的数据集常通过实时分析技术进行处理,以获取即时洞察与可落地的业务成果。
虽然这三种类型的云数据存储库都保存数据,但它们之间存在明显的差异。例如,数据仓库和数据湖都是大型数据聚合体,但数据湖通常在实施和维护方面更具成本效益,因为它是非结构化的。
过去几年,数据湖架构不断发展,可以支持更大规模的数据和云计算。大量数据从多个数据源传输到中央位置。
数据仓库可以通过以下三种方式之一来构建:
与数据湖中的数据相比,数据仓库中的数据更容易用于各种用途。原因在于数据仓库是结构化的,可以更轻松地挖掘或分析。
另一方面,数据市场包含的数据量比数据湖和数据仓库都要少,而且数据是按特定用途或特定人口统计或业务部门进行分类的。数据市场可采用多种逻辑结构(星型、雪花型或仓储型),其中仓储型结构在敏捷性、灵活性与扩展性方面均优于其他格式。
数据市场有三种类型:
您选择的数据存储库类型及其结构在很大程度上取决于您的业务需求和要求。若符合业务需求,企业应充分发挥混合云存储的优势,以获得灵活性、可扩展性,并构建更全面、智能的决策与问题解决体系。
一家大型跨国制造企业会生成海量数据以用于多种用途。有些数据很重要,而其他数据在未来可能有用也可能没用。公司采用云数据仓库存储批量数据,其成本低于其他数据存储方案。与此同时,该公司还部署了多个从属数据市场,服务于特定业务领域,为财务、生产与营销等部门的业务用户创造价值。每一个数据市场都包含专门用于特定用途的数据,使其格式化以便于分析。例如:
大型城市政府需要一套经济实用的数据解决方案,既能控制成本,又能保证数据的可用性。该市利用云端的数据湖来维护交通数据。它目前无力分析这些数据并采取行动,但已做好资金到位后立即实施的准备。它还使用本地部署的软件数据仓库来跟踪税单状态。此外,该市还使用混合数据市场来追踪病毒在居民中的传播情况,将来自各个医院和市政卫生服务机构的数据汇总到一个单一的存储库中,供卫生部门分析和使用。
关于基于云的数据存储库存在很多误解。一些最常见的误解包括:
您的企业是独特的,拥有特定的资源、目标和挑战。请仔细评估您的选项,以确定哪个解决方案最能满足您的需求。请考虑以下事项:
这些因素将帮助您确定哪个解决方案,或是哪些解决方案的组合,能够帮助您实现目标。
IBM 提供了多种解决方案来帮助满足您的云存储和数据科学需求。