什么是数据平台?

 

 

作者

Matthew Kosinski

Enterprise Technology Writer

什么是数据平台?

数据平台是一种支持数据收集、存储、清理、转换、分析和治理的技术解决方案。数据平台可以包括硬件和软件组件。利用它们,组织将能够更容易地使用其数据来改进决策和运营。

当前,许多组织依赖复杂的数据管道来支持数据分析、数据科学和数据驱动决策。现代数据平台为各组织提供了保护数据质量和挖掘其数据价值所需的工具。

具体来说,数据平台可以帮助获得切实可行的洞察、减少数据孤岛、实现自助式分析、简化自动化并为人工智能 (AI) 应用程序提供支持。

数据平台也称为“数据堆栈”,由五个基础层组成:数据存储和处理、数据摄取数据转换商业智能 (BI) 以及分析数据可观察性

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据平台类型

可以构建和配置数据平台,为特定业务功能提供服务。一些最常见的数据平台类型包括:

  • 企业数据平台 (EDP)
  • 大数据平台 (BDP)
  • 云数据平台 (CDP)
  • 客户数据平台 (CDP)

企业数据平台 (EDP)

企业数据平台最初是作为中央存储库开发的,以便在整个组织内更轻松地访问数据。这些平台通常将数据存放在企业内部的运行数据库或数据仓库中。它们经常处理结构化的客户、财务和供应链数据。

当今的现代数据平台扩展了传统企业数据平台的功能,以确保数据的准确性和及时性,减少数据孤岛并实现自助服务。现代数据平台通常建立在云原生软件套件上,以支持更高的灵活性和成本效益。

管理企业数据平台的两个基本原则是:

  • 可用性:数据在数据湖数据仓库湖仓一体中随时可用,它们将存储和计算分开。通过拆分这些功能,可以用相对便宜的方式存储大量数据。

  • 弹性:计算功能基于云,允许自动扩展。例如,如果大部分数据和分析是在某一天和某一时间消耗的,则可以自动扩大处理规模以获得更好的客户体验,也可以随着工作负载需求的减少而缩小处理规模。

大数据平台 (BDP)

大数据平台旨在收集、处理和存储大量数据,通常是实时的。鉴于处理的数据量巨大,大数据平台通常使用分布式计算,数据分布在许多服务器上。

其他类型的数据平台也管理着大量数据,但大数据平台是专门为高速处理这些数据而设计的。企业级 BDP 能够对海量数据集运行复杂的查询,而无论是结构化、半结构化还是非结构化。BDP 的典型用途包括大数据分析、欺诈检测、预测性分析和推荐系统。

大数据平台通常会以软件即服务 (SaaS) 产品、数据即服务 (DaaS) 产品的一部分或云计算套件的一部分来提供。

云数据平台 (CDP)

顾名思义,云数据平台的显著特征就是基于云,这可以提供多个优点:

  • 云数据平台通常采用即用即付的方式。
  • 总存储空间非常灵活,可以根据需要扩大或缩小。
  • 不需要员工来维护本地硬件平台。
  • 云数据平台可以容纳大数据、企业数据或客户数据的平台。
  • 许多 CDP 提供补充功能,例如高级分析机器学习 (ML)可视化工具

客户数据平台 (CDP)

客户数据平台收集并统一来自多个来源的客户数据,可为每个客户构建一个统一、连贯和完整的视图。

CDP 的输入可能来自组织的客户关系管理 (CRM) 系统、社交媒体活动、与组织的接触点、交易系统或网站分析。

统一的 360 度客户视图可以让组织更深入地了解他们的行为和偏好,实现更有针对性的营销、更好的用户体验并发掘新的收入机会。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据平台中的层级

数据平台可能存在各种形式和规模,具体取决于组织的需求。典型的平台至少包括以下五个层:

  1. 数据存储
  2. 数据摄取
  3. 数据转换
  4. 商业智能和分析
  5. 数据可观察性

1. 数据存储

许多数据平台的第一层是数据存储层。使用的数据存储类型取决于组织的需求,可以包括本地存储和云存储。常见的数据存储包括:

数据仓库

数据仓库(或企业数据仓库 (EDW))将来自不同来源的数据聚合到一个集中、一致的数据存储中,以支持数据分析、数据挖掘、AI 和机器学习。数据仓库最常用于管理具有明确定义的分析用例的结构化数据

数据湖

数据湖是一种低成本的存储环境,通常可存储 PB 级的原始数据。数据湖可以存储各种格式的结构化和非结构化数据,这样,研究人员将能够更轻松地处理各种数据。

数据湖通常最初建立在 Hadoop 生态系统中,这是一个基于 NoSQL 的开源项目。2015 年左右开始,许多数据湖开始转向云。现在,典型的数据湖架构会将数据存储在 Object Storage 平台上,例如 Amazon Web Services (AWS) 的 Amazon S3,并使用 Spark 等工具来处理数据。

湖仓一体

湖仓一体将数据仓库和数据湖的功能合并到单一的数据管理解决方案中。

虽然数据仓库比数据湖提供更好的性能,但它们通常更昂贵并且扩展能力有限。数据湖优化了存储成本,但缺乏可执行有用分析的结构。

湖仓一体旨在利用 Cloud Object Storage 来解决这些挑战,以存储更广泛的数据类型,即结构化数据、非结构化数据和半结构化数据。湖仓一体架构将这种存储方式与支持高级分析工作的工具相结合,例如商业智能和机器学习。

2. 数据摄取

从各种来源收集数据并将这些数据迁移到存储系统的过程被称为数据摄取。摄取后,数据可用于记录保存目的或进一步处理和分析。

组织数据基础设施的有效性很大程度上取决于数据的摄取和集成程度。如果在摄取过程中出现问题,例如数据集丢失或过时,下游分析工作流程的每一步都可能会受到影响。

摄取可能会使用不同的数据处理模式,具体取决于组织的需求及其总体数据架构。

  • 批处理是最常见的数据摄取形式。它不会实时处理数据,而是收集数据并将其分组为批次,然后将其发送到存储空间。可以按照简单的时间表来启动批处理,也可以在某些预定条件存在时激活。它通常用于不是必需实时数据的情况,因为与实时处理相比,它需要的工作量更少,成本更低。
  • 实时处理也称为流式处理或数据流处理,不对数据进行分组。取而代之的是,在识别数据时对其进行获取、转换和加载。实时处理的成本较高,因为需要持续监控数据源。

3. 数据转换

第三层是数据转换,涉及改变数据的结构和格式,使其可用于数据分析和其他项目。例如,非结构化数据可以转换为 SQL 格式,更方便搜索。数据可以在到达存储目的地之前或之后进行转换。

直到最近,大多数数据摄取模型仍在使用提取、转换、加载 (ETL) 过程从数据源获取数据、重新格式化数据并将其传输到目标位置。当企业使用内部分析系统时,这样做很有用。在将数据传输到目的地之前做好准备工作有助于降低成本。仍在使用本地数据仓库的组织通常会使用 ETL 过程。

但是,当今许多组织更喜欢基于云的数据仓库,例如 IBM Db2 Warehouse、Microsoft Azure、Snowflake 或 Google Cloud 的 BigQuery。利用云的可扩展性,各组织将能够使用提取、加载、转换 (ELT) 模型,该模型绕过预加载转换,将原始数据更快地直接发送到数据仓库。然后,数据在到达后根据需要进行转换,通常在运行查询时。

4. 商业智能和分析

第四个数据平台层包括商业智能 (BI) 和分析工具,这样,用户将能够利用数据进行业务分析大数据分析工作。例如,BI 和分析工具可能允许用户查询数据、将其转换为可视化形式或以其他方式对其进行操作。

对于组织中的许多部门来说,这一层是数据平台的门面,用户在这里直接与数据交互。

研究人员和数据科学家可利用数据来得出可操作的情报和洞察。营销部门可使用 BI 与分析工具来深入了解其客户,并确定有价值的举措。供应链团队可使用数据分析洞察信息来简化流程或寻找优质供应商。

使用这一层是组织首先收集数据的主要原因。

5. 数据可观察性

数据可观察性是监控、管理和维护数据以提高数据质量、可用性和可靠性的实践。数据可观察性涵盖多种活动和技术,包括跟踪、记录、报警和异常检测。

通过仪表板将这些活动组合在一起并进行查看,用户将能够近乎实时地识别和解决数据难题。例如,可观察性层可帮助数据工程团队回答有关分布式系统后台情况的具体问题。它可以显示数据如何流经系统,在哪些地方移动缓慢,在哪些地方被中断。

可观察性工具还可以向管理人员、数据团队和其他利益相关者发出潜在问题的警报,以便他们能够主动解决问题。

其他数据平台层

除了上述五个基础层之外,现代数据堆栈中常见的其他层包括:

数据发现

 

无法访问的数据就是无用的数据。数据发现有助于确保数据不会被忽视。具体来说,数据发现是指收集、评估和深入了解不同来源的数据,目的是将孤立或以前未知来源的数据汇集在一起进行分析。

数据治理

 

现代数据平台通常强调数据治理和数据安全,以保护敏感信息、推动法规一致性、方便数据访问并管理数据质量。支持这一层的工具包括访问控制、加密、审计和数据沿袭跟踪。

数据编目和元数据管理

 

数据目录使用元数据(用于描述或总结数据的数据)来创建组织中所有数据资产的信息丰富且可搜索的库存。例如,数据目录可以帮助人们更快地查找非结构化数据,包括文档、图像、音频、视频和数据可视化。

机器学习和人工智能

 

一些企业级数据平台结合了机器学习和 AI 功能,以帮助用户从数据中提取有价值的洞察分析。例如,平台可能采用预测性分析算法、机器学习模型来进行异常检测,并提供由生成式 AI 工具支持的自动化洞察分析。

为什么数据平台很重要

一个强健的数据平台可以让技术人员更好地控制数据,让日常用户更快地进行自助服务,从而帮助组织从数据中获取更多价值。

数据平台可以帮助打破数据孤岛,这是数据可用性的最大障碍之一。人力资源、生产和供应链等不同部门可能会在不同的环境中维护不同的数据存储,从而造成不一致和重叠。当数据在数据平台上统一时,将会构建整个组织范围的单一可信信息源 (SSoT)。

通过消除孤岛和改进数据整合,可以改进分析和业务决策。这样,数据平台就成为了强健的 Data Fabric 的关键组成部分,可以帮助决策者更全面地了解组织数据。这种内聚视图可以帮助组织在数据之间建立新的联系,并利用大数据进行数据挖掘和预测性分析。

利用数据平台,企业还能够研究端到端的数据流程,并发现提升效率的新途径。企业级数据平台还能加快信息获取速度,从而提高内部决策和面向客户的工作效率。

最后,管理良好的数据平台可提供多样化的冗余数据存储,从而提高组织在面临网络攻击或自然灾害时的应变能力。

相关解决方案
数据管理软件和解决方案

设计一项数据战略,消除数据孤岛,降低复杂性并提高数据质量,以实现卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

借助 IBM Consulting 释放企业数据的价值,构建一个可带来业务优势的洞察驱动型组织。

了解分析服务
采取后续步骤

设计一项数据战略,消除数据孤岛,降低复杂性并提高数据质量,以实现卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data