数据平台是一种支持数据收集、存储、清理、转换、分析和治理的技术解决方案。数据平台可以包括硬件和软件组件。利用它们,组织将能够更容易地使用其数据来改进决策和运营。
可以构建和配置数据平台,为特定业务功能提供服务。一些最常见的数据平台类型包括:
企业数据平台最初是作为中央存储库开发的,以便在整个组织内更轻松地访问数据。这些平台通常将数据存放在企业内部的运行数据库或数据仓库中。它们经常处理结构化的客户、财务和供应链数据。
当今的现代数据平台扩展了传统企业数据平台的功能,以确保数据的准确性和及时性,减少数据孤岛并实现自助服务。现代数据平台通常建立在云原生软件套件上,以支持更高的灵活性和成本效益。
管理企业数据平台的两个基本原则是:
大数据平台旨在收集、处理和存储大量数据,通常是实时的。鉴于处理的数据量巨大,大数据平台通常使用分布式计算,数据分布在许多服务器上。
其他类型的数据平台也管理着大量数据,但大数据平台是专门为高速处理这些数据而设计的。企业级 BDP 能够对海量数据集运行复杂的查询,而无论是结构化、半结构化还是非结构化。BDP 的典型用途包括大数据分析、欺诈检测、预测性分析和推荐系统。
大数据平台通常会以软件即服务 (SaaS) 产品、数据即服务 (DaaS) 产品的一部分或云计算套件的一部分来提供。
客户数据平台收集并统一来自多个来源的客户数据,可为每个客户构建一个统一、连贯和完整的视图。
CDP 的输入可能来自组织的客户关系管理 (CRM) 系统、社交媒体活动、与组织的接触点、交易系统或网站分析。
统一的 360 度客户视图可以让组织更深入地了解他们的行为和偏好,实现更有针对性的营销、更好的用户体验并发掘新的收入机会。
数据平台可能存在各种形式和规模,具体取决于组织的需求。典型的平台至少包括以下五个层:
许多数据平台的第一层是数据存储层。使用的数据存储类型取决于组织的需求,可以包括本地存储和云存储。常见的数据存储包括:
数据仓库
数据仓库(或企业数据仓库 (EDW))将来自不同来源的数据聚合到一个集中、一致的数据存储中,以支持数据分析、数据挖掘、AI 和机器学习。数据仓库最常用于管理具有明确定义的分析用例的结构化数据。
数据湖
数据湖是一种低成本的存储环境,通常可存储 PB 级的原始数据。数据湖可以存储各种格式的结构化和非结构化数据,这样,研究人员将能够更轻松地处理各种数据。
数据湖通常最初建立在 Hadoop 生态系统中,这是一个基于 NoSQL 的开源项目。2015 年左右开始,许多数据湖开始转向云。现在,典型的数据湖架构会将数据存储在 Object Storage 平台上,例如 Amazon Web Services (AWS) 的 Amazon S3,并使用 Spark 等工具来处理数据。
湖仓一体
湖仓一体将数据仓库和数据湖的功能合并到单一的数据管理解决方案中。
虽然数据仓库比数据湖提供更好的性能,但它们通常更昂贵并且扩展能力有限。数据湖优化了存储成本,但缺乏可执行有用分析的结构。
湖仓一体旨在利用 Cloud Object Storage 来解决这些挑战,以存储更广泛的数据类型,即结构化数据、非结构化数据和半结构化数据。湖仓一体架构将这种存储方式与支持高级分析工作的工具相结合,例如商业智能和机器学习。
从各种来源收集数据并将这些数据迁移到存储系统的过程被称为数据摄取。摄取后,数据可用于记录保存目的或进一步处理和分析。
组织数据基础设施的有效性很大程度上取决于数据的摄取和集成程度。如果在摄取过程中出现问题,例如数据集丢失或过时,下游分析工作流程的每一步都可能会受到影响。
摄取可能会使用不同的数据处理模式,具体取决于组织的需求及其总体数据架构。
第三层是数据转换,涉及改变数据的结构和格式,使其可用于数据分析和其他项目。例如,非结构化数据可以转换为 SQL 格式,更方便搜索。数据可以在到达存储目的地之前或之后进行转换。
直到最近,大多数数据摄取模型仍在使用提取、转换、加载 (ETL) 过程从数据源获取数据、重新格式化数据并将其传输到目标位置。当企业使用内部分析系统时,这样做很有用。在将数据传输到目的地之前做好准备工作有助于降低成本。仍在使用本地数据仓库的组织通常会使用 ETL 过程。
但是,当今许多组织更喜欢基于云的数据仓库,例如 IBM Db2 Warehouse、Microsoft Azure、Snowflake 或 Google Cloud 的 BigQuery。利用云的可扩展性,各组织将能够使用提取、加载、转换 (ELT) 模型,该模型绕过预加载转换,将原始数据更快地直接发送到数据仓库。然后,数据在到达后根据需要进行转换,通常在运行查询时。
除了上述五个基础层之外,现代数据堆栈中常见的其他层包括:
无法访问的数据就是无用的数据。数据发现有助于确保数据不会被忽视。具体来说,数据发现是指收集、评估和深入了解不同来源的数据,目的是将孤立或以前未知来源的数据汇集在一起进行分析。
现代数据平台通常强调数据治理和数据安全,以保护敏感信息、推动法规一致性、方便数据访问并管理数据质量。支持这一层的工具包括访问控制、加密、审计和数据沿袭跟踪。
数据目录使用元数据(用于描述或总结数据的数据)来创建组织中所有数据资产的信息丰富且可搜索的库存。例如,数据目录可以帮助人们更快地查找非结构化数据,包括文档、图像、音频、视频和数据可视化。
一些企业级数据平台结合了机器学习和 AI 功能,以帮助用户从数据中提取有价值的洞察分析。例如,平台可能采用预测性分析算法、机器学习模型来进行异常检测,并提供由生成式 AI 工具支持的自动化洞察分析。
一个强健的数据平台可以让技术人员更好地控制数据,让日常用户更快地进行自助服务,从而帮助组织从数据中获取更多价值。
数据平台可以帮助打破数据孤岛,这是数据可用性的最大障碍之一。人力资源、生产和供应链等不同部门可能会在不同的环境中维护不同的数据存储,从而造成不一致和重叠。当数据在数据平台上统一时,将会构建整个组织范围的单一可信信息源 (SSoT)。
通过消除孤岛和改进数据整合,可以改进分析和业务决策。这样,数据平台就成为了强健的 Data Fabric 的关键组成部分,可以帮助决策者更全面地了解组织数据。这种内聚视图可以帮助组织在数据之间建立新的联系,并利用大数据进行数据挖掘和预测性分析。
利用数据平台,企业还能够研究端到端的数据流程,并发现提升效率的新途径。企业级数据平台还能加快信息获取速度,从而提高内部决策和面向客户的工作效率。
最后,管理良好的数据平台可提供多样化的冗余数据存储,从而提高组织在面临网络攻击或自然灾害时的应变能力。
了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。
IBM 在 2024 年 Gartner 数据集成工具魔力象限报告中连续第 19 年被评为领导者。
深入了解数据领导者指南,了解如何构建数据驱动型组织和推动业务优势。
了解为什么 AI 驱动的数据智能和数据集成对于推动结构化和非结构化数据的准备工作和加速实现 AI 成果至关重要。
简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能,包括优化工作负载的成本、扩展 AI 和分析,以及随时随地使用所有数据。
深入了解 IBM Research 如何定期整合到 IBM Cloud Pak for Data 的新功能中。
获得关于不断演变的 ABI 解决方案格局的独特洞察分析,重点介绍适用于数据和分析领导者的主要发现、假设和建议。