什么是数据规约?

2024 年 1 月 18 日

作者

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

什么是数据规约?

数据规约是组织着手限制其存储的数据量的过程。

数据规约技术旨在减少原始数据集中的冗余,以便大量原始数据能够更有效地存储为缩减数据。

首先应该强调的是,“数据规约”一词不是自动等同于丢失信息。很多情况下,数据规约仅意味着数据现在以更智能的方式进行存储 – 也许已经过优化过程,并以更实际的配置与相关数据重新组合。

数据规约与数据去重也不是一回事,后者是为了精简目的而清除相同数据的多余副本。更准确地说,数据规约结合了数据去重和数据整合等不同活动的各个方面,以实现其目标。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

更全面的数据视图

讨论数据规约时,我们通常以单数形式来谈论数据,而不是通常使用的复数形式。例如,数据规约的一个方面是定义单个数据点的实际物理维度。

数据规约活动涉及大量数据科学。这类材料可能相当复杂,很难简明扼要地进行总结。这种困境催生了其自己的术语 – 可解释性,即具有平均智力水平的大众理解特定机器学习模型的能力。

掌握其中一些术语的含义可能会极具挑战,因为这是从近乎微观的角度观察到的数据。我们通常讨论的是“宏观”形式的数据,但在数据规约过程中,我们谈论的往往是最“微观”意义上的数据。更准确地说,针对这一主题的大多数探讨既需要宏观层面的讨论,也需要其他微观层面的讨论。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据规约的优势

当组织减少其存有的数据量时,公司通常可以通过减少存储空间带来的存储成本降低,实现显著的财务节省。

数据规约方法还具有其他优势,如提高数据效率。一旦完成数据规约,所产生的数据就更容易被人工智能 (AI) 方法以多种方式使用,包括可以大大简化决策任务的复杂数据分析应用程序。

例如,成功使用存储虚拟化时,它便有助于服务器和桌面环境之间的协调,提高其整体效率,并使其更加可靠。

数据规约工作在数据挖掘活动中发挥着关键作用。在挖掘数据并用于数据分析之前,数据必须尽可能干净整洁。

数据规约类型

以下是组织可以用来实现数据规约的一些方法。

减小维度

数据维数的概念是整个概念的基础。维数是指分配给单个数据集的属性(或功能)的数量。不过,这里需要权衡 – 维数越大,该数据集所需的数据存储空间就越大。此外,维数越高,数据就越容易变得稀疏,以至于必要的异常值分析变得复杂。

降维可以限制数据中的“噪音”,使数据更加可视化。小波变换方法就是降维技术的一个典型示例,它通过保持不同分辨率下物体之间的相对距离来帮助压缩图像。

功能提取是数据的另一种潜在转换 – 将原始数据转换为数字功能并与机器学习协同工作。它不同于主成分分析 (PCA),后者是另一种降低大型数据集维数的方法,将一组相当大的变量转换为一组较小的变量,同时保留较大数据集中的大部分数据。

数值规约

另一种方法是选择更小、数据密集度更低的格式来表示数据。数值规约有两种类型 – 基于参数方法和基于非参数方法。参数方法(如回归法)侧重于模型参数,而忽略了数据本身。同样,也可以采用对数线性模型,重点侧重数据中的子空间。而非参数方法(如直方图,可显示数值数据的分布方式)则完全不依赖模型。

数据立方体聚合

数据立方体是一种存储数据的可视化方式。实际上,“数据立方体”这个词几乎具有误导性,因为它隐含的单一性实际上是在描述一个由更小的、有组织的立方体组成的大型多维立方体。每个立方体都代表了该数据立方体中全部数据的某些层面,特别是有关测量和维度的数据块。因此,数据立方体聚合是将数据合并为多维立方体的可视格式,通过为此目的专门构建的唯一容器来缩减数据大小。

数据离散化

另一种用于数据规约的方法是数据离散化,即围绕一组确定的区间创建一组线性数据值,每个区间对应一个确定的数据值。

数据压缩

为了限制文件大小并成功实现数据压缩,可以使用各种类型的编码。一般来说,数据压缩技术可视为使用无损压缩或有损压缩,并根据这两种类型进行分组。在无损压缩中,通过编码技术和算法缩减数据大小,并在需要时恢复完整的原始数据。而有损压缩则使用其他方法进行压缩,虽然处理后的数据可能值得保留,但并不像无损压缩那样是一个精确的副本。

数据预处理

进行数据分析和数据规约之前,需要对一些数据进行清理、处理和加工。这种转换有一部分可能会涉及将数据从模拟性质转变为数字性质。分箱是数据预处理的另一个例子,利用中值对各类数据进行归一化处理,确保数据的全面完整性。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data