什么是数据规约？| IBM

发布日期：2024 年 1 月 18 日
撰稿人：Phill Powell、Ian Smalley

什么是数据规约？

数据规约是组织着手限制其存储的数据量的过程。

数据规约技术旨在减少原始数据集中的冗余，以便大量原始数据能够更有效地存储为缩减数据。

首先应该强调的是，“数据规约”一词不是自动等同于丢失信息。很多情况下，数据规约仅意味着数据现在以更智能的方式进行存储 – 也许已经过优化过程，并以更实际的配置与相关数据重新组合。

数据规约与数据去重也不是一回事，后者是为了精简目的而清除相同数据的多余副本。更准确地说，数据规约结合了数据去重和数据整合等不同活动的各个方面，以实现其目标。

为什么 AI 治理是扩展企业 AI 的当务之急

了解采用 AI 的障碍，特别是缺乏 AI 治理和风险管理解决方案。

相关内容

注册以获取有关基础模型的指南

更全面的数据视图

讨论数据规约时，我们通常以单数形式来谈论数据，而不是通常使用的复数形式。例如，数据规约的一个方面是定义单个数据点的实际物理维度。

数据规约活动涉及大量数据科学。这类材料可能相当复杂，很难简明扼要地进行总结。这种困境催生了其自己的术语 – 可解释性，即具有平均智力水平的大众理解特定机器学习模型的能力。

掌握其中一些术语的含义可能会极具挑战，因为这是从近乎微观的角度观察到的数据。我们通常讨论的是“宏观”形式的数据，但在数据规约过程中，我们谈论的往往是最“微观”意义上的数据。更准确地说，针对这一主题的大多数探讨既需要宏观层面的讨论，也需要其他微观层面的讨论。

数据规约的优势

当组织减少其存有的数据量时，公司通常可以通过减少存储空间带来的存储成本降低，实现显著的财务节省。

数据规约方法还具有其他优势，如提高数据效率。一旦完成数据规约，所产生的数据就更容易被人工智能 (AI) 方法以多种方式使用，包括可以大大简化决策任务的复杂数据分析应用程序。

例如，成功使用存储虚拟化时，它便有助于服务器和桌面环境之间的协调，提高其整体效率，并使其更加可靠。

数据规约工作在数据挖掘活动中发挥着关键作用。在挖掘数据并用于数据分析之前，数据必须尽可能干净整洁。

数据规约类型

以下是组织可以用来实现数据规约的一些方法。

减小维度

数据维数的概念是整个概念的基础。维数是指分配给单个数据集的属性（或功能）的数量。不过，这里需要权衡 – 维数越大，该数据集所需的数据存储空间就越大。此外，维数越高，数据就越容易变得稀疏，以至于必要的异常值分析变得复杂。

降维可以限制数据中的“噪音”，使数据更加可视化。小波变换方法就是降维技术的一个典型示例，它通过保持不同分辨率下物体之间的相对距离来帮助压缩图像。

功能提取是数据的另一种潜在转换 – 将原始数据转换为数字功能并与机器学习协同工作。它不同于主成分分析 (PCA)，后者是另一种降低大型数据集维数的方法，将一组相当大的变量转换为一组较小的变量，同时保留较大数据集中的大部分数据。

数值规约

另一种方法是选择更小、数据密集度更低的格式来表示数据。数值规约有两种类型 – 基于参数方法和基于非参数方法。参数方法（如回归法）侧重于模型参数，而忽略了数据本身。同样，也可以采用对数线性模型，重点侧重数据中的子空间。而非参数方法（如直方图，可显示数值数据的分布方式）则完全不依赖模型。

数据立方体聚合

数据立方体是一种存储数据的可视化方式。实际上，“数据立方体”这个词几乎具有误导性，因为它隐含的单一性实际上是在描述一个由更小的、有组织的立方体组成的大型多维立方体。每个立方体都代表了该数据立方体中全部数据的某些层面，特别是有关测量和维度的数据块。因此，数据立方体聚合是将数据合并为多维立方体的可视格式，通过为此目的专门构建的唯一容器来缩减数据大小。

数据离散化

另一种用于数据规约的方法是数据离散化，即围绕一组确定的区间创建一组线性数据值，每个区间对应一个确定的数据值。

数据压缩

为了限制文件大小并成功实现数据压缩，可以使用各种类型的编码。一般来说，数据压缩技术可视为使用无损压缩或有损压缩，并根据这两种类型进行分组。在无损压缩中，通过编码技术和算法缩减数据大小，并在需要时恢复完整的原始数据。而有损压缩则使用其他方法进行压缩，虽然处理后的数据可能值得保留，但并不像无损压缩那样是一个精确的副本。

数据预处理

进行数据分析和数据规约之前，需要对一些数据进行清理、处理和加工。这种转换有一部分可能会涉及将数据从模拟性质转变为数字性质。分箱是数据预处理的另一个例子，利用中值对各类数据进行归一化处理，确保数据的全面完整性。