什么是数据规约?
深入了解我们的 AI 平台 订阅 AI 最新消息
服务器机房里的人

发布日期:2024 年 1 月 18 日
撰稿人:Phill Powell、Ian Smalley

什么是数据规约?

数据规约是组织着手限制其存储的数据量的过程。

数据规约技术旨在减少原始数据集中的冗余,以便大量原始数据能够更有效地存储为缩减数据。

首先应该强调的是,“数据规约”一词不是自动等同于丢失信息。很多情况下,数据规约仅意味着数据现在以更智能的方式进行存储 – 也许已经过优化过程,并以更实际的配置与相关数据重新组合。

数据规约与数据去重也不是一回事,后者是为了精简目的而清除相同数据的多余副本。更准确地说,数据规约结合了数据去重和数据整合等不同活动的各个方面,以实现其目标。

为什么 AI 治理是扩展企业 AI 的当务之急

了解采用 AI 的障碍,特别是缺乏 AI 治理和风险管理解决方案。

相关内容

注册以获取有关基础模型的指南

更全面的数据视图

讨论数据规约时,我们通常以单数形式来谈论数据,而不是通常使用的复数形式。例如,数据规约的一个方面是定义单个数据点的实际物理维度。

数据规约活动涉及大量数据科学。这类材料可能相当复杂,很难简明扼要地进行总结。这种困境催生了其自己的术语 – 可解释性,即具有平均智力水平的大众理解特定机器学习模型的能力。

掌握其中一些术语的含义可能会极具挑战,因为这是从近乎微观的角度观察到的数据。我们通常讨论的是“宏观”形式的数据,但在数据规约过程中,我们谈论的往往是最“微观”意义上的数据。更准确地说,针对这一主题的大多数探讨既需要宏观层面的讨论,也需要其他微观层面的讨论。

数据规约的优势

当组织减少其存有的数据量时,公司通常可以通过减少存储空间带来的存储成本降低,实现显著的财务节省。

数据规约方法还具有其他优势,如提高数据效率。一旦完成数据规约,所产生的数据就更容易被人工智能 (AI) 方法以多种方式使用,包括可以大大简化决策任务的复杂数据分析应用程序。

例如,成功使用存储虚拟化时,它便有助于服务器和桌面环境之间的协调,提高其整体效率,并使其更加可靠。

数据规约工作在数据挖掘活动中发挥着关键作用。在挖掘数据并用于数据分析之前,数据必须尽可能干净整洁。

数据规约类型

以下是组织可以用来实现数据规约的一些方法。

减小维度

数据维数的概念是整个概念的基础。维数是指分配给单个数据集的属性(或功能)的数量。不过,这里需要权衡 – 维数越大,该数据集所需的数据存储空间就越大。此外,维数越高,数据就越容易变得稀疏,以至于必要的异常值分析变得复杂。

降维可以限制数据中的“噪音”,使数据更加可视化。小波变换方法就是降维技术的一个典型示例,它通过保持不同分辨率下物体之间的相对距离来帮助压缩图像。

功能提取是数据的另一种潜在转换 – 将原始数据转换为数字功能并与机器学习协同工作。它不同于主成分分析 (PCA),后者是另一种降低大型数据集维数的方法,将一组相当大的变量转换为一组较小的变量,同时保留较大数据集中的大部分数据。

数值规约

另一种方法是选择更小、数据密集度更低的格式来表示数据。数值规约有两种类型 – 基于参数方法和基于非参数方法。参数方法(如回归法)侧重于模型参数,而忽略了数据本身。同样,也可以采用对数线性模型,重点侧重数据中的子空间。而非参数方法(如直方图,可显示数值数据的分布方式)则完全不依赖模型。

数据立方体聚合

数据立方体是一种存储数据的可视化方式。实际上,“数据立方体”这个词几乎具有误导性,因为它隐含的单一性实际上是在描述一个由更小的、有组织的立方体组成的大型多维立方体。每个立方体都代表了该数据立方体中全部数据的某些层面,特别是有关测量和维度的数据块。因此,数据立方体聚合是将数据合并为多维立方体的可视格式,通过为此目的专门构建的唯一容器来缩减数据大小。

数据离散化

另一种用于数据规约的方法是数据离散化,即围绕一组确定的区间创建一组线性数据值,每个区间对应一个确定的数据值。

数据压缩

为了限制文件大小并成功实现数据压缩,可以使用各种类型的编码。一般来说,数据压缩技术可视为使用无损压缩或有损压缩,并根据这两种类型进行分组。在无损压缩中,通过编码技术和算法缩减数据大小,并在需要时恢复完整的原始数据。而有损压缩则使用其他方法进行压缩,虽然处理后的数据可能值得保留,但并不像无损压缩那样是一个精确的副本。

数据预处理

进行数据分析和数据规约之前,需要对一些数据进行清理、处理和加工。这种转换有一部分可能会涉及将数据从模拟性质转变为数字性质。分箱是数据预处理的另一个例子,利用中值对各类数据进行归一化处理,确保数据的全面完整性。

相关解决方案
借助 IBM® FlashSystem 实现存储可持续发展

借助 IBM FlashSystem 存储为您的组织和环境创造双赢的局面。消耗更少的能源并节省成本,同时减少公司的碳排放量。

深入了解利用 IBM FlashSystem 的存储可持续发展

IBM Spectrum Virtualize for Public Cloud

试想一个支持本地数据中心和云数据中心之间或各个云数据中心之间的镜像的解决方案。IBM Spectrum Virtualize for Public Cloud 还有助于执行灾难恢复策略。

深入了解 IBM Spectrum Virtualize for Public Cloud

IBM Storage-as-a-Service

利用 IBM Storage as-a-Service 实现一箭双雕。从 IBM 提供和管理的本地部署硬件着手。再加上类似云技术且基于消费的定价模型,实现灵活组合。

深入了解 IBM Storage-as-a-Service
资源 IBM FlashSystem 产品导览

深入了解 FlashSystems,该产品由使用对称虚拟化的 IBM Spectrum Virtualize Software 提供支持。

观看可持续存储网络研讨会

能源成本和数据似乎都在以指数速度增长。企业在努力应对这种昂贵的现实时,需要可信赖的节能存储。

IBM 数据规约估算器工具

数据规约估算器工具 (DRET) 是一个基于主机的命令行实用程序,用于估算块设备上的数据规约节省。

什么是数据整合?

了解为什么许多组织依赖数据整合工具来处理其数据仓库。

什么是数据存储?

了解数据存储的基础知识,包括存储设备类型和不同的数据存储格式。

什么是闪存存储?

闪存存储解决方案的范围涵盖 USB 驱动器到企业级阵列。了解其工作原理。

采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai 预约实时演示