主页
topics
数据缩减
发布日期:2024 年 1 月 18 日
撰稿人:Phill Powell、Ian Smalley
数据规约是组织着手限制其存储的数据量的过程。
了解采用 AI 的障碍,特别是缺乏 AI 治理和风险管理解决方案。
讨论数据规约时,我们通常以单数形式来谈论数据,而不是通常使用的复数形式。例如,数据规约的一个方面是定义单个数据点的实际物理维度。
数据规约活动涉及大量数据科学。这类材料可能相当复杂,很难简明扼要地进行总结。这种困境催生了其自己的术语 – 可解释性,即具有平均智力水平的大众理解特定机器学习模型的能力。
掌握其中一些术语的含义可能会极具挑战,因为这是从近乎微观的角度观察到的数据。我们通常讨论的是“宏观”形式的数据,但在数据规约过程中,我们谈论的往往是最“微观”意义上的数据。更准确地说,针对这一主题的大多数探讨既需要宏观层面的讨论,也需要其他微观层面的讨论。
以下是组织可以用来实现数据规约的一些方法。
数据维数的概念是整个概念的基础。维数是指分配给单个数据集的属性(或功能)的数量。不过,这里需要权衡 – 维数越大,该数据集所需的数据存储空间就越大。此外,维数越高,数据就越容易变得稀疏,以至于必要的异常值分析变得复杂。
降维可以限制数据中的“噪音”,使数据更加可视化。小波变换方法就是降维技术的一个典型示例,它通过保持不同分辨率下物体之间的相对距离来帮助压缩图像。
功能提取是数据的另一种潜在转换 – 将原始数据转换为数字功能并与机器学习协同工作。它不同于主成分分析 (PCA),后者是另一种降低大型数据集维数的方法,将一组相当大的变量转换为一组较小的变量,同时保留较大数据集中的大部分数据。
另一种方法是选择更小、数据密集度更低的格式来表示数据。数值规约有两种类型 – 基于参数方法和基于非参数方法。参数方法(如回归法)侧重于模型参数,而忽略了数据本身。同样,也可以采用对数线性模型,重点侧重数据中的子空间。而非参数方法(如直方图,可显示数值数据的分布方式)则完全不依赖模型。
数据立方体是一种存储数据的可视化方式。实际上,“数据立方体”这个词几乎具有误导性,因为它隐含的单一性实际上是在描述一个由更小的、有组织的立方体组成的大型多维立方体。每个立方体都代表了该数据立方体中全部数据的某些层面,特别是有关测量和维度的数据块。因此,数据立方体聚合是将数据合并为多维立方体的可视格式,通过为此目的专门构建的唯一容器来缩减数据大小。
另一种用于数据规约的方法是数据离散化,即围绕一组确定的区间创建一组线性数据值,每个区间对应一个确定的数据值。
为了限制文件大小并成功实现数据压缩,可以使用各种类型的编码。一般来说,数据压缩技术可视为使用无损压缩或有损压缩,并根据这两种类型进行分组。在无损压缩中,通过编码技术和算法缩减数据大小,并在需要时恢复完整的原始数据。而有损压缩则使用其他方法进行压缩,虽然处理后的数据可能值得保留,但并不像无损压缩那样是一个精确的副本。
进行数据分析和数据规约之前,需要对一些数据进行清理、处理和加工。这种转换有一部分可能会涉及将数据从模拟性质转变为数字性质。分箱是数据预处理的另一个例子,利用中值对各类数据进行归一化处理,确保数据的全面完整性。
借助 IBM FlashSystem 存储为您的组织和环境创造双赢的局面。消耗更少的能源并节省成本,同时减少公司的碳排放量。
试想一个支持本地数据中心和云数据中心之间或各个云数据中心之间的镜像的解决方案。IBM Spectrum Virtualize for Public Cloud 还有助于执行灾难恢复策略。
利用 IBM Storage as-a-Service 实现一箭双雕。从 IBM 提供和管理的本地部署硬件着手。再加上类似云技术且基于消费的定价模型,实现灵活组合。
深入了解 FlashSystems,该产品由使用对称虚拟化的 IBM Spectrum Virtualize Software 提供支持。
能源成本和数据似乎都在以指数速度增长。企业在努力应对这种昂贵的现实时,需要可信赖的节能存储。
数据规约估算器工具 (DRET) 是一个基于主机的命令行实用程序,用于估算块设备上的数据规约节省。
了解为什么许多组织依赖数据整合工具来处理其数据仓库。
了解数据存储的基础知识,包括存储设备类型和不同的数据存储格式。
闪存存储解决方案的范围涵盖 USB 驱动器到企业级阵列。了解其工作原理。