近年来,自助仓储单元呈爆炸式增长。这种大型仓库单元遍地开花,成为一个蓬勃发展的行业,原因只有一个,就是现在普通人拥有的物品过多,以至于无处安放。
同样的基本情况也困扰着 IT 界。我们正处于数据爆炸的时代。得益于物联网 (IoT) 功能,即使是相对简单的日常物品,现在也能自行定期生成数据。历史上从未有过如此多的数据被创建、收集和分析。历史上也从未有过如此多的数据管理人员为如何存储如此多的数据而苦恼。
一开始,公司可能没有认识到这个问题或者这个问题会变得有多大。等到问题严重时,公司才不得不扩大存储空间。随着时间推移,更大的存储系统也不够用了,公司不得不继续增加投入。面对这种无休止的扩容,公司自然会寻求更经济、更简单的解决方案,数据去重就是其中一种。
尽管许多组织将数据去重技术作为其数据管理系统的一部分,但真正了解数据去重过程的本质及其作用的组织却不多。因此,让我们揭开数据去重的神秘面纱,并阐明数据去重的工作原理。
首先,让我们明确这里要讨论的主要概念。数据去重是组织通过消除数据的冗余副本来简化其数据持有并减少存档数据量的过程。
此外,应该指出的是,当我们谈论冗余数据时,实际上是指在文件层面上,数据文件数量急剧增加的情况。因此,当我们讨论数据去重工作时,实际上需要的是一个文件去重系统。
有些人对数据的本质持有不正确的观念,将其视为一种商品,只是为了被收集和利用而存在,就像自家后院树上的苹果一样。
事实是,每个新的数据文件都要花钱。首先,获取此类数据(比如通过购买数据列表)通常需要花钱。或者,即使是组织自己有机地产生和收集的数据,组织也需要投入大量资金才能收集和获取这些数据。因此,数据集是一种投资,与任何有价值的投资一样,数据集必须受到严格保护。
在这里,我们讨论的是必须购买或租赁的数据存储空间,它可以是本地硬件服务器,或者是云存储 - 通过基于云的数据中心获得。
除了与主存储系统及其存储空间相关的成本之外,重复的数据(即已经复制的数据)还会要求额外的存储成本,因此利润会降低。简而言之,组织必须投入更多的存储介质资产来容纳新数据和已存储的数据。在公司的发展过程中,重复数据很容易成为财务负担。
总而言之,数据去重的主要目标是通过减少组织在额外存储上的支出来节省资金。
除了节约存储空间,公司采用数据去重解决方案还有其他原因,但可能没有比数据保护和增强更重要的原因。组织精简和优化去重的数据工作负载,使其比包含大量重复文件的数据运行得更高效。
数据去重的另一个重要方面是它如何帮助快速成功地实现灾难恢复,并尽量减少此类事件通常造成的数据丢失量。数据去重有助于实现强健的备份流程,使组织的备份系统能够胜任处理备份数据的任务。除了帮助进行完整备份外,数据去重还有助于保留数据。
数据去重还有一个好处,那就是它可以很好地与虚拟桌面基础设施 (VDI) 部署配合使用,这是因为 VDI 远程桌面背后的虚拟硬盘以相同的方式运行。热门的桌面即服务 (DaaS) 产品包括微软的 Azure Virtual Desktop 及其 Windows VDI。此类产品会在服务器虚拟化过程中创建虚拟机 (VM)。反过来,这些虚拟机也为 VDI 技术提供了强大支持。
最常用的数据去重形式是数据块去重。这种方法使用自动化功能识别数据块中的重复内容,然后将其删除。通过数据块层面的处理,我们可以分析出唯一的数据块,并将其指定为值得验证和保存的数据块。然后,当去重软件检测到相同数据块的副本时,就会删除该副本,并在其位置放置对原始数据的引用。
这是数据去重的主要形式,但并非唯一方法。在其他用例中,数据去重的另一种方法是在文件级别进行操作。单实例存储会比较文件服务器内数据的完整副本,而不是比较数据块。与对应的方法一样,文件去重也是将原始文件保留在文件系统内,并删除多余的副本。
需要注意的是,数据去重技术的工作方式与数据压缩算法(如 LZ77、LZ78)并不完全相同,尽管两者都追求减少数据冗余这一总体目标。与压缩算法相比,去重技术能在更大的宏观范围内实现这一目标,因为压缩算法的重点不是用共享副本替换相同文件,而是对冗余数据进行更高效的编码。
数据去重有多种类型,具体取决于去重流程发生的时间:
这里值得解释的是,这两种类型的数据去重都会受到数据去重固有的哈希计算的影响。这类加密计算对于识别数据中的重复模式不可或缺。在内联去重过程中,这类计算均为瞬间进行,可能会占据主导地位,暂时压倒计算机的功能。在后处理去重过程中,哈希计算可以在添加数据后的任何时间进行,只要不对组织的计算机资源造成过重负担即可。
去重类型之间的细微差别还不止于此。对数据去重进行分类的另一种方法是基于此类流程发生的位置。
由于存在不同类型的去重,因此眼光长远的组织必须对所选择的去重类型做出谨慎和深思熟虑的决定,并在方法和公司的特定需求之间取得平衡。
在很多用例中,组织对去重方法的选择很可能取决于各种内部因素,例如:
就像所有计算机技术一样,数据去重将越来越多地应用人工智能 (AI)。去重技术将变得越来越复杂,能够识别越来越细微的差异,从而帮助它在扫描数据块时寻找冗余模式。
数据去重的一个新兴趋势是强化学习。它采用奖励和惩罚系统(就像强化训练一样),并应用最佳策略来分离记录或合并记录。
另一个值得关注的趋势是使用集成方法,通过将不同模型或算法结合起来,确保数据去重过程实现更高的准确度。
IT 界越来越关注数据激增这一持续存在的问题,以及如何解决这一问题。许多公司发现自己处于一个尴尬的境地:既希望保留他们辛苦积累的所有数据,又希望把不断增长的新数据塞进任何可能的存储容器中,哪怕只是为了腾出空间。
只要这种困境持续存在,组织就会越来越重视数据去重工作,因为相较于不断购买新的存储空间,数据去重无疑是一种更经济的选择。因为最终,虽然我们都知道企业离不开数据,但我们也知道数据往往需要去重。