数据去重是一种精简过程,通过消除相同信息的多余副本来减少冗余数据。数据去重(或通常缩写为“dedupe”)的目标是减少组织持续的存储需求。
各组织可以执行数据去重流程和技术,确保其存储系统中只存在一个唯一的数据实例。删除重复或冗余数据,并将用户指向数据的单一实例。
数据去重成功之后,便可提高组织的整体存储利用率,并有助于降低成本。
那么,公司为什么会创建重复数据呢?可能是因为一个或多个合理的原因,包括:
数据重复的另一个主要原因是,这是大多数多部门组织中的常见现象。数据的定期创建或重新创建,是在现代背景下开展业务的一项公认的有机功能。因此,数据创建或复制并非真正的问题,过度的数据激增才是真正的问题。
如果没有与之相关的额外经济负担,数据激增似乎就不是什么问题了。组织可以选择将数据存储在其 IT 架构内的各个位置,而不必关注这些冗余。
但事实是,公司确实会因为需要额外的存储成本来维护大量数据冗余而遭受经济损失。无法停止创建数据冗余的组织需要分配更多的人力和预算以实施新的存储解决方案和数据管理,无论是基于新硬件购买还是增加云存储。
数据去重技术最明显的优势,在于删除无关数据可以减少组织必须存储和管理的数据总量。通过减少数据占用的存储空间,可以有效提升组织的存储能力。
除了降低存储成本之外,数据去重还具有其他主要优势,例如推动数据备份计划和支持紧急措施,保障灾难恢复。
另一个优势是通过删除"无效"数据并确保剩余数据经过适当清理,从而重塑数据完整性。经过去重的数据,运行效果更好,能耗更低。
数据去重的另一个优势,在于可以很好地与虚拟桌面基础设施 (VDI) 部署配合使用,这要归功于 VDI 远程桌面背后相同的的虚拟硬盘运行方式。热门的桌面即服务 (DaaS) 产品包括微软的 Azure Virtual Desktop 及其 Windows VDI。此类产品会在服务器虚拟化过程中创建虚拟机 (VM)。此外,这些虚拟机也增强了 VDI 技术。
最基本的层面上,数据去重通过自动化功能识别数据块中的重复内容,然后将其删除。通过在此数据块层面执行,可以针对唯一的数据块进行分析,并指定值得保存的数据块。然后,当去重软件检测到相同的数据块副本时,就会删除该副本,并在其位置放置原始数据的参考。
数据去重的另一种方法是在文件级别进行操作。单实例数据存储会比较文件系统内数据的完整副本,但不会比较数据块。与同类方法一样,文件去重也依赖于保留原始文件并删除多余副本。
去重技术的工作方式与数据压缩算法(如 LZ77、LZ78)不尽相同,尽管两者都追求减少数据冗余的总体目标。与压缩算法相比,去重技术能在更大的宏观范围内实现这一目标,因为压缩算法的目标不是用共享副本替换相同文件,而是对冗余数据进行有效编码。
数据去重有两种基本类型,具体取决于流程发生的时间。
数据在系统内流动时,将实时进行这种形式的数据去重。由于系统既不传输也不存储重复数据,因此承载的数据流量较小。这可以降低组织所需的总带宽量。
这种类型的去重发生在数据写入并放置到某种类型的存储设备之后。
这两种类型的数据去重都会受到数据去重固有的哈希计算的影响。这类加密计算对于识别数据中的重复模式不可或缺。在内联去重过程中,这类计算均为瞬间进行,可能会占据主导地位,暂时压倒计算机的功能。后处理去重过程中,哈希计算可在添加数据后的任何时间进行。
去重类型之间的细微差别还不止于此。对去重类型进行分类的第二种方法,是根据此类流程的发生位置 进行分类。
这种形式的去重会在新数据生成的位置附近进行。系统会扫描该区域并检测文件的新副本,然后将其删除。
目标去重基本上是源去重的倒置。在目标去重中,系统会删除在原始数据创建位置以外区域发现的任何重复副本。
由于存在不同类型的去重方法,因此眼光长远的组织必须对所选择的去重类型做出谨慎和深思熟虑的决定,并在方法和公司的特定需求之间取得平衡。
在很多用例中,组织选择的去重方法很可能就归因于各种内部变量,例如:
IBM Storage DS8000 是适用于 IBM zSystems 和 IBM Power 服务器的最快速、最可靠、最安全的存储系统。
IBM Storage 是一个产品系列,包括数据存储硬件、软件定义存储和存储管理软件。
IBM 为 Web 服务器和数据中心基础设施提供主动支持,可减少停机时间并提高 IT 可用性。