当使用不同的位置、格式或系统存储同一批数据的多个副本时,即可实现数据冗余。
在数据库管理中,有两种类型的数据冗余:有意和无意:
当系统无意中创建重复的数据时,就会出现无意的数据冗余,从而导致效率低下。例如,数据的冗余副本可能导致存储成本增加、数据分析出现差异,以及由于维护不必要的数据副本的过程非常耗时而导致性能下降。
有意的数据冗余提供了几个主要优势,它可以提高数据质量、安全性和可用性:
为了有效地实现有意的数据冗余,各个组织可以使用多种工具和技术,例如数据复制、RAID 配置和分布式文件系统:
独立磁盘冗余阵列 (RAID) 将多个硬盘驱动器组合成一个单元。这种数据存储技术提高了数据冗余和容错能力,即使在组件出现故障时,该系统也能继续运行。
例如,RAID 1 可以在两个驱动器之间镜像数据,有助于确保当一个驱动器出现故障时,数据仍然可用。RAID 配置在性能、存储容量和奇偶性方面取得了平衡,因此成为了具有大型数据集的环境的理想选择。
分布式文件系统 (DFS) 将数据存储在多个计算机或节点上,并自动复制数据,以帮助确保冗余和高可用性。这种容错架构意味着,当一个节点或磁盘发生故障时,仍然可以从其他节点访问数据,因此有助于确保不间断地访问数据。
数据复制涉及在不同的位置创建数据副本,以帮助确保数据可用性。它可以是实时(同步)的,也可以是延迟(异步)的。数据复制对于提供持续的数据访问至关重要,特别是在灾难恢复场景中。
无意的数据冗余会带来一些风险,可能影响数据质量、性能和安全性,例如:
为了解决无意的数据冗余问题,组织可以采用多种缓解策略,包括:
数据库规范化将数据组织到单独的相关字段中,以消除重复数据和减少冗余。这一过程有助于确保每一条数据只存储一次,因此提高了数据的完整性和一致性。它遵循一系列规则,通常分为第一范式、第二范式、第三范式和第四范式。
数据压缩可以消除重复的元素,以减小数据集的大小。该技术广泛应用于备份系统、网络传输和云存储,以优化存储空间和提高数据检索效率。
主数据管理 (MDM) 将重要业务数据整合到单一来源,因此提高了系统之间的数据一致性。它为客户、产品和员工等关键数据条目创建一个主记录,这样就消除了重复数据并减少了冗余。
数据链接使用数据库管理系统 (DBMS) 中的外键来创建数据字段之间的关系,从而减少冗余。例如,可以将客户数据存储在“客户”表中,并通过客户 ID 将订单链接到客户,以帮助确保数据的准确性和一致性。
数据冗余和数据恢复都可以解决数据丢失问题,但它们的用途不同。数据冗余通常被用作一种主动策略。它在多个位置中存储数据的冗余副本,以帮助确保高可用性并最大限度地减少停机时间。
而数据恢复是一个被动的过程。它会在数据损坏、意外删除或网络攻击等事件发生之后恢复数据。可以通过几种数据恢复方法检索丢失的数据并将系统恢复到以前的状态,包括:
了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。
IBM 在 2024 年 Gartner 数据集成工具魔力象限报告中连续第 19 年被评为领导者。
深入了解数据领导者指南,了解如何构建数据驱动型组织和推动业务优势。
了解为什么 AI 驱动的数据智能和数据集成对于推动结构化和非结构化数据的准备工作和加速实现 AI 成果至关重要。
简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能,包括优化工作负载的成本、扩展 AI 和分析,以及随时随地使用所有数据。
深入了解 IBM Research 如何定期整合到 IBM Cloud Pak for Data 的新功能中。
获得关于不断演变的 ABI 解决方案格局的独特洞察分析,重点介绍适用于数据和分析领导者的主要发现、假设和建议。