标签

什么是数据冗余？

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据冗余？

当使用不同的位置、格式或系统存储同一批数据的多个副本时，即可实现数据冗余。

尽管无意的数据冗余可能导致效率低下，例如导致存储成本增加和数据不一致，但有意的数据冗余是有效数据管理的一个核心组成部分。如今，随着各个组织管理大型数据集和不断增加的数据量，数据冗余变得尤为重要。数据的冗余副本通常是数据库设计和架构的核心，有助于确保高可用性、数据完整性和一致性。

有意的数据冗余在灾难恢复中也发挥着关键的作用。例如，在 2024 年，数据泄露平均对相应的公司造成了 488 万美元的损失。当数据损坏或硬件出现故障时，冗余数据副本至关重要，因为它们提供了可靠的备份。然而，数据冗余和数据恢复虽然都侧重于防止数据丢失，但冗余优先考虑数据的可用性和连续性，而恢复注重于恢复。

有意与无意的数据冗余

在数据库管理中，有两种类型的数据冗余：有意和无意：

有意

各个组织有意实施数据冗余，以提高系统可用性并防止数据丢失。有意的数据冗余有助于确保系统在硬件出现故障时仍然继续运行，从而提高数据一致性并满足高可用性需求。这些优势使它在关系数据库管理系统 (DBMS) 和数据仓库中特别重要。

无意

当系统无意中创建重复的数据时，就会出现无意的数据冗余，从而导致效率低下。例如，数据的冗余副本可能导致存储成本增加、数据分析出现差异，以及由于维护不必要的数据副本的过程非常耗时而导致性能下降。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

有意的数据冗余的优势

有意的数据冗余提供了几个主要优势，它可以提高数据质量、安全性和可用性：

数据完整性：数据的冗余副本可以帮助系统从错误、硬件故障或差异中恢复。如果一段数据损坏，系统可以快速访问另一个副本中的干净、未损坏的版本，从而改善数据访问和正常运行时间。
数据一致性：关键数据的同步副本有助于维护所有数据副本的更新，防止出现数据不一致。这在云存储或企业资源规划 (ERP) 系统等需要极高数据一致性的环境中尤为重要。
数据安全：冗余数据副本可以防止数据损坏、丢失或泄露。在不同的位置或存储系统中存储数据有助于确保当一个系统遭到入侵时，仍然可以从另一个安全的来源访问这些数据。
运营效率：有意的数据冗余可以减少停机时间，从而提高运营效率。借助冗余数据副本，即使发生硬件故障或中断，企业也可以保持数据访问和生产力。

适用于有意的数据冗余的工具和技术

为了有效地实现有意的数据冗余，各个组织可以使用多种工具和技术，例如数据复制、RAID 配置和分布式文件系统：

RAID 配置

独立磁盘冗余阵列 (RAID) 将多个硬盘驱动器组合成一个单元。这种数据存储技术提高了数据冗余和容错能力，即使在组件出现故障时，该系统也能继续运行。

例如，RAID 1 可以在两个驱动器之间镜像数据，有助于确保当一个驱动器出现故障时，数据仍然可用。RAID 配置在性能、存储容量和奇偶性方面取得了平衡，因此成为了具有大型数据集的环境的理想选择。

分布式文件系统

分布式文件系统 (DFS) 将数据存储在多个计算机或节点上，并自动复制数据，以帮助确保冗余和高可用性。这种容错架构意味着，当一个节点或磁盘发生故障时，仍然可以从其他节点访问数据，因此有助于确保不间断地访问数据。

数据复制

数据复制涉及在不同的位置创建数据副本，以帮助确保数据可用性。它可以是实时（同步）的，也可以是延迟（异步）的。数据复制对于提供持续的数据访问至关重要，特别是在灾难恢复场景中。

无意的数据冗余的风险

无意的数据冗余会带来一些风险，可能影响数据质量、性能和安全性，例如：

存储成本增加：在多个系统或位置中存储数据冗余副本会导致对存储空间的需求增大。这样会使存储成本上涨，尤其是在云环境中，因为云环境通常根据数据存储使用量来定价。
数据不一致：当未正确同步数据更新或删除操作时，可能会出现不一致。这些差异会导致信息检索和数据分析错误，因此损害系统的完整性并导致不正确的报告或决策。
数据损坏和丢失：冗余数据副本如果管理不当，会导致数据损坏的风险增大。例如，如果未检测到损坏并在所有数据副本中复制了损坏，将会影响整个数据集。复制或备份过程不充分也可能导致关键数据容易丢失。
性能下降：尽管复制有助于确保数据一致性，但在多个副本之间进行更新时也会产生延迟。这样可能降低数据检索速度，尤其是在处理大型数据集或大量交易的系统中。
安全性和合规性风险：冗余数据增加了潜在漏洞的数量，导致系统更容易受到网络攻击。数据的多个副本还可能违反《通用数据保护条例》(GDPR) 和《加州消费者隐私法案》(CCPA) 等法规中的数据最小化原则。

无意的数据冗余的缓解策略

为了解决无意的数据冗余问题，组织可以采用多种缓解策略，包括：

数据库规范化

数据库规范化将数据组织到单独的相关字段中，以消除重复数据和减少冗余。这一过程有助于确保每一条数据只存储一次，因此提高了数据的完整性和一致性。它遵循一系列规则，通常分为第一范式、第二范式、第三范式和第四范式。

重复数据删除

重复数据删除可以在系统之间识别并移除重复数据，只为每个数据条目存储一个单一实例。这通常适用于数据中心和云存储环境，以优化存储空间和减少冗余问题。

数据压缩

数据压缩可以消除重复的元素，以减小数据集的大小。该技术广泛应用于备份系统、网络传输和云存储，以优化存储空间和提高数据检索效率。

Master Data Management

主数据管理 (MDM) 将重要业务数据整合到单一来源，因此提高了系统之间的数据一致性。它为客户、产品和员工等关键数据条目创建一个主记录，这样就消除了重复数据并减少了冗余。

数据链接

数据链接使用数据库管理系统 (DBMS) 中的外键来创建数据字段之间的关系，从而减少冗余。例如，可以将客户数据存储在“客户”表中，并通过客户 ID 将订单链接到客户，以帮助确保数据的准确性和一致性。

数据冗余与数据恢复

数据冗余和数据恢复都可以解决数据丢失问题，但它们的用途不同。数据冗余通常被用作一种主动策略。它在多个位置中存储数据的冗余副本，以帮助确保高可用性并最大限度地减少停机时间。

而数据恢复是一个被动的过程。它会在数据损坏、意外删除或网络攻击等事件发生之后恢复数据。可以通过几种数据恢复方法检索丢失的数据并将系统恢复到以前的状态，包括：

数据备份：定期备份将数据副本与主系统分开存储，通常存储在外部存储空间或云环境中。这些备份对灾难恢复至关重要，有助于确保在发生故障或损坏时恢复数据。
快照：快照可以创建数据的时间点副本，并捕获数据在拍摄快照时的精确状态。该技术可以帮助在虚拟化环境中快速检索数据，还有助于灾难恢复，而无需进行完整备份。
持续数据保护：持续数据保护 (CDP) 系统会跟踪区块级别的数据变化，有助于确保只更新修改后的数据块。CDP 系统实时运行以保留最新的数据，并具有重复数据删除功能，以减少不必要的数据副本，从而优化存储空间。