什么是数据完整性?

成熟的商务人士在办公室的办公桌前检查文件

作者

Tim Mucci

IBM Writer

Gather

Cole Stryker

Staff Editor, AI Models

IBM Think

什么是数据完整性?

数据完整性是指保证组织的数据在其生命周期的任何阶段都是准确、完整和一致的。保持数据完整性需要保护组织的数据免遭丢失、泄露和破坏性影响。

组织依靠干净的数据来进行决策、预测消费者行为、评估市场趋势和防止数据泄露。随着组织内部数据量的激增,且这些数据会用于制定公司未来的决策,最大限度地提高数据完整性变得越来越重要。

为了实现数据完整性,组织必须遵守包括错误检查、验证程序和严格的安全措施(如加密、访问控制和备份)在内的流程。数据完整性的目标是帮助确保数据分析基于 GDPR 等监管框架支持的可靠信息,并保护敏感信息免受未经授权的访问或利用。

数据完整性不仅限于单个工具或平台,而是一种全面的方法,需要组织的技术基础设施、政策以及使用数据系统的个人做出集体努力,以确保数据始终是一种可靠的资产。

为什么数据完整性十分重要?

数据完整性类似于传统产品导向型业务中的质量控制,可确保原材料正确、安全并适合预期用途。

在业务分析、客户交互和合规方面对良好数据的依赖凸显了整个组织数据完整性的重要性。“垃圾进,垃圾出”这句格言在使用数据为合理的业务决策提供信息、公平正确地对待客户以及促进符合行业法规的准确业务报告时具有高度相关性。糟糕的数据一旦投入生产,就会导致不理想的结果。

组织需要在整个生命周期中保持数据的完备性、准确性、一致性和安全性。数据完整性有助于提高数据完备性,因为它能保持所有数据元素完好无损、不被篡改、截断或丢失,并能防止可能扭曲分析和破坏一致测试条件的更改。如果没有数据完整性流程,无论访问模式如何,组织都无法验证未来的数据是否与过去的数据相匹配。此外,数据完整性通过身份验证、授权、加密和全面的数据保护策略(包括备份和访问日志记录)控制访问并防止未经授权的利用,从而增强数据安全

除了决策之外,数据完整性对于保护数据主体的个人信息和敏感信息也至关重要。处理客户数据时的错误无论是人为错误还是网络攻击,都可能导致隐私和信任违规、个人失实陈述,并可能导致严重的声誉受损。对于不太敏感的第一方数据来说也是如此,不准确的数据可能会扭曲公司对用户的理解和对待,对用户融入潮流趋势以及与品牌的互动造成影响。因此,保持数据完整性不仅是合规或运营问题,而且是一项战略要务,会影响组织与客户关系的各个方面及其市场地位。

五种类型的数据完整性

数据完整性的核心概念是确保数据集对于核心业务分析目的的可用性。它支持数据的稳定性、性能、可恢复性和数据的安全性。

问题在于,数据可能以各种方式受到损害:人为错误、意外的传输错误、病毒、软件错误、恶意软件、黑客攻击、硬件损坏和设备物理损坏。组织可以通过使用完整性约束和定义数据处理规则和程序来实现完整性。完整性约束包括删除、插入和更改信息等操作,这允许在企业资源规划 (ERP) 数据库、客户关系管理 (CRM) 系统和供应链管理系统等通用系统中实施完整性。

五种类型的数据完整性有助于组织验证和维护其数据质量:

实体完整性

关系数据库系统的一个特性是将数据存储在表中,可以通过多种方式使用和链接。实体完整性依赖于为标识数据而创建的唯一键和值,从而确保不会多次列出相同的数据并正确填充表字段。

物理完整性

在存储和检索数据时保护数据的准确性、正确性和完整性。断电、存储侵蚀、黑客攻击和自然灾害都可能破坏物理完整性。

参照完整性

确保数据统一存储和使用的一系列流程。数据库结构包含一些规则,这些规则强制要求链接表中存在匹配记录,防止出现孤立记录,并保持整个数据库数据的一致性。

域完整性

域由表中各列的一组特定值定义,包括管理可输入的数量、格式和数据的限制和规则。域完整性有助于确保域内数据元素的精确性。

用户定义的完整性

用户创建与数据有关的规则和约束条件,旨在符合其独有的规范。这种方法一般与其他不能保证数据安全可靠的流程一起使用。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据完整性、数据质量和数据安全之间的区别

数据完整性、数据质量和数据安全是管理企业数据的基本概念,并且经常被错误地互换使用。

数据质量侧重于基于准确性、完整性、唯一性和及时性等因素的数据状况。

数据安全涉及保护数据,防止未经授权的访问、数据泄露和其他形式的不当行为。它包括为在整个生命周期中保护数据而部署的技术、策略和实践,确保只有授权人员才能访问敏感信息,以维护机密性和信任。

数据完整性是包括数据质量和安全元素的总体原则。在数据的整个生命周期(从创建、存储到检索和删除)中,它通过执行防止未经授权更改数据的规则和标准,验证数据的准确性和一致性。数据完整性机制不仅有助于确保数据的正确性和可访问性,还可以防止未经授权的篡改,从而支持遵守行业和政府法规。

数据完整性应用的行业示例

数据完整性是各个行业关注的问题,每个行业都采用独特的做法和标准来保护其数据。制药行业必须遵守美国食品和药物管理局 (FDA) 等监管机构制定的严格准则。FDA 针对制药企业的指南草案强调遵守法规和联邦法规,以证明药物在生产方式上具有一致性和可追溯性,可以安全使用,并且具有疗效。同样,医疗器械的 ISO 13485 等国际标准强调了制造过程中数据完整性在全球范围的重要性,可确保产品符合最高的安全和质量标准。

在金融领域,金融业监管局 (FINRA) 已经认识到需要采取强有力的数据完整性措施,特别是在自动交易和资金流动监控系统中。FINRA 制定和扩展数据完整性计划的举措反映了行业为确保金融交易和敏感客户信息安全而做出的更广泛努力,这对于在受到严格监管的环境中维持信任和合规性至关重要。

采矿和产品制造行业也越来越关注其自动化和生产监控系统中的数据完整性。目标是确保推动运营决策和效率改进的数据准确可靠,防止代价高昂的错误并提高竞争力。

云存储数据库供应商在维护客户数据的完整性和来源方面面临着独特的挑战。随着数据存储和处理对云服务的依赖程度越来越高,这些供应商必须实施复杂的措施来跟踪和防止数据违规,确保其客户的信息保持安全、免受篡改。

数据完整性应用的具体示例还包括医疗保健,其中电子健康记录中的错误可能会造成可怕的后果。在金融领域,准确的交易数据是风险评估和欺诈检测的基础,而“了解客户”(KYC) 协议等实践在验证客户信息和保持监管合规性方面发挥着关键作用。教育机构依靠精确的学生记录进行招生管理、学业跟踪和资源分配。

组织内的数据管理策略

在企业组织中确保数据完整性并不是一次性任务,而是一项持续的工作,需要涉及技术、流程和人员的整体战略来充分验证数据。以下战略和最佳实践可保护数据资产,并使组织能够自信地利用数据进行决策和创新。

数据输入

在尽可能靠近数据输入点的地方实施数据完整性检查(例如,键盘前的人员或传输数据的应用程序),可以限制并指定允许进入数据库的信息类型。

完整性约束

数据漏洞种类繁多,凸显了采用综合方法保护数据的重要性。整个组织的数据完整性管理是通过称为完整性约束的广泛政策、指南和规则来实现的,这些政策、指南和规则涵盖数据管理的各个方面,从保留到不同数据片段与使用它们的人员之间的关系。

完整性约束与关系数据模型类型相关:实体、参照、域和用户定义。例如,域约束限制列可以保存的值类型,因此“age”列可能只接受 1-120 之间的整数。

实体完整性可提供指令,让表中的每一行都是唯一且可识别的,通常由主键强制执行,这意味着数据库表中的每一行都有唯一标识符。

完整性约束条件还可保证表之间的关系通过外键明确定义和维护,外键是表中引用另一个表的主键的列或列集。

这些约束条件确认每个字段中的数据都遵守指定的格式和值,并且满足针对特定组织需求定制的任何其他规则。

数据保留

保留准则和策略指定数据应在数据库中存储多长时间,以强制保持一致性,并最大限度减少由旧信息引起的错误。数据备份可以防止数据丢失并在发生系统故障、数据损坏或其他可能损害数据完整性的不可预见事件时提供故障保护。有效的备份策略应包括定期将数据快照存储在地理位置分散的安全位置,以确认可以以最小的损失恢复数据。

访问、安全和物理完整性

连接和数据访问在维护数据完整性方面也发挥着关键作用。确保不同数据源和系统之间的无缝连接,让整个组织的信息流保持一致。

管理数据访问有助于确保只有授权人员才能修改数据或与数据交互,以降低发生意外或恶意数据篡改的风险。

此外,整个组织持续保持警惕也有助于维护数据完整性。定期检查错误、网络安全意识以及团队成员之间关于准确数据重要性的清晰沟通非常重要。

组织必须使用不间断电源和冗余硬件等措施来确保数据的物理完整性。

工具

收集数据后,强大的数据库管理实践可以强制执行防止创建重复数据的规则。利用数据沿袭工具等技术(跟踪数据来源和转换)进行审计试验,利用提供访问控制安全功能的数据目录、严格的输入验证流程和现代数据库系统来帮助防止完整性受到破坏。

数据库系统配备了支持完整性约束条件的功能,将检查准确性的责任转移给数据库本身。例如,父子关系等机制说明了在数据库级别管理的引用完整性过程如何通过帮助确保保留记录之间的关系、防止孤立记录和未经授权的删除来自动保护数据完整性。

IBM Databand 和 Ataccama 等数据验证工具是实现准确性、一致性和完整性的重要步骤。验证工具有助于识别可能指示问题的差异或异常。一旦集成到数据管理系统中,这些工具就会持续验证数据的质量和完整性。

这种集中式方法有助于保持数据管理系统的稳定,同时确保不同应用程序之间的可重用性和轻松的数据维护。

教育和文化

如果企业渴望培养优先考虑数据准确性和安全性的文化,则必须让业务领导者和员工了解使用不安全或不良数据的风险。

相关解决方案
IBM watsonx.governance

通过模型监控、风险管理以及贯穿整个 AI 生命周期的治理,将可信 AI 真正落地到实际运营中。

深入了解 watsonx.governance
数据治理解决方案

借助提升数据质量、确保合规并支持可信分析与 AI 的治理工具,实现对数据的有效掌控。

深入了解数据治理解决方案
AI 治理咨询

在专家指导下建立负责任的 AI 实践,管理风险、满足监管要求,并在规模化环境中落实可信 AI。

深入了解 AI 治理咨询服务
采取后续步骤

通过统一的产品组合直接管理、监控您的 AI,加速实现负责任、透明化、可解释的成果。

  1. 深入了解 watsonx.governance
  2. 深入了解人工智能治理解决方案