什么是数据优化?

有组织的存储和仓储方法

数据优化定义

数据优化是改进数据集的组织方式与质量的过程,旨在确保企业及其他机构能够高效地进行数据存储、处理与分析。

 

数据优化涵盖了广泛的数据管理技术。其涵盖简化数据清洗、存储、转换处理的策略,以及查询优化相关策略。通过成功优化数据,组织可以体验更明智的决策,建立更具成本效益的业务运营并支持可扩展的人工智能 (AI) 计划。

随着企业越来越注重优化其数据资产,许多企业正开始部署 AI 驱动的解决方案,以强化数据优化流程。这些解决方案包括人工智能驱动的数据清洗工具、数据治理可观测性软件、混合云存储解决方案以及湖仓一体平台。

为什么数据优化很重要?

尽管获取高质量、高相关性的数据,对于可靠的分析与更优的决策而言一直至关重要,但在现代数据环境下,这一需求变得更为紧迫。原因有三:数据量、复杂性以及与 AI 相关的竞争压力。

如今,各类组织面临的数据量远超人类历史上大部分时期所能获取的规模:2024 年一项针对不同规模机构开展的全球调研显示,近三分之二的机构管理着至少 1PB 的数据。1

这些数据中大部分属于大数据:即多种格式的海量数据集,包含结构化数据、半结构化数据和非结构化数据。值得注意的是,非结构化数据难以适配关系型数据库的固定模式,这意味着传统工具和方法通常无法用于非结构化数据的处理与分析。

与此同时,企业正面临着获取可用于 AI 的数据的压力,即高质量、易获取且可靠可信的数据,组织可放心将其用于人工智能训练及相关项目。

但大多数企业目前尚未具备可用于 AI 的数据:IBM 商业价值研究院 2024 年的一项调查显示,仅有 29% 的技术高管明确表示,其企业数据满足高效扩展生成式 AI 应用所需的关键标准。2

从海量复杂的数据集中挖掘价值,同时确保数据满足 AI 应用要求,需要配套的工具、基础设施以及数据管理策略。然而,企业通常无法支付无限的计算和存储资源。他们必须在挖掘数据价值的工作与提升效率、实现投资回报最大化的措施之间取得平衡。

数据优化可以帮助他们做到这一点。

通过数据优化,组织可以同时提升数据工作流的性能和效率。多种数据优化技术可帮助企业提升数据质量与可访问性,同时降低存储和处理对其资源及预算造成的负担。

数据优化有什么优势?

数据优化可以帮助组织应对数据管道和预算方面的挑战。数据优化的优势包括:

更高的数据质量

数据优化可以提高数据质量,帮助企业做出更好的数据驱动决策,并支持高性能 AI 和机器学习模型的训练。IBM 副总裁兼首席数据官 Ed Lovely 在近期的一份 IBV 报告中表示:“规模化落地企业 AI 终于触手可及。”“技术已经就绪——只要企业能够为其提供合规、优质的数据。。”

更便捷的数据访问

据估计,68% 的企业数据并未得到利用,主要原因是这些数据被困在数据孤岛中,或根本难以解析。通过数据优化技术整理后的数据,能让从数据团队到业务用户等各类利益相关者更便捷地获取和使用。这有助于让更多员工在企业范围内挖掘数据洞见,并为战略决策提供支持。

速度更快

快速获取并处理合适的数据,对于实时数据分析与决策制定至关重要。但数据量会降低系统性能和查询速度。数据优化技术有助于加快数据检索与处理速度。此外,更快的运行性能可以提升客户服务效率,进而改善客户体验

降低成本

数据处理与存储成本高昂,且难以规划。2025 年的一项调查显示,62% 的业务管理者表示,其所在组织上一年度的云存储支出超出了预算。3数据优化包括管理数据集、计算和存储资源的策略,以降低成本。

可扩展性和创新

对计算与存储资源的优化管理,不仅能最大限度降低成本;通过数据优化节省下来的资源,还可重新分配,用于支撑数据驱动型项目与创新工作的规模化开展。这些成本节约可为致力于推行更完善数据战略的企业管理者消除一大障碍:2025 年的一项调查显示,“资源受限”是首席数据官 (CDO) 面临的首要挑战之一。4

合规和安全支持

通过数据优化提升数据质量,意味着更高的准确性与时效性,而这通常是欧盟《通用数据保护条例》(GDPR) 等法规要求的重要内容。它还有助于防止不必要的冗余记录存储,降低安全风险。

数据优化技术

数据优化技术有助于在数据生命周期的关键环节(如数据存储、数据转换和数据使用)提升数据工作负载的可用性与效率。

优化存储

数据存储优化包括减少数据表和索引所需的存储空间。它还包含采用多样化存储方案、更高效且更具成本效益地进行数据分发的相关策略。

  • 减少存储空间:一种降低存储成本与所需空间的常用方法是数据压缩。该过程利用算法对数据进行编码和解码,从而减少数据存储所需的比特数。
  • 使用分层存储:在分层存储模式下,数据会根据访问需求进行分类归集。成本较高的存储方案通常能实现更快的数据检索,这类存储会专门用于存放频繁访问的“热数据”。而访问频率较低的“凉数据”或“冷数据”,则存储在成本更低、访问耗时更长的存储环境中。
  • 选择数据存储架构:除了使用存储层之外,组织还可以选择一种或多种存储方法以实现性能优化、成本节约及其他目标。存储系统的三种主要类型是对象存储、文件存储和块存储,每种类型各有优缺点。

数据转换和清洗

成功执行数据转换数据清洗流程后,数据质量将得到显著提升。

数据转换是将原始数据转换为统一格式与结构的过程。数据转换的第一步是数据清洗,也被称为数据清理或数据洗涤,旨在识别并修正数据集中的错误与不一致问题。

主要数据清洗技术包括:

  • 标准化:当同一数据集内的数据采用不同结构和格式呈现时,由此产生的不一致性会降低数据的可用性。标准化数据结构与格式,有助于确保数据的一致性和兼容性,从而实现精准分析。
  • 数据去重:重复或冗余的数据会导致分析结果失真。数据去重删除可消除重复记录(例如由数据集成问题、人工录入错误或系统故障所产生的记录)。除提升数据质量外,重复数据删除还可降低成本与资源利用率,因为无需再为重复记录耗费计算与存储资源。
  • 处理缺失值:缺失值同样会导致数据分析结果出现偏差。数据专业人员用于解决此类缺失问题的策略包括:用估算数据替换缺失值,或删除不完整的记录项。
  • 数据验证数据验证是核查数据是否干净、准确且可直接使用的过程。这包括制定并执行业务规则与数据验证检查,其中包括对一致性、数据类型、格式、取值范围及唯一性的校验。

为解决 AI 模型训练中数据质量不佳的问题,研究人员通常会采取额外措施来提升训练数据集的质量,包括数据增强合成数据生成

元数据管理

元数据管理是对元数据进行组织与运用,以提升数据的可访问性与质量

元数据示例包括:

  • 描述性元数据:包含基本信息,如标题和关键词。这种类型的元数据可帮助组织提高其数据在目录、社交媒体平台和搜索引擎中的可搜索性和可发现性。
  • 管理性元数据:包括所有权、权限和保留策略。这种类型的元数据可帮助组织遵守法律、法规和内部政策。
  • 保存元数据:确保数据的长期可用性和可访问性。这类元数据有助于组织满足扩展后的数据留存要求,尤其在那些出于合规目的、必须保证记录可被长期访问的行业中。

优化查询和查询处理

查询优化可加速 SQLNoSQL 数据库中查询语句的执行(即数据的检索与操作),同时最大限度减少内存、CPU 等资源的占用。虽然查询优化技术会因数据库类型而异,但常见的方法包括:

  • 过滤:确保系统不会扫描与查询无关的数据。
  • 添加索引:索引可对信息进行预排序,从而实现更高效的智能检索。
  • 缓存:对重复查询的结果进行缓存,可减少每次重复执行查询时所需的新计算量。
  • 分区:在数据库设计过程中,可将数据库拆分为更小的片段,以实现更快速、更有针对性的查询。

选择合适、适配业务场景的查询引擎,同样也是查询优化的关键环节,这是因为不同引擎往往更适用于不同的数据工作负载。例如,Presto C++ 可用于对大型数据集执行高性能、低延迟查询,而 Spark 则非常适合处理复杂的分布式任务。

其他技术

其他用于数据优化的技术还包括:并行处理(将数据处理任务拆分为多个小部分,在多个处理器上同时执行);基于规则的访问控制(RBAC,即限制对敏感数据的访问,有助于防止意外数据丢失和蓄意数据泄露);以及数据可视化(以图形化方式呈现数据,辅助数据分析)。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据优化、数据管理和数据治理

数据优化既可被视为数据管理的一部分,也可被看作一项补充性实践。归根结底,重要的是:数据优化通过提升所管理数据的质量与可访问性,让数据管理变得更加高效。

数据治理是一门数据管理学科,通过定义和实施数据收集、所有权、存储、处理和使用策略以及质量标准和程序,确保数据完整性数据安全性。因此,它能够支持多种数据优化技术。

例如,组织的数据治理方案可能会制定数据质量指标,用以衡量数据质量提升的进展,并制定数据留存策略,助力优化数据存储。

数据优化工具

数据优化工具涵盖针对性解决方案与综合性平台,通常配备 AI 组件,以减少人工操作并提升运营效率

数据清洗工具

基于 AI 的数据清洗工具能够自动识别源数据中的模式、异常情况与不一致性。基于规则或经训练习得的 AI 模型,还可通过依据准确性、时效性或可靠性判断哪条记录应当“保留”,从而合并或清除重复数据。AI 模型可以通过学习历史修正记录与用户反馈,自动创建并执行数据清洗规则。

数据可观测性工具

数据可观测性工具支持自动化监控、故障分类告警、根因分析数据沿袭以及服务等级协议 (SLA) 跟踪,这有助于从业者理解端到端的数据质量。这类工具能够帮助团队在问题影响下游依赖项之前,及早发现缺失值、重复记录或格式不一致等情况,从而实现更快的故障排查与问题解决。

数据治理工具

数据治理工具可帮助企业执行通过数据治理方案制定的各项策略,其中包括支持数据优化的相关策略。数据治理解决方案的通用功能包括:自动发现与数据分类、执行数据保护规则与基于角色的访问控制,以及支持数据隐私与合规性要求的相关特性。

混合云解决方案

混合云解决方案为数据存储提供了“按需组合”的模式,通过公有云平台、私有云环境和本地基础设施,帮助组织以灵活、可扩展且成本优化的方式存储数据。

组织可选择最优、最具成本效益的存储方案以满足业务需求,并在必要时迁移数据工作负载。混合多云模式提供了更高的灵活性,使企业能够使用来自多家云供应商的服务。

湖仓一体

湖仓一体是一个数据平台,它结合了具备灵活数据存储功能的数据湖和搭载高性能分析功能的数据仓库。湖仓一体采用云对象存储,可对各类数据类型实现快速、低成本的统一存储。

此外,其混合架构无需维护多个数据存储系统,从而降低了运营成本。领先解决方案的特性包括:配备多种查询引擎以实现高效查询执行,以及集成了数据治理、数据清洗和可观测性等功能。

数据优化用例

数据优化策略与工具能够在众多领域和行业中提升效率与性能。

  • 物联网 (IoT) 网络:通过压缩物联网网络中传感器采集的海量数据,可实现更高效的云存储。5
  • 自动驾驶汽车:对用于自动驾驶模型训练所采集的图像进行筛选,可确保训练数据包含最具价值的图像,同时加快训练速度。6

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

相关解决方案
IBM watsonx.governance

通过模型监控、风险管理以及贯穿整个 AI 生命周期的治理,将可信 AI 真正落地到实际运营中。

深入了解 watsonx.governance
数据治理解决方案

借助提升数据质量、确保合规并支持可信分析与 AI 的治理工具,实现对数据的有效掌控。

深入了解数据治理解决方案
AI 治理咨询

在专家指导下建立负责任的 AI 实践,管理风险、满足监管要求,并在规模化环境中落实可信 AI。

深入了解 AI 治理咨询服务
采取后续步骤

通过统一的产品组合直接管理、监控您的 AI,加速实现负责任、透明化、可解释的成果。

  1. 深入了解 watsonx.governance
  2. 深入了解人工智能治理解决方案