尽管获取高质量、高相关性的数据,对于可靠的分析与更优的决策而言一直至关重要,但在现代数据环境下,这一需求变得更为紧迫。原因有三:数据量、复杂性以及与 AI 相关的竞争压力。
如今,各类组织面临的数据量远超人类历史上大部分时期所能获取的规模:2024 年一项针对不同规模机构开展的全球调研显示,近三分之二的机构管理着至少 1PB 的数据。1
这些数据中大部分属于大数据:即多种格式的海量数据集,包含结构化数据、半结构化数据和非结构化数据。值得注意的是,非结构化数据难以适配关系型数据库的固定模式,这意味着传统工具和方法通常无法用于非结构化数据的处理与分析。
与此同时,企业正面临着获取可用于 AI 的数据的压力,即高质量、易获取且可靠可信的数据,组织可放心将其用于人工智能训练及相关项目。
但大多数企业目前尚未具备可用于 AI 的数据:IBM 商业价值研究院 2024 年的一项调查显示,仅有 29% 的技术高管明确表示,其企业数据满足高效扩展生成式 AI 应用所需的关键标准。2
从海量复杂的数据集中挖掘价值,同时确保数据满足 AI 应用要求,需要配套的工具、基础设施以及数据管理策略。然而,企业通常无法支付无限的计算和存储资源。他们必须在挖掘数据价值的工作与提升效率、实现投资回报最大化的措施之间取得平衡。
数据优化可以帮助他们做到这一点。
通过数据优化,组织可以同时提升数据工作流的性能和效率。多种数据优化技术可帮助企业提升数据质量与可访问性,同时降低存储和处理对其资源及预算造成的负担。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据优化可以帮助组织应对数据管道和预算方面的挑战。数据优化的优势包括:
数据处理与存储成本高昂,且难以规划。2025 年的一项调查显示,62% 的业务管理者表示,其所在组织上一年度的云存储支出超出了预算。3数据优化包括管理数据集、计算和存储资源的策略,以降低成本。
对计算与存储资源的优化管理,不仅能最大限度降低成本;通过数据优化节省下来的资源,还可重新分配,用于支撑数据驱动型项目与创新工作的规模化开展。这些成本节约可为致力于推行更完善数据战略的企业管理者消除一大障碍:2025 年的一项调查显示,“资源受限”是首席数据官 (CDO) 面临的首要挑战之一。4
通过数据优化提升数据质量,意味着更高的准确性与时效性,而这通常是欧盟《通用数据保护条例》(GDPR) 等法规要求的重要内容。它还有助于防止不必要的冗余记录存储,降低安全风险。
数据优化技术有助于在数据生命周期的关键环节(如数据存储、数据转换和数据使用)提升数据工作负载的可用性与效率。
数据存储优化包括减少数据表和索引所需的存储空间。它还包含采用多样化存储方案、更高效且更具成本效益地进行数据分发的相关策略。
数据转换是将原始数据转换为统一格式与结构的过程。数据转换的第一步是数据清洗,也被称为数据清理或数据洗涤,旨在识别并修正数据集中的错误与不一致问题。
主要数据清洗技术包括:
为解决 AI 模型训练中数据质量不佳的问题,研究人员通常会采取额外措施来提升训练数据集的质量,包括数据增强与合成数据生成。
选择合适、适配业务场景的查询引擎,同样也是查询优化的关键环节,这是因为不同引擎往往更适用于不同的数据工作负载。例如,Presto C++ 可用于对大型数据集执行高性能、低延迟查询,而 Spark 则非常适合处理复杂的分布式任务。
数据优化工具涵盖针对性解决方案与综合性平台,通常配备 AI 组件,以减少人工操作并提升运营效率。
基于 AI 的数据清洗工具能够自动识别源数据中的模式、异常情况与不一致性。基于规则或经训练习得的 AI 模型,还可通过依据准确性、时效性或可靠性判断哪条记录应当“保留”,从而合并或清除重复数据。AI 模型可以通过学习历史修正记录与用户反馈,自动创建并执行数据清洗规则。
通过模型监控、风险管理以及贯穿整个 AI 生命周期的治理,将可信 AI 真正落地到实际运营中。
借助提升数据质量、确保合规并支持可信分析与 AI 的治理工具,实现对数据的有效掌控。
在专家指导下建立负责任的 AI 实践,管理风险、满足监管要求,并在规模化环境中落实可信 AI。