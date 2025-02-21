标签
如何构建支撑生成式 AI 应用的数据战略

暗室中巨大的曲线屏幕墙

生成式 AI 是一种人工智能 (AI) 技术，能够根据用户的需求生成文本、图像、视频、音频甚至软件代码。如今，各类组织都在争相开发全新的生成式 AI 应用，却往往忽略了打造一套能为这些应用提供支撑的高效数据战略所需的关键步骤。

生成式 AI 模型——即经过训练、能够模仿人类大脑决策模式的计算机程序——的训练过程需要海量数据作为支撑。组织或许能构思出极具潜力的应用方案，但如果作为底层基础的数据未得到妥善处理，最终的应用落地便会以失败告终。

从数据采集与处理的成本投入，到保障数据安全存储所需的底层基础设施，再到持续迭代数据治理要求，组织若想让生成式 AI 应用落地成功，就必须采用战略性的推进方法。

ChatGPT 与推动新的生成式 AI 业务应用

2022 年，ChatGPT 的问世开启了生成式 AI 领域创新发展的新纪元，促使各类组织纷纷探索将这项技术应用于商业场景的可行路径。ChatGPT 是一款 AI 聊天机器人，基于大语言模型训练而成，能够以对话形式与用户展开交互。自发布以来，各类组织便开始尝试将其底层技术应用于解决各类商业问题，涵盖自动化流程、提升生产效率以及挖掘客户洞察等多个方面。

各种风险和挑战也逐渐显现。以医疗领域为例，生成式 AI 虽已助力实现部分诊断流程的自动化，却也引发了诸多关于隐私与安全的担忧。1此外，一种被称为 AI 幻觉的问题始终存在，这会导致部分生成式 AI 模型在无法找到问题答案时，出现“编造”事实的情况。

尽管此类问题及其他相关难题依然存在，但各行各业、不同规模的组织仍在该领域持续投入巨资，力求探索挖掘这项技术潜力的全新路径。根据 Menlo Ventures 的统计数据，2022 至 2023 年间，企业在生成式 AI 领域的投资额增长了 6 倍，从 23 亿美元攀升至 138 亿美元。

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。
转到视频集

生成式 AI 应用为 AI 基础设施带来新挑战

AI 基础设施指支撑 AI 应用构建所需的各类软硬件解决方案。在生成式 AI 时代，AI 基础设施必须随之迭代升级，以满足该技术在算力资源、数据存储容量、带宽等方面提出的更高需求。但各类组织和急于部署全新的生成式 AI 应用，有时会忽略 AI 与数据基础设施的相关需求。

当组织为实现商业价值而寻求挖掘生成式 AI 的全部潜力时，必须重新审视自身在数据基础设施与数据战略方面的核心布局思路。

将非结构化数据转换为结构化数据

组织若要打造一款成功的生成式 AI 商业应用，通常需要结合使用结构化数据与非结构化数据。结构化数据又称量化数据，是指经过预先格式化处理的数据，能够被驱动生成式 AI 应用运行的机器学习算法便捷地处理。

借助先进的机器学习模型，算法会模拟人类从海量数据（数据集）中学习的模式，直至能够理解与数据相关的各类问题，并通过生成全新内容作出回应。

企业所收集的数据中，部分已经是结构化数据（例如包含姓名、日期、交易金额的客户信息与财务数据），但还有大量数据属于非结构化数据。非结构化数据又称定性数据，是指不具备预先定义格式的数据。这类数据的覆盖范围十分广泛，包括视频、音频文件，以及来自电子邮件、网页、社交媒体账号和物联网传感器的文本文件等。

随着数字经济的不断扩张，企业收集的非结构化数据量正呈指数级增长。据《福布斯》报道，企业收集的数据中，有 80% 至 90% 都属于非结构化数据。这类数据并不适用于机器学习任务，必须经过转换处理后，才能用于 AI 模型的训练。

将非结构化数据转换为可被计算机处理并服务于商业用途的数据，需要提取其中的相关信息，并将其整理为预先定义的格式。数据的体量与复杂性会带来诸多挑战，而复杂的数据管理环境以及对数据治理相关法规的合规要求，也会产生高昂的成本。

在数据治理的复杂世界中游刃有余

数据治理是指组织通过一系列政策与流程，保障自身数据的质量、安全性与可用性的管理实践。生成式 AI 和大数据的兴起已将数据治理及其各项要求推向了现代企业运营管理的核心位置。

生成式 AI 具备基于训练数据生成全新内容的能力，这一特性对数据的安全合规采集、存储及处理提出了全新要求。

质量

由于生成式 AI 模型的训练依托海量数据集，这些数据必须具备极高的质量，且其完整性必须是毋庸置疑的。数据治理在保障生成式 AI 模型训练数据集的准确性与完整性方面发挥着重要作用，而数据集的精准完备，正是模型生成可靠输出结果的关键前提。

合规性

受所属行业与地域的影响，生成式 AI 商业应用在数据使用方式上面临着严苛的合规监管环境。例如，《通用数据保护条例》(GDPR) 就对组织如何使用欧盟居民的数据作出了明确约束。一旦客户信息出现任何形式的泄露，组织将面临高额罚款与严厉处罚。

2021 年，谷歌及其他多家企业因违反《通用数据保护条例》中规定的数据保护相关条款，被处以超过 10 亿美元的罚款。

透明度

一款生成式 AI 应用若要实现预期效用，其数据的来源以及为满足商业用途而进行的数据转换流程，必须得到明确界定并做到全程可追溯。数据治理的作用在于，确保数据生命周期的每一个环节（从采集、存储、处理到输出）都具备完整的文档记录，且相关记录对用户公开透明，从而使用户能够清晰知晓模型输出结果的生成逻辑。

支持生成式 AI 应用的数据策略构建最佳实践

生成式 AI 应用的成功，取决于是否具备与之匹配的数据战略和基础设施作为支撑。以下是若干有助于保障项目落地成功的最佳实践方案。

从组织需要解答的具体业务问题着手

受非结构化数据的特性影响——包括其来源、采集方式与存储方式——组织往往会收集海量数据。

但这并不意味着所有数据都能为生成式 AI 应用提供价值。“要从一个核心问题切入。”IBM 政府事务商业中心高级研究员 Margaret Graves 建议道，“这个问题不一定局限于一个，可以是几个，但要聚焦于你计划开发的应用将以哪些具体方式推动并支撑企业核心目标的实现。”

自 2022 年 ChatGPT 问世以来，企业便急于将生成式 AI 应用于解决各类商业问题，包括提升生产效率、挖掘业务洞察以及加速数字化转型。尽管这些领域确实是该项技术能够发挥作用的方向，但它们的范畴过于宽泛，有可能导致组织开发出的应用缺乏针对性。

业务问题的定义越具体，就越容易确定训练生成式 AI 模型所需的相关数据集，以及支撑整个训练流程所需的 AI 基础设施类型。

制定针对性策略，确保应用能够获取其运行所需数据

当组织确定要针对哪些业务问题开发生成式 AI 应用后，就可以着手筛选用于模型训练的相关数据集了。Graves 将这一环节比作查看一个数据谱系。她表示：“一端是组织训练模型所需的高度机密、专属的内部数据。另一端则是通用性更强的非专有数据，这类数据虽不具备排他属性，却能帮助应用提升性能表现。”

建议书征询 (RFP) 领域就是一个绝佳例证，它是近年来生成式 AI 落地应用中极具说服力的业务用例之一。一家希望开发生成式 AI 应用、以实现其建议书征询流程部分自动化的 B2B 企业，必须依托内部数据开展模型训练，否则该应用将无法展现企业独有的业务能力。但与此同时，这款生成式 AI 模型也需要基于通用性更强的数据开展训练，例如如何遣词造句、如何使回答的语法结构规范，否则其输出的内容将逻辑不通。

Graves 表示：“这两类数据都必须纳入你的数据战略体系之中，既要有覆盖面广的通用数据集，也要包含专属的内部数据集。否则，你只是在搭建一个工具，再盲目堆砌大量数据去做尝试，最后只能看运气得出结果，这完全是在浪费资金与时间。”

酌情充分利用特定领域的数据

利用特定领域的数据，也就是与某一特定行业或领域相关的数据，能够帮助企业打造更贴合自身特定业务需求的 AI 模型。IBM Consulting 高级合伙人 Jason Prow 表示：“当前在 AI 模型训练领域，特定领域数据的重要性正得到高度重视，金融或人力资源行业就是典型例子。在海量数据随处可得的当下，围绕特定领域构建模型正变得至关重要。”

在 AI 模型的构建过程中利用特定领域数据，能够针对性地优化模型，使其更贴合特定业务需求。特定领域模型的输出结果更精准、与用户需求的关联性更强，进而能够提升相关生成式 AI 应用的整体性能表现。

特定领域的数据可能具有技术性和复杂性，因此寻求利用此类数据的组织需要考虑稍后添加“语义”，即在其 AI 模型中添加“语义”以帮助对其进行转换。“制药行业尤其需要大量的语义描述，”IBM Consulting 初级合伙人 Anthony Vachino 说，“不同企业会开展各不相同的试验，而语义层能够对试验相关信息进行规范化描述，助力这项研究成果推广应用到其他企业，使它们无需重复开展同类试验。”

对数据基础架构进行战略性选址

无论是应对可能扰乱供应链的地缘政治变化，还是威胁关键基础设施的自然灾害，现代数据领导者在选择数据存储和访问位置时，开始考虑的不仅仅是人才和成本。根据 IBM 商业价值研究院的数据，60% 的政府领导人认为未来供应链和基础设施遭受冲击的频率会增加，而 70% 的人认为冲击强度会增加。

不同地区具备各不相同的优势，人才储备、数据生态、基础设施、治理体系以及地缘政治因素等都需要纳入考量范畴。企业管理者们已对此予以关注：据同一份 IBM 商业价值研究院报告显示，在去年接受调研的管理者中，近 70% 的受访者认为 AI 将改变其关键资源的布局选址；而到了今年，这一比例跃升至 96%。

IBM 政府事务中心执行董事 Dan Chenok 对分布式数据在生成式 AI 模型训练中的应用潜力颇为关注，因为这种数据模式支持在多个地点存储和访问数据。他表示：“分布式数据能够让模型依托存储在多个不同地点的数据开展训练，同时借助访问权限控制机制，保障数据安全与合规要求不受影响。”

支持生成式 AI 应用程序需要采用开放式混合方法

现代化的混合解决方案能够帮助组织构建更贴合特定业务问题的 AI 模型，节省资金、时间及其他关键资源。Chenok 补充道：“当你实现多平台的整合互通后，就能提供更优质的服务，对于在多地布局业务的企业而言，效果尤为显著。而一套完善的解决方案，能够帮助你统筹协调所有环节，保障应用的稳定运行。”

开放式混合数据湖仓支持用户跨云端与本地基础设施共享数据（无论数据存储于何处），从而供生成式 AI 应用调取使用。数据湖仓是将数据仓库数据湖的各个方面合并为统一的数据管理解决方案平台

数据湖是一种低成本的数据存储解决方案，旨在处理大量结构化和非结构化数据；而数据仓库则是将多个来源的数据收集到单一位置以便进行分析的系统。尽管数据湖仓的可扩展性不及数据湖或数据仓库，但其架构更为精简、性能表现更优，且能够支持更为广泛的工作负载类型。

对于寻求更全面解决方案的企业来说，Databricks、Snowflake 和 Amazon RedShift 等平台越来越受欢迎，因为为生成式 AI 准备数据以及开发和部署应用程序非常复杂。全面解决方案有助于数据管理、模型训练和解决方案部署，支持组织针对各种用例启动具有内置可扩展性和治理功能的生成式 AI 应用程序。

IBM watsonx.data 是一款基于开放式数据湖仓打造的专用数据存储系统，可提升生成式 AI 工作负载的可扩展性。这种开放式、混合部署的专用架构，能增强与各类数据库的集成能力，助力企业充分利用分散在不同生态系统与环境中的数据，避免受制于单一区域或特定规则体系。

 

