重新评估生成式 AI 时代的数据管理

在一间设有高窗的办公室内,四位同事围坐在办公桌旁,有的坐着,有的站着

作者

Geoff Baird

Associate Partner

Data & Technology Transformation

生成式 AI 引入了新的数据风险(例如,大型语言模型(LLM)引发的敏感数据泄露问题),并促使监管机构和政府提高相关要求,进而改变了科技行业的格局。要成功驾驭生成式 AI 环境,组织必须了解数据管理的核心原则,并确保采用合理的方法,利用企业/非公开数据来增强大型语言模型。

组织可从革新数据治理模式切入,并重点关注数据在生成式 AI 解决方案中的应用。例如:

  • 验证并构建数据保护能力:数据平台必须为更高级别的保护和监控做好准备。这既需要具备加密、匿名化和标记化等传统功能与能力,也需要利用机器学习创建自动对数据进行分类(如敏感性分类、分类对齐)的功能与能力。数据发现和编目工具能够提供一定帮助,但应进行增强,使分类更贴合组织对自身数据的理解。这有助于组织有效应用新政策,并弥合对数据的概念理解与数据解决方案实际实施方式之间的差距。
  • 提升控制力、可审计性与监管水平:企业数据的访问、使用及第三方协作,都需依托现有解决方案进行重新设计。例如,现有方案仅能覆盖确保数据授权使用的一部分要求。但企业需要的是完整的审计追踪与监控体系。这套体系必须能追踪数据的用途、数据的修改记录,以及数据在生成式 AI 与非生成式 AI 场景中通过第三方交互的共享情况。仅通过限制访问来管控数据已远远不够,我们还需追踪数据在分析与运营解决方案中的具体访问及应用场景。基础设施与数据治理团队应建立对异常访问与使用行为的自动警报及报告机制(通过查询分析、数据外泄和网络流动等指标进行衡量),并定期审查,从而主动确保合规。
  • 为生成式 AI 准备数据: 这与传统的数据管理模式和技能有所不同,这就需要新的学科来确保数据的质量、准确性和相关性,以便为 AI 使用训练和增强语言模型。随着矢量数据库在生成式 AI 领域日益普及,数据治理必须加强,以适应非传统的数据管理平台。这是为了确保将相同的治理实践应用于这些新的架构组件。数据沿袭变得愈发重要,因为监管机构要求模型具备“可解释性”。

企业数据通常具有复杂、多样且分散在各种存储库中的特点,这使其集成到生成式 AI 解决方案中面临困难。确保监管合规性、降低风险以及解决数据整合和检索增强生成(RAG) 模式方面的技能差距,进一步加剧了情况的复杂性。此外,在设计和部署生成式 AI 解决方案时,数据往往被视为事后考虑的因素,导致效率低下和不一致。

充分释放企业数据在生成式人工智能中的潜力

在 IBM,我们开发了一种方法来解决这些数据挑战。IBM 生成式 AI 数据摄取工厂,一项托管服务,旨在解决 AI 的“数据难题”,并充分释放企业数据在生成式 AI 应用中的潜力。我们的预定义架构和蓝图可作为托管服务进行部署,从而简化和加速将企业数据集成到生成式 AI 解决方案中的过程。我们在处理这一问题时始终将数据管理铭记于心,从一开始就为治理、风险和合规性做好数据准备。

我们的核心能力涵盖以下方面:

  • 可扩展的数据摄取:提供可重用服务,以便在生成式 AI 用例和解决方案中扩展数据摄取及检索增强生成(RAG)功能,并优化数据分块与嵌入模式。
  • 监管与合规:数据已做好应用于生成式 AI 的准备,符合当前及未来的法规要求,助力企业符合日益聚焦于生成式 AI 的市场监管规定。
  • 数据隐私管理:长文本在被发现时即可进行匿名化处理,以此降低风险并确保数据隐私安全。

该服务具备平台无关性,可在任何环境中部署,并能依据客户环境与用例进行定制化调整。借助 IBM 的生成式 AI 数据摄取工厂,企业能够达成一系列关键成果,具体如下:

  • 缩短数据整合所需时间:此托管服务可减少解决 AI “数据难题”所需投入的时间与精力。例如,运用可重复的流程对数据进行“分块”与“嵌入”操作,如此一来,便无需针对每个新一代生成式 AI 用例开展开发工作。
  • 数据使用合规: 帮助企业遵守数据使用法规,重点关注其自部署的生成式AI应用。例如,确保 RAG 模式采集的数据已获得在企业生成式 AI 解决方案中使用的授权。
  • 缓解风险:降低生成式 AI 解决方案中所使用数据相关的风险。例如,提供透明的结果,说明模型的输出所依据的数据来源,可以降低模型风险,并减少向监管机构证明信息来源所花费的时间。
  • 结果一致且可复现:确保从大语言模型(LLM)及生成式 AI 解决方案中获得一致、可复现的结果。例如,通过追踪数据血缘并长期比对模型输出(即所生成的数据),利用 ROUGE 和 BLEU 等标准指标来评估并报告其一致性。

驾驭复杂的数据风险需要跨领域的专业知识。IBM Consulting 团队汇聚前监管官员、行业领袖与技术专家,凭借我们的咨询服务和解决方案,在此领域具有独特的优势。

 
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data