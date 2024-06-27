生成式 AI 引入了新的数据风险（例如，大型语言模型（LLM）引发的敏感数据泄露问题），并促使监管机构和政府提高相关要求，进而改变了科技行业的格局。要成功驾驭生成式 AI 环境，组织必须了解数据管理的核心原则，并确保采用合理的方法，利用企业/非公开数据来增强大型语言模型。

组织可从革新数据治理模式切入，并重点关注数据在生成式 AI 解决方案中的应用。例如：

验证并构建数据保护能力：数据平台必须为更高级别的保护和监控做好准备。这既需要具备加密、匿名化和标记化等传统功能与能力，也需要利用机器学习创建自动对数据进行分类（如敏感性分类、分类对齐）的功能与能力。数据发现和编目工具能够提供一定帮助，但应进行增强，使分类更贴合组织对自身数据的理解。这有助于组织有效应用新政策，并弥合对数据的概念理解与数据解决方案实际实施方式之间的差距。

提升控制力、可审计性与监管水平：企业数据的访问、使用及第三方协作，都需依托现有解决方案进行重新设计。例如，现有方案仅能覆盖确保数据授权使用的一部分要求。但企业需要的是完整的审计追踪与监控体系。这套体系必须能追踪数据的用途、数据的修改记录，以及数据在生成式 AI 与非生成式 AI 场景中通过第三方交互的共享情况。仅通过限制访问来管控数据已远远不够，我们还需追踪数据在分析与运营解决方案中的具体访问及应用场景。基础设施与数据治理团队应建立对异常访问与使用行为的自动警报及报告机制（通过查询分析、数据外泄和网络流动等指标进行衡量），并定期审查，从而主动确保合规。

为生成式 AI 准备数据： 这与传统的数据管理模式和技能有所不同，这就需要新的学科来确保数据的质量、准确性和相关性，以便为 AI 使用训练和增强语言模型。随着矢量数据库在生成式 AI 领域日益普及，数据治理必须加强，以适应非传统的数据管理平台。这是为了确保将相同的治理实践应用于这些新的架构组件。数据沿袭变得愈发重要，因为监管机构要求模型具备“可解释性”。

企业数据通常具有复杂、多样且分散在各种存储库中的特点，这使其集成到生成式 AI 解决方案中面临困难。确保监管合规性、降低风险以及解决数据整合和检索增强生成(RAG) 模式方面的技能差距，进一步加剧了情况的复杂性。此外，在设计和部署生成式 AI 解决方案时，数据往往被视为事后考虑的因素，导致效率低下和不一致。