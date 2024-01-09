生成式 AI 出现后，多家知名公司因内部敏感数据处理不当而限制对其的使用。据 CNN 报道，一些公司在寻求更好地理解该技术的同时，对生成式 AI 工具实施了内部禁令，并且许多公司也已禁止内部使用 ChatGPT。

企业在深入探究大型语言模型（LLM）时，仍常常甘愿承受使用内部数据的风险，因为这些上下文数据能够助力 LLM 从通用知识转变为特定领域知识。在生成式 AI 或传统 AI 开发周期中，数据摄取是起始环节。在此阶段，可依据企业要求收集原始数据，并对其进行预处理、脱敏及转换，使其成为适用于 LLM 或其他模型的格式。目前，尚无标准化流程可克服数据摄取面临的挑战，但模型的准确性有赖于这一流程。