科技巨头们正大力投资合成数据。英伟达近期发布的Nemotron-4 340B 系列开源模型，专为跨行业大型语言模型训练提供合成数据。此举直指 AI 开发的核心痛点：获取优质数据集的超高成本与难度。

“高质量训练数据对定制化大模型的响应性能、准确度与质量起着决定性作用，”英伟达在官方博客中强调。Nemotron-4 340B 系列包含基础、指令与奖励模型，形成生成与优化合成数据的完整流程，有望加速领域专用大模型的开发进程。

IBM 研究员 Akash Srivastava 解释说，在大型语言模型的背景下，合成数据通常由一个 AI 模型生成，用于训练或定制其他模型。“行业研究者与开发者正在利用这些模型为特定目标任务生成数据，”Srivastava 指出。

麻省理工学院 IBM Watson AI 实验室和 IBM 研究院的团队最近提出了一种使用合成数据改进大语言模型的新方法。这种名为 LAB（用于聊天机器人的大规模对齐）的技术，旨在减少对人工标注和专有 AI 模型（如 GPT-4）的依赖。

LAB 采用分类法引导的合成数据生成流程和多阶段训练框架。研究人员报告称：“与使用传统的人工注释数据或 GPT-4 生成的合成数据训练的模型相比，经 Lab 训练的模型可以在多个基准测试中取得极具竞争力的性能。”

为验证 LAB 效能，团队创建的 LABRADORITE-13B 与 MERLINITE-7B 模型在多项关键指标上超越了同源基础模型的其他微调版本。该研究采用开源 Mixtral 模型生成合成训练数据，为提升大模型性能提供了更具成本效益的路径。

合成数据的质量最终决定其应用成效。Multiverse Computing 人工智能与量子计算工程总监 Raul Salles de Padua 解释道：“合成数据的保真度需要通过统计和分析测试，将其与真实世界数据进行比较来计算。这包括评估合成数据保留关键统计特性的程度，例如变量的均值、方差和相关性。”

尽管前景广阔，合成数据仍面临挑战。De Padua 指出：“合成数据的挑战在于如何创建既实用又能保护隐私的数据。若未建立防护机制，合成数据可能泄露个人细节，导致身份盗窃、歧视或其他隐私侵犯行为。”

最新研究揭示了过度依赖合成数据的潜在隐患。《自然》期刊近期发表的研究发现了一种称为“模型崩溃”的现象：当 AI 模型反复使用 AI 生成的文本进行训练时，其输出会逐渐变得荒谬可笑。这引发了人们对合成数据长期可行性的担忧，尤其是在 AI 生成内容日益充斥互联网的背景下。

伦理考量同样不容忽视。De Padua 警告道：“合成数据可能无法准确反映现实人群的多样性，导致模型产生偏见，难以在不同人口群体间实现公平性能。”