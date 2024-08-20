标签
Analytics

审视合成数据：承诺、风险与现实

初创公司内正在操作电脑的女性黑客

当人工智能重塑全球产业格局之际，开发者们正面临一个意外挑战：缺乏高质量现实数据来训练日益精密的模型。如今，一种看似不可能的解决方案正在浮现——完全虚构的数据。

合成数据这种模拟真实场景的人工生成信息，正在 AI 开发领域迅速崭露头角。它有望突破数据瓶颈、化解隐私隐忧并降低成本。然而随着该领域的发展，关于其局限性与现实影响的探讨也日益凸显。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢！您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息，请参阅我们的 IBM 隐私声明

合成数据的兴起

科技巨头们正大力投资合成数据。英伟达近期发布的Nemotron-4 340B 系列开源模型，专为跨行业大型语言模型训练提供合成数据。此举直指 AI 开发的核心痛点：获取优质数据集的超高成本与难度。

“高质量训练数据对定制化大模型的响应性能、准确度与质量起着决定性作用，”英伟达在官方博客中强调。Nemotron-4 340B 系列包含基础、指令与奖励模型，形成生成与优化合成数据的完整流程，有望加速领域专用大模型的开发进程。

IBM 研究员 Akash Srivastava 解释说，在大型语言模型的背景下，合成数据通常由一个 AI 模型生成，用于训练或定制其他模型。“行业研究者与开发者正在利用这些模型为特定目标任务生成数据，”Srivastava 指出。

麻省理工学院 IBM Watson AI 实验室和 IBM 研究院的团队最近提出了一种使用合成数据改进大语言模型的新方法。这种名为 LAB（用于聊天机器人的大规模对齐）的技术，旨在减少对人工标注和专有 AI 模型（如 GPT-4）的依赖。

LAB 采用分类法引导的合成数据生成流程和多阶段训练框架。研究人员报告称：“与使用传统的人工注释数据或 GPT-4 生成的合成数据训练的模型相比，经 Lab 训练的模型可以在多个基准测试中取得极具竞争力的性能。”

为验证 LAB 效能，团队创建的 LABRADORITE-13B 与 MERLINITE-7B 模型在多项关键指标上超越了同源基础模型的其他微调版本。该研究采用开源 Mixtral 模型生成合成训练数据，为提升大模型性能提供了更具成本效益的路径。

合成数据的质量最终决定其应用成效。Multiverse Computing 人工智能与量子计算工程总监 Raul Salles de Padua 解释道：“合成数据的保真度需要通过统计和分析测试，将其与真实世界数据进行比较来计算。这包括评估合成数据保留关键统计特性的程度，例如变量的均值、方差和相关性。”

尽管前景广阔，合成数据仍面临挑战。De Padua 指出：“合成数据的挑战在于如何创建既实用又能保护隐私的数据。若未建立防护机制，合成数据可能泄露个人细节，导致身份盗窃、歧视或其他隐私侵犯行为。”

最新研究揭示了过度依赖合成数据的潜在隐患。《自然》期刊近期发表的研究发现了一种称为“模型崩溃”的现象：当 AI 模型反复使用 AI 生成的文本进行训练时，其输出会逐渐变得荒谬可笑。这引发了人们对合成数据长期可行性的担忧，尤其是在 AI 生成内容日益充斥互联网的背景下。

伦理考量同样不容忽视。De Padua 警告道：“合成数据可能无法准确反映现实人群的多样性，导致模型产生偏见，难以在不同人口群体间实现公平性能。”

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。
观看 Mixture of Experts 所有剧集

AI 训练的未来

在医疗健康和自动驾驶等关键领域，合成数据能发挥重要作用。De Padua 表示：“在医疗领域，合成数据可补充真实数据集，为模型训练提供更丰富的场景，从而提升诊断和预测能力。”对于自动驾驶，他补充道：“通过合成数据增强，模型能接触原始数据集中未涵盖的多样化工况及边缘案例。”

展望未来，de Padua 认为，在 AI 训练中，合成数据可能会成为真实数据的补充而非替代。“合成数据的准确性与代表性至关重要。数据生成算法的技术进步将显著提升合成数据的可靠性，”他解释道。

随着 AI 日益融入从医疗诊断到自动驾驶的日常生活，训练过程中合成数据与真实数据的平衡将至关重要。AI 开发者面临的挑战是如何在利用合成数据优势的同时规避其风险。

“我们正处于 AI 发展的关键转折点，”Srivastava 强调，“能否平衡好合成数据与真实数据的关系，将决定 AI 未来的能力边界、发展局限，乃至最终的社会影响。”

作者

Sascha Brodsky

Staff Writer

IBM
相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短的时间内构建 AI 应用程序。

 了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合，让人工智能在您的业务中发挥作用。

 深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营，最大限度提升体验、实时决策和商业价值。

 深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK，生成功能强大的 AI 解决方案。

 深入了解 watsonx.ai 预约实时演示