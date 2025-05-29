2019 年初，人工智能领域发生了一场微妙而重大的转变。该领域的关键参与者 OpenAI，开始逐渐背离其早期对开放式研究的重视。随着时间的推移，其数据集的访问权限收窄，有关训练方法的详细信息变得越来越难以找到，内部工作也变得更加封闭。当时看似寻常的方向调整，却成为了 AI 发展的一个转折点，重塑了全球范围内的研究共享、开发和讨论方式。
该领域的长期观察者、麻省理工科技评论前人工智能高级编辑 Karen Hao 在接受 IBM Think 采访时表示：“他们的数据集已不具备可见性。”
Hao 的新书 Empire of AI 从内部记录了生成式 AI 的发展，不仅追溯了 OpenAI 等公司崛起背后的经济和政治动机，也揭示了重新定义科学本身的、悄然进行的技术决策。“即使是 OpenAI 也并不总是知道他们的训练集中有什么内容。数据量太大，无法手动审核。”
对旁观者来说，这种说法可能听起来微不足道。但对于研究人员来说，无法可靠地描述或复制用于培训模型的数据，会动摇学科的根基。几十年来，机器学习一直依赖于一个简单的科学原理：可复现性。在相同条件下训练的模型，其行为也应相同。但面对如今庞大且未经整理的数据集，这些条件往往难以得知。
在大多数实证科学中，可复现性是严谨性的试金石。无法复现的化学实验为可疑实验。输入内容无法追踪来源的医学试验不太可能通过同行评审。在人工智能领域，可复现性传统上依赖于研究人员公开其模型架构和训练参数，以及用于训练这些模型的具体数据集。这些数据集，无论是图像、录音还是文本文档的集合，都构成了模型所知以及泛化到新输入的基础。
2010 年代初，这种开放模式是常态。学术实验室和企业研究人员都会分享他们的培训语料库、描述预处理步骤，并根据通用标准进行基准测试。但到 2020 年，情况发生了变化。随着 OpenAI 等公司开始更激烈地争夺商业优势，共享数据集的做法不再受青睐。
这种转变不仅仅关乎知识产权。正如 Hao 指出的那样，现代训练数据集的规模非常庞大，通常包含从互联网上抓取的数千亿个标记，几乎不可能全面记录。公司开始依靠自动抓取和过滤工具来组装数据集。然而，这些工具无法检测细微的问题，并且给训练过程带来了更多的不确定性。
一个揭示问题的案例来自斯坦福大学的研究人员，他们对广泛使用的 LAION-5B 图像数据集进行了审核。尽管该数据集是公开的，但其中包含数千条经核实或疑似的儿童性虐待内容。发现这一问题之前，该数据集已自由传播多年，并已被用于训练商业图像生成器。这一事件敲响了警钟。如果一个开放数据集中可以嵌入这么多有害内容，那么私有数据集中可能隐藏着什么？
“我们甚至无法再保证训练和测试的分离。”Hao 指的是机器学习中一种基本的方法论实践。
在典型的 AI 设置中，数据集分为两部分：一部分用于训练模型，另一部分用于测试其性能。这有助于衡量模型在未见过的数据上的准确性。但是，当数据集非常庞大且不透明，以至于其内容实际上未知时，就会出现重复内容出现在两个数据集中的风险，从而干扰评估并抬高性能指标。
结果是，该领域越来越依赖于信念，而不是验证。“它变得更像是炼金术而不是科学，”Hao 说，“我们向模型投入更多的计算和数据，希望能有什么出现。”
不是所有人都追求规模。正如 Hao 描述的那样，遵循另一条路径的研究人员悄然推动了另一种趋势。他们没有追求越来越大的数据库，而是专注于精心挑选的小型数据集。关键不在于他们拥有多少数据，而是这些数据如何捕捉语言的细微差别、人类经验的广度以及公平的必要性。
在整个行业追求“更多”时，也有人质疑在这一过程中忽略了什么。例如，Mozilla 的 DeepSpeech 是一个语音识别项目，基于用户在完全同意的情况下捐赠的音频片段构建。每个片段都经过人工审核和标记，投入大量精力完善数据集，确保声音、口音和语言模式的清晰和多样性。
同样，在 Hugging Face 的指导下由一个全球研究联盟开发的 BLOOM 语言模型，其训练数据也是在收集时注重语言、地理和主题多样性的公开数据集。每个来源都有记录。已邀请社群审计。与不透明的基础模型不同，BLOOM 的训练方法清晰明了。
但此类努力日益被掩盖。Hao 表示，当前主流的行业逻辑更倾向于规模化。在更大的数据集上训练出来的大型模型，即使没有针对特定任务的调整，也往往会显示出复杂推理或代码生成等特性。这会鼓励团队放弃对数据的精心设计，转而尽可能抓取一切。
OpenAI 的规模优先思维不仅仅是一个技术结论。Hao 指出，这是其领导层共有的一套连贯但非正统的信念体系的结果。她说，OpenAI 的首席科学家 Ilya Sutskever 是一位深度学习的绝对论者。他认为，如果输入足够多的数据，一个足够大的神经网络最终会发展出类似人类的智能。另一方面，OpenAI 的 CEO Sam Altman 以企业家的视角看待人工智能，认为指数级扩张是获得主导地位的最快途径。OpenAI 总裁 Greg Brockman 是致力于实现这一扩张的工程专家。
实现这一信条的架构是转换器，这是一种于 2017 年首次提出的神经网络。转换器擅长对数据序列（例如文本）进行建模，因为它们可以跟踪句子中长距离单词之间的关系。关键是，它们可以高效地扩展规模。添加更多层和更多参数可以提高性能。
OpenAI 的研究团队意识到，如果他们用足够庞大的数据集和足够的计算能力来训练转换器，就可以绕过对人工设计的特征、符号推理或模块化设计的需求。在他们看来，智能将从数据中产生。
要训练像 GPT-4 这样的模型，OpenAI 不仅需要想法，还需要基础设施。这种规模的语言模型需要成千上万个图形处理单元组成的集群。GPU 最初是为渲染三维图像而设计的，但事实证明，它对作为神经网络核心的矩阵乘法非常有用。但要将它们串联起来作为一个统一的系统，需要定制软件和硬件编排。
OpenAI 的工程师开发了将模型分片的技术，这些分片可以分布在多个芯片上，并进行并行训练。他们创建了检查点协议，以保留部分训练运行，降低灾难性故障的风险。他们构建了自定义通信协议来同步跨机器的更新。这些进步并不耀眼，但却至关重要。
Hao 说：“以前没有人用 10,000 块芯片进行训练。”“他们必须实时解决问题。”
这些进步使得模型的扩展比竞争对手更快、更高效。但也催生了一种新的保密方式。OpenAI 停止公布其突破性成果背后的诸多细节。该公司认为，披露太多就等于放弃了竞争优势。
到 2024 年，大多数大型科技公司都迎头赶上。IBM 、Google、Meta、Amazon、Anthropic 以及 Mistral 等新兴公司都使用类似的转换器架构和训练技术开发了大语言模型。许多公司采用强化学习结合人类反馈的方法，即由人类对模型的输出质量进行评分，从而对模型进行微调，使其更符合人类的偏好。
对外界而言，这些系统之间的差异变得更难辨别。应用程序开发人员开始设计能在后台与任何模型配合使用的接口，以便根据需要切换提供商。定价、延迟和运行时间变得比智能方面的微小差异更重要。
Hao 表示：“现在大家都试图做到不依赖特定模型。“OpenAI 不再垄断优秀的模型。”
随着规模不再是差异化因素，公司开始投资于另一种范式：代理。在人工智能中，代理指的是系统主动采取行动、持续运作并朝着目标前进的能力。代理不是根据提示做出反应，而是计划行动、监控结果并调整行为。
这需要新的能力。模型必须能够跨会话保持记忆，与第三方工具集成，并在没有明确提示的情况下做出决策。目标是从被动的聊天机器人转变为主动的协作者。
OpenAI 一直以来都深受电影《Her》的启发，在这部电影中，一位用户爱上了能无缝适应其需求的 AI 助手。创建这样的系统意味着不仅需要发展智能，还需要提高临场感。Hao 指出，OpenAI 的内部团队一直在产品和研究领域追求这一梦想。
她说：“如果不赋予模型记忆力、持久性和自主性，就无法打造出那样的助手。”
但要让智能体真正有效，OpenAI 需要的不仅仅是算法。它需要新型数据和新的数据收集方法。互联网曾经是训练数据的丰富来源，如今已充斥着合成内容。现在在线提供的许多文档本身就是由以前的模型生成的。
这就造成了一种反馈循环，使在线训练的价值逐渐降低。为了打破循环，公司正在转向更私密的数据收集。Hao 报道称，OpenAI 正在深入了解定制设备，这些设备可以捕捉实时用户行为，包括移动交互、语音对话和环境上下文。
Hao 表示：“线上的 AI 生成内容太多了。”“如果想要高质量的数据，就必须直接从人们那里获取。”
Hao 表示，AI 生成内容的激增带来了关于同意、监控和控制的棘手问题。人们真的可以选择不让自己的数据被收集吗？对于使用他们的话语、图像或行为训练的模型，他们又有多少发言权？
对 Hao 来说，答案不在于技术乐观主义或末日论，而在于透明度。她不认同 AI 领域的主流意识形态——她称之为“boomers”的群体认为人工智能将拯救人类，而“doomers”担心人工智能会带来毁灭。
“我属于问责阵营，”她说，“这些系统反映了制度性权力。我们需要知道它们是如何被制造的，以及哪些人从中受益。”
Hao 表示，公司需要解释其模型如何被测试、使用哪些数据以及如何理解结果。他们应该跟踪错误并分享发现，以便其他人能够进行更仔细的研究。
Hao 警告说，如果没有这种开放性，AI 就有可能成为一个专有的黑匣——强大，但不受约束。
