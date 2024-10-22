两年前 ChatGPT 的发布开启了 AI 的新篇章，其驱动力来自规模和复杂性前所未有的大语言模型。这些模型现已成为研究和商业领域的主导力量，但其中许多模型不公开其数据、完整的训练方案或检查点。这正是非营利组织 艾伦人工智能研究所 (Ai2) 的切入点。Ai2 由微软联合创始人 Paul Allen 于 2014 年创立。该研究组致力于在开源领域开发语言模型、多模态模型和评估框架。
近期，Ai2 发布了 Molmo 系列——一组旨在显著缩小开源与专有系统之间差距的尖端多模态 AI 模型。Ai2 表示：“即使是我们较小的模型，其性能也优于规模大十倍的竞争对手。”
早在九月，Ai2 就与 Contextual AI 联合发布了 OlmoE，这是一个拥有 10 亿活跃参数、总计 70 亿参数的 混合专家模型。它基于 5 万亿词元进行训练，并构建在融入了 Ai2 Dolma 项目经验的新数据组合之上。
我们在旧金山 PyTorch 大会主题演讲后，与 Ai2 NLP 研究高级总监 Hanna Hajishirzi 进行了对话，探讨开源模型与 AI 素养。
我们在九月为 OLMoE 进行了一次小幅更新。尽管是小型模型，它在多项任务上表现非常出色。此后，我们看到社区反响热烈。我们还开发了一款应用程序，可直接在智能手机上运行语言模型而无需连接 GPU。该应用程序仍在完善中——我们正在开发安全功能并改进用户界面——但这令人振奋。同时，我们也在训练更大的模型。
混合专家模型表现优异并不令人意外，因为我们已看到前沿模型采用了这种架构。混合专家模型的优势在于，在相同训练成本下，相比密集模型能获得更高的准确率。对我们而言有趣的是，将这种思路推向极致，训练我们能做到的最小模型——例如 10 亿参数模型——以观察效果。结果令我们振奋。
那么我们是如何实现的？首先，我们改进了训练管道。我们从密集模型架构出发，成功进行了多项实验，将其扩展为混合专家模型。其次，我们优化了数据组合，从而获得了更好的模型。这两方面结合让我们取得了最佳结果。
AI 社区的开放性程度差异很大。例如，像 OpenAI 的 ChatGPT 这样的模型虽然开放了 API，但谁知道其背后的运作究竟如何呢？
这一切看起来非常高级，但这种透明度的缺乏恰恰不利于提升 AI 素养。公众并不真正理解这些模型为何如此运作。随着这些模型似乎变得越来越好，整个过程感觉就像魔法一样。
AI 社区需要开始发布更多关于不透明模型的信息，并解释它们为何会给出特定答案。例如，可以解释模型以某种方式回应，是因为在其训练数据中遇到了特定模式。
对公众进行这方面的教育至关重要。尽管以易于公众理解的方式将具体决策与数据点关联起来具有挑战性，但创建展示这一过程的演示将会产生真正的影响。
确实如此！这是我们项目的一个重要关注点：我们致力于同时发布模型权重和训练数据。
利用我们的 OLMo 和 OLMoE 模型，社区的研究人员正在探索模型决策如何与数据相关联。我们开放的数据集 Dolma 使得研究人员能够对其进行分析，从而催生了解释特定数据点如何影响模型行为的出版物。这种透明度也将有助于公众更好地了解情况。
我可以从两个角度来阐述。首先，当我们启动这个项目时，我们质疑了一些公司所报告数据的可信度。我们想确保那些数字并非源自精选的测试集或基准。这反映了研究社区内部的一种信任度。
对于我们的模型，这一点很直接，因为我们提供数据访问并展示我们的模型如何被评估。这种透明度清晰地表明了数据的内容以及模型的训练方式。我们还发布了各种检查点，即训练中的中间阶段。研究人员可以利用这些检查点来观察知识与改进如何随时间发展。事实上，已有一些研究人员正在利用我们的检查点来研究这种演变。
最后，在公众信任方面，也可采用类似的方法。许多人认为语言模型只是在胡编乱造。通过将其输出与训练数据相关联并解释其决策过程，我们可以增强可信度。尽管我们尚未完全实现，但提高训练数据的透明度为建立公众信任提供了重要机会。
我相信开源 AI 对推动和加速语言模型的科学发展至关重要。正是由于开放、科学研究，我们在语言模型的研发上取得了如此多进展，我们应该继续努力保持开源 AI 的活力。
