开源 AI 指那些无需申请授权即可用于任何目的、可供审查、修改和分发的 人工智能 系统。
这些自由权利符合开源促进会 (OSI) 制定的开源 AI 定义,该组织被全球公认为开源原则与政策的守护者。1
生成式 AI 的兴起加速了开源 AI 时代的到来。根据《Economist Impact》发布的一份报告,在 2023 年发布的大型语言模型 (LLM)(一种基础模型,常用于构建聊天机器人和编码助手等生成式 AI 应用程序)中,有三分之二是开源的。2
权重是预训练模型的核心参数。权重参数在训练过程中习得,用于确定模型如何解释新数据并进行预测。
开放权重是公开共享的,通常通过开源许可提供,可帮助了解深度学习模型的最终状态。虽然开放权重标志着 AI 逐渐向透明化迈进,但相较于开源 AI,它们所能提供的信息仍然不够全面。如果没有训练数据或训练代码,其他人就无法仔细检查或重现训练过程。
根据最近一项 IBM 研究,超过 80% 的受访 IT 决策者表示,他们公司至少有四分之一的 AI 平台或解决方案是基于开放源代码。而且,与未利用开源生态系统的企业相比,利用开源生态系统的企业更有可能实现正向投资回报率。
除了提升投资回报率外,开源 AI 还具有以下关键优势:
● 易于获取
● 协作创新
● 成本效益
● 定制化
● 透明度
开源 AI 打破了入门障碍,尤其是对于该领域的新手而言。它还为无法在 AI 开发上投入大量资金的组织(例如小型企业或缺乏专业知识的公司)提供了机会。
社区是开源的核心,AI 开发者、研究人员、机构及其他利益相关方通过合作持续改进 AI 技术。这种集体努力促进知识学习与共享,为借鉴他人成果创造机会并激发创新。
开源 AI 模型通常可以免费使用。这使得企业能够节省自行开发和训练模型的初始成本,或者节省以高昂订阅价格或许可费从闭源提供商处购买模型的初始成本。
企业可以按照自己的意愿更改开源 AI 系统,从而获得更大的控制权。他们可以根据特定需求和用例来定制这些系统,并基于自己的业务数据微调开源 AI 模型,同时针对特定任务优化这些模型。
尽管优势显著,开源 AI 仍存在局限。以下是与开源 AI 相关的一些挑战:
● 缺乏专门或及时的支持
● 可能遭到滥用
● 安全漏洞
与专有模型不同,开源 AI 模型通常不会针对紧急问题设定响应时间,也没有专门的支持团队来帮助解决问题,更没有发布安全补丁或更新的统一时间表。企业必须自行负责监控其 AI 应用程序,并制定自己的支持流程。
开源 AI 是透明的,但这种透明性也会暴露安全漏洞,进而被恶意行为者利用。再次强调,组织有责任为其开源 AI 解决方案建立安全保障措施。
目前存在大量开源 AI 模型,其中大多数模型可以通过 Hugging Face 或其 GitHub 存储库访问。以下是一些热门模型:
● Amber
● Crystal
● DeepSeek-R1
● Falcon-7B 和 Falcon-40B
● Granite
● OLMo
● Pythia
● Qwen
● T5
Amber 是由 LLM360 开发的具有 70 亿个参数的英语语言模型;LLM360 是一项致力于通过开源大模型研发而打造社区自治型 AI 的倡议。Amber 基于 Meta 的 Llama 架构,并根据 Apache 2.0 许可提供。OSI 表示,Amber 符合 OSI 的开源 AI 定义。1
Crystal 是 LLM360 推出的另一款大型语言模型,参数量达 70 亿。它在 Apache 2.0 许可协议下发布,在编码与自然语言处理 (NLP) 任务间展现出卓越的平衡能力。根据 OSI 的认定,Crystal 符合其开源 AI 定义标准。1
DeepSeek-R1 是中国 AI 初创公司深度求索 (DeepSeek) 推出的一个推理模型。它采用 Mixture of Experts (MoE) 机器学习架构,并通过大规模强化学习进行训练,以提升其推理能力。该模型根据 MIT 许可提供。
Falcon-7B 与 Falcon-40B 是因果仅解码器模型,参数量分别为 70 亿和 400 亿。这两款由阿联酋技术创新研究院研发的模型,均基于该机构自建的 RefinedWeb 数据集训练——这是一个包含经过筛选的英文网络数据的大型数据集。两者皆遵循 Apache 2.0 许可协议提供。
IBM Granite 是一系列企业级多模态 AI 模型。它们基于采用宽松许可的开源指令数据集及内部精选的合成数据集构建而成。这些模型通过 Apache 2.0 许可协议开放使用。
Granite 基础模型包含:适用于智能体工作流、具备推理能力的小型语言模型;专攻文档与图像理解类视觉任务的视觉模型;用于自动语音识别和翻译的语音模型;以及用于代码生成任务的代码模型。
OLMo 是由非营利 AI 研究机构 Ai2 推出的一组语言模型。这些模型的参数规模分别为 10 亿、70 亿、130 亿和 320 亿。模型、训练代码、用于重现 OLMo 结果的评估套件以及每个阶段(包括训练前、训练期间和训练后)使用的训练数据,均根据 Apache 2.0 许可免费提供。OSI 表示,OLMo 符合 OSI 的开源 AI 定义。1
T5 是一种用于进行文本到文本转换的 Transformer 模型,由 Google 研究人员开发。它在各种 NLP 任务中表现出色,并根据 Apache 2.0 许可发布。OSI 表示,T5 符合 OSI 的开源 AI 定义。1
OSI 还分析了 Meta Llama 2、Microsoft Phi-2、Mistral Mixtral 和 xAI Grok,并得出结论,这些模型不符合 OSI 的开源 AI 定义,“因为它们缺乏必要的组件和/或其法律协议与开源原则不相符。”1
Keras 是一款用 Python 编写的应用程序编程接口 (API),用于构建、训练和评估深度学习模型。它与 JAX、PyTorch 或 TensorFlow 框架兼容,并且可以基于这些框架运行。
TensorFlow 是一个用于构建和部署机器学习模型的平台。TensorFlow 由 Google 创建,包含大量数据集和模型、适用于不同编程语言的 API 以及用于优化机器学习工作流的工具。它还拥有强大的开源社区,致力于通过书籍、精选课程和在线课程帮助人们培养机器学习专业知识。
1 开源 AI 定义 1.0,开放源代码促进会 (Open Source Initiative),访问日期:2025 年 5 月 12 日
2 Open sourcing the AI revolution,《Economist Impact》,2024 年
3 常见问题解答,开放源代码促进会 (Open Source Initiative),2024 年 10 月 29 日
4 《开源 AI 定义 1.0 版》,开源促进会,2025 年 5 月 12 日访问