什么是开源 AI?

一本打开的书籍,四周散发着闪耀的光芒

什么是开源 AI?

开源 AI 指那些无需申请授权即可用于任何目的、可供审查、修改和分发的 人工智能 系统。

这些自由权利符合开源促进会 (OSI) 制定的开源 AI 定义,该组织被全球公认为开源原则与政策的守护者。1

生成式 AI 的兴起加速了开源 AI 时代的到来。根据《Economist Impact》发布的一份报告,在 2023 年发布的大型语言模型 (LLM)(一种基础模型,常用于构建聊天机器人和编码助手等生成式 AI 应用程序)中,有三分之二是开源的。2

开源 AI 与开源软件

软件需满足任意用户均可按需免费使用、研究、修改和重新分发其源代码的条件,才能被视为开源。但开源 AI 的范畴远广于开源软件

AI 系统不仅包括 AI 模型本身,还包括训练期间使用的数据集、模型权重和参数以及源代码。源代码又包括用于过滤和处理训练数据的代码、用于模型训练和测试的代码、配套库以及用于运行模型的推理代码。所有这些组件都必须遵守开源 AI 条款并根据这些条款提供。

在 OSI 发布的的开源 AI 定义中,支持排除不可共享的非公开训练数据,如个人身份信息 (PII)3对于此类数据,必须提供详细描述,包括其来源、特征和范围、数据收集和选择方式、采用的标记程序以及数据处理和过滤方法。4

开源 AI 与开放权重

权重是预训练模型的核心参数。权重参数在训练过程中习得,用于确定模型如何解释新数据并进行预测。

开放权重是公开共享的,通常通过开源许可提供,可帮助了解深度学习模型的最终状态。虽然开放权重标志着 AI 逐渐向透明化迈进,但相较于开源 AI,它们所能提供的信息仍然不够全面。如果没有训练数据或训练代码,其他人就无法仔细检查或重现训练过程。

开源 AI 的优势

根据最近一项 IBM 研究,超过 80% 的受访 IT 决策者表示,他们公司至少有四分之一的 AI 平台或解决方案是基于开放源代码。而且,与未利用开源生态系统的企业相比,利用开源生态系统的企业更有可能实现正向投资回报率。

除了提升投资回报率外,开源 AI 还具有以下关键优势:

    ● 易于获取

    ● 协作创新

    ● 成本效益

    ● 定制化

    ● 透明度

可访问性

开源 AI 打破了入门障碍,尤其是对于该领域的新手而言。它还为无法在 AI 开发上投入大量资金的组织(例如小型企业或缺乏专业知识的公司)提供了机会。

协作创新

社区是开源的核心,AI 开发者、研究人员、机构及其他利益相关方通过合作持续改进 AI 技术。这种集体努力促进知识学习与共享,为借鉴他人成果创造机会并激发创新。

成本效益

开源 AI 模型通常可以免费使用。这使得企业能够节省自行开发和训练模型的初始成本,或者节省以高昂订阅价格或许可费从闭源提供商处购买模型的初始成本。

自定义

企业可以按照自己的意愿更改开源 AI 系统,从而获得更大的控制权。他们可以根据特定需求和用例来定制这些系统,并基于自己的业务数据微调开源 AI 模型,同时针对特定任务优化这些模型。

透明度

开源 AI 的开放特性孕育了 AI 透明度。了解 AI 系统的构建训练方式及其决策机制,有助于增强信心与信任——这对医疗健康、人力资源、司法系统等可能影响人们生活的行业尤为重要。

这种透明度也使开发者能更便捷地定位缺陷、识别偏见并检测安全漏洞,从而快速解决问题。此外,开源 AI 内部机制的可视性便于政府、金融等监管合规至关重要的领域由政策制定者进行审计监督。

开源 AI 面临的挑战

尽管优势显著,开源 AI 仍存在局限。以下是与开源 AI 相关的一些挑战:

    ● 缺乏专门或及时的支持

    ● 可能遭到滥用

    ● 安全漏洞

缺乏专门或及时的支持

与专有模型不同,开源 AI 模型通常不会针对紧急问题设定响应时间,也没有专门的支持团队来帮助解决问题,更没有发布安全补丁或更新的统一时间表。企业必须自行负责监控其 AI 应用程序,并制定自己的支持流程。

可能遭到滥用

由于任何人都可以出于任意目的使用开源 AI,因此它有可能被用于恶意目的。威胁参与者可以利用开源 AI 来自动进行网络攻击、生成深度伪造内容或传播错误信息和虚假信息。

安全漏洞

开源 AI 是透明的,但这种透明性也会暴露安全漏洞,进而被恶意行为者利用。再次强调,组织有责任为其开源 AI 解决方案建立安全保障措施。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

开源 AI 模型示例

目前存在大量开源 AI 模型,其中大多数模型可以通过 Hugging Face 或其 GitHub 存储库访问。以下是一些热门模型:

    ● Amber

    ● Crystal

    ● DeepSeek-R1

    ● Falcon-7B 和 Falcon-40B

    ● Granite

    ● OLMo

    ● Pythia

    ● Qwen

    ● T5

Amber

Amber 是由 LLM360 开发的具有 70 亿个参数的英语语言模型;LLM360 是一项致力于通过开源大模型研发而打造社区自治型 AI 的倡议。Amber 基于 Meta 的 Llama 架构,并根据 Apache 2.0 许可提供。OSI 表示,Amber 符合 OSI 的开源 AI 定义。1

Crystal

Crystal 是 LLM360 推出的另一款大型语言模型,参数量达 70 亿。它在 Apache 2.0 许可协议下发布,在编码与自然语言处理 (NLP) 任务间展现出卓越的平衡能力。根据 OSI 的认定,Crystal 符合其开源 AI 定义标准。1

DeepSeek-R1

DeepSeek-R1 是中国 AI 初创公司深度求索 (DeepSeek) 推出的一个推理模型。它采用 Mixture of Experts (MoE) 机器学习架构,并通过大规模强化学习进行训练,以提升其推理能力。该模型根据 MIT 许可提供。

Falcon-7B 与 Falcon-40B

Falcon-7BFalcon-40B 是因果仅解码器模型,参数量分别为 70 亿和 400 亿。这两款由阿联酋技术创新研究院研发的模型,均基于该机构自建的 RefinedWeb 数据集训练——这是一个包含经过筛选的英文网络数据的大型数据集。两者皆遵循 Apache 2.0 许可协议提供。

Granite

IBM Granite 是一系列企业级多模态 AI 模型。它们基于采用宽松许可的开源指令数据集及内部精选的合成数据集构建而成。这些模型通过 Apache 2.0 许可协议开放使用。

Granite 基础模型包含:适用于智能体工作流、具备推理能力的小型语言模型;专攻文档与图像理解类视觉任务的视觉模型;用于自动语音识别和翻译的语音模型;以及用于代码生成任务的代码模型。

OLMo

OLMo 是由非营利 AI 研究机构 Ai2 推出的一组语言模型。这些模型的参数规模分别为 10 亿、70 亿、130 亿和 320 亿。模型、训练代码、用于重现 OLMo 结果的评估套件以及每个阶段(包括训练前、训练期间和训练后)使用的训练数据,均根据 Apache 2.0 许可免费提供。OSI 表示,OLMo 符合 OSI 的开源 AI 定义。1

Pythia

Pythia 是由非营利性研究实验室 EleutherAI 开发的一套 LLM,这些模型的参数规模从 1400 万到 120 亿不等,且根据 Apache 2.0 许可发布。所有相关数据、代码、模型和检查点均已公开提供,并附有复现训练过程的说明,旨在进一步提高 AI 可解释性、促进 AI 伦理并提升透明度。OSI 表示,Pythia 符合 OSI 的开源 AI 定义。1

Qwen

Qwen 是由中国云计算公司阿里云推出的一系列 LLM。Qwen 包含语言模型、视觉语言模型,以及针对音频、编码和数学任务进行优化的各类模型变体。大多数 Qwen 模型均根据 Apache 2.0 许可提供,但较大的模型具有专有许可证。

T5

T5 是一种用于进行文本到文本转换的 Transformer 模型,由 Google 研究人员开发。它在各种 NLP 任务中表现出色,并根据 Apache 2.0 许可发布。OSI 表示,T5 符合 OSI 的开源 AI 定义。1

OSI 还分析了 Meta Llama 2、Microsoft Phi-2、Mistral Mixtral 和 xAI Grok,并得出结论,这些模型不符合 OSI 的开源 AI 定义,“因为它们缺乏必要的组件和/或其法律协议与开源原则不相符。”1

开源 AI 工具与框架

开源 AI 项目工作可能会让人不知所措。以下是一些可以提供帮助的知名开源 AI 工具

    ● Keras

    ● OpenCV

    ● PyTorch

    ● Scikit-learn

    ● TensorFlow

Keras

Keras 是一款用 Python 编写的应用程序编程接口 (API),用于构建、训练和评估深度学习模型。它与 JAX、PyTorch 或 TensorFlow 框架兼容,并且可以基于这些框架运行。

OpenCV

OpenCV 是由开源视觉基金会运营的开源计算机视觉库。它集成了 2,500 多个针对实时视觉应用优化的算法,涵盖图像识别、图像分类、目标检测与目标追踪等领域。

PyTorch

PyTorch 框架最初由 Meta 开发,现在已成为 Linux 基金会的项目。它支持动态神经网络GPU 加速,可与 Python 库和包无缝集成,并提供直观的界面,而且框架开销最小。

Scikit-learn

Scikit-learn 是一个用于机器学习的 Python 模块。它采用多种算法,包括分类聚类回归等算法,并提供数据处理、模型选择与评估以及可视化图表创建工具。

TensorFlow

TensorFlow 是一个用于构建和部署机器学习模型的平台。TensorFlow 由 Google 创建,包含大量数据集和模型、适用于不同编程语言的 API 以及用于优化机器学习工作流的工具。它还拥有强大的开源社区,致力于通过书籍、精选课程和在线课程帮助人们培养机器学习专业知识。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1 开源 AI 定义 1.0,开放源代码促进会 (Open Source Initiative),访问日期:2025 年 5 月 12 日

2 Open sourcing the AI revolution,《Economist Impact》,2024 年

3 常见问题解答,开放源代码促进会 (Open Source Initiative),2024 年 10 月 29 日

4 《开源 AI 定义 1.0 版》,开源促进会,2025 年 5 月 12 日访问