开源大型语言模型:优势、风险和类型

团队成员在休息室讨论新项目

大语言模型(LLM)是采用人工智能(AI)、深度学习技术,并基于海量数据集(包括网站、文章和书籍)训练而成的基础模型,能够生成文本、进行语言翻译并创作多种类型的内容。这类生成式 AI 模型可分为两种:专有大语言模型与开源大语言模型。

在本视频中,Martin Keen 将简要介绍大语言模型、其与基础模型的关系、运作原理以及如何用于解决各类业务问题。

专有大语言模型由企业所有,用户需购买授权方可使用。此类授权可能对模型的使用方式施加限制。相比之下,开源大语言模型免费开放,任何人都可以访问,出于任何目的进行使用,并可自由修改和分发。

“开源”一词意味着模型的代码与底层架构向公众开放,开发者与研究人员可自由使用、改进或调整模型。

开源大语言模型的优势

过去普遍认为模型规模越大性能越优,但如今企业逐渐意识到其在研发与创新方面可能带来难以承受的成本。对此,开源模型生态开始展现潜力,并对现有 LLM 商业模式构成挑战。

透明度和灵活性

 

缺乏内部机器学习团队的企业,可在自有基础设施(云端或本地)中部署开源大语言模型,获得透明度与灵活性优势。此举既保障企业对数据的完全掌控,也确保敏感信息始终处于内部网络中,从而显著降低数据泄露或未授权访问风险。

开源 LLM 的运作原理、架构设计、训练数据与方法论及使用方式均公开透明。企业通过审查代码与洞察算法,能够赢得更高信任度,同时辅助审计工作并确保符合伦理与法律规范。此外,有效优化开源 LLM 还可以减少延迟并提高性能。

成本节省

 

长期而言,开源模型的综合成本通常远低于专有模型,因其无需支付授权费用。但需注意,运营成本仍包含云设施或本地基础设施开支,且初期部署通常需要可观投入。

功能拓展与社区赋能

 

经过预训练的开源大语言模型支持微调功能。企业能够针对特定用途为模型添加功能特性,也可基于专用数据集对模型进行训练。若要在专有模型上实现此类定制或规格调整,则需与供应商协作,而这需要耗费额外的时间与资金成本。

专有 LLM 意味着企业必须依赖单一供应商,而开源方案则允许企业整合社区贡献、多服务商支持乃至内部团队资源,共同处理更新、开发、维护与支持工作。开源环境鼓励企业进行多样化实验,吸纳不同视角的智慧成果,从而打造持续引领技术前沿的解决方案,同时让企业在技术路线与应用决策上掌握更高自主权。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

开源 LLM 支持的项目类型

组织可利用开源大语言模型创建几乎任何对内提升员工效能的工具,或在开源协议允许范围内将其发展为商业产品。其中包括:

AI 写作文本生成

 

开源大语言模型支持开发具备语言生成能力的应用程序,例如撰写电子邮件、博客文章或创意故事。采用 Apache 2.0 许可协议的 Falcon-40B 等模型,能够根据提示生成高质量的文本建议,供用户进一步打磨优化。

代码生成

 

基于现有代码与编程语言训练的开源 LLM,可辅助开发者构建应用、定位错误及发现安全漏洞。

虚拟导师

 

支持创建提供个性化学习体验的应用,并能针对特定学习模式进行定制化调优。

内容摘要

 

能够提炼长篇文章、新闻报道、研究报告等资料核心信息的开源 LLM 工具,助力关键数据提取。

AI 驱动的聊天机器人

 

具备理解应答、提供建议及自然语言对话能力。

语言翻译

 

使用多语言数据集进行训练的开源 LLM,可以提供准确流畅的多语言翻译服务。

情感分析

 

LLM 可以通过文本解析判定情感倾向,这对于品牌声誉管理和客户反馈分析非常有价值。

内容过滤和审核

 

LLM 能够有效识别并过滤不当或有害的网络内容,为维护健康网络环境提供重要支持。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

开源 LLM 的适用组织

各类组织均在采用开源大语言模型。例如,IBM 与美国国家航空航天局(NASA)联合开发了基于地理空间数据训练的开源 LLM,助力科学家及其所在组织应对气候变化

出版商和记者 在内部使用开源模型进行信息分析、识别与摘要处理,避免编辑部核心数据外泄。

一些医疗机构将开源 LLM 用于医疗软件开发,包括诊断工具、治疗方案优化以及用于处理患者信息、公共卫生等事务的多种工具。

开源 LLM FinGPT 专为金融行业开发。

部分优质开源精选大语言模型

Open LLM Leaderboard旨在根据不同的基准跟踪、排名和评估开源 LLM 和聊天机器人。

  • Meta AI 推出的 LLaMa 2 是性能优异、支持商业授权的开源模型,涵盖 70 亿至 700 亿参数的预训练与微调生成文本模型,可通过 Watsonx.ai 工作室获取,也支持 Hugging Face 生态系统及 Transformer 库调用。
  • Vicuna 与 Alpaca 基于 LLaMa 模型构建,与谷歌 Bard 和 OpenAI 的 ChatGPT 类似,经过指令微调优化。其中 Vicuna 性能优于 Alpaca,并可媲美 GPT-4 的表现。
  • BigScience 研发的 Bloom(链接位于 ibm.com 外部)是由千余名 AI 研究人员共同打造的多语言模型,亦是首个完全透明化训练的多语言大语言模型。
  • 技术创新研究院(TII)推出的 Falcon(链接位于 ibm.com 外部)可与聊天机器人配合使用,以生成创意文本、解决复杂问题,并减少和自动化重复性任务。Falcon 6B 与 40B 版本均提供原始模型(支持微调)和开箱即用的指令调优版本。Falcon 仅消耗 GPT-3 约 75% 的训练算力成本,性能却显著超越后者。
  • MosaicML(近期被 Databricks 收购)发布的 MPT-7B 与 MPT-30B(链接位于 ibm.com 外部)是支持商用的开源模型。MPT-7B 性能对标 LLaMa,MPT-30B 则超越 GPT-3,两者均基于 1 万亿 token 进行训练。
  • 谷歌 AI 推出的 FLAN-T5 可处理逾 1800 种不同类型的任务。
  • Hugging Face 的 StarCoder(链接位于 ibm.com 外部)是基于 GitHub 开源代码训练的开源 LLM 编程助手。
  • RedPajama-INCITE(链接位于 ibm.com 外部)采用 Apache-2 协议,是由 Together 公司与蒙特利尔大学、斯坦福基础模型研究中心等机构专家联合开发的 69 亿参数预训练语言模型。
  • Cerebras 推出的 Cerebras-GPT(链接位于 ibm.com 外部)包含 7 款 GPT 模型,参数规模从 1.11 亿至 130 亿不等。
  • Stability AI(曾开发 AI 图像生成器 Stable Diffusion)开源的 StableLM基于包含 1.5 万亿 token 的 “The Pile” 数据集训练,并融合 Alpaca、GPT4All(提供一系列基于 GPT-J、MPT 和 LLaMa 的模型)、Dolly、ShareGPT 和 HH 等开源数据集进行微调。

大语言模型的相关风险

尽管大语言模型的输出听起来流畅且具有权威性,但仍可能存在风险,包括基于“幻觉”提供信息,以及存在偏见、合规性或安全性的问题。开展相关风险教育是应对这些数据与人工智能问题的途径之一。

  • 幻觉(即虚假信息)的产生,可能源于模型训练数据不完整、相互矛盾或不准确,也可能源于模型仅根据上下文预测下一个最可能的词语而未理解其含义。
  • 当数据来源缺乏多样性或代表性时,便会产生偏见。
  • 合规性指的是训练数据的收集是否符合问责要求,即它遵循使模型符合法律法规的人工智能治理流程,并为人们提供反馈渠道。
  • 安全问题可能包括泄露个人身份信息、网络犯罪分子利用大语言模型进行网络钓鱼和垃圾邮件发送等恶意活动,以及黑客篡改原始程序。

 

 

开源大语言模型与 IBM

人工智能模型,特别是大语言模型,将成为未来十年最具变革性的技术之一。随着新出台的 AI 法规为人工智能的使用制定了指导方针,企业不仅需要管理与治理 AI 模型,也需对输入 AI 的数据进行治理。

为帮助各组织应对这些需求并提升 AI 应用效能,IBM 推出了企业级 AI 与数据平台 watsonx。该平台全面提供以下能力:

IBM watsonx Assistant 的对话式搜索功能基于预构建集成、低代码集成框架(链接位于 ibm.com 外部)及无代码开发体验构建。开发人员与业务用户均可通过对话式搜索实现问答自动化,从而专注于构建更高价值的业务操作流程与虚拟助手的集成化数字体验

除对话搜索外,watsonx Assistant 正与 IBM Research 及 watsonx 持续合作,开发专精于分类、推理、信息抽取、文本摘要及其他对话场景的定制化 watsonx 大语言模型。通过应用大语言模型技术,Watsonx Assistant 在提升用户意图理解效率方面已取得重要突破。

 

作者

IBM Data and AI Team

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案