什么是大语言模型 (LLM)?

2023 年 11 月 2 日

什么是大语言模型 (LLM)?

大语言模型 (LLM) 是一类基础模型,经过大量数据训练,使其能够理解和生成自然语言和其他类型的内容,以执行各种任务。大语言模型(LLM)是当前人工智能研究与企业级 AI 应用的核心技术之一。无论是在自然语言处理、知识问答,还是在多轮对话与生成式内容创建中,大语言模型都展现出强大的语义理解和生成能力,正在被越来越多的企业用于推动 AI 转型与自动化升级。

大语言模型 (LLM) 这个名称已家喻户晓,这要归功于它们在将生成式 AI 带到公众利益最前沿方面所发挥的作用,以及组织专注于在众多业务职能和用例中采用人工智能的目标。

随着生成式 AI 的新发展,在企业环境之外,大语言模型 (LLM) 似乎是突然出现。然而,包括 IBM 在内的许多公司多年来一直在不同层面实施大语言模型 (LLM),以增强自然语言理解 (NLU) 自然语言处理 (NLP) 能力。这与机器学习、机器学习模型、算法、神经网络和为 AI 系统提供架构的转换器模型的进步同步发生。

大语言模型 (LLM) 是一类基础模型,经过大量数据训练,可提供推动多个用例和应用程序以及解决大量任务所需的基础功能。这与为每个用例单独构建和训练域特定模型的想法形成鲜明对比,这种想法在许多标准(最重要的是成本和基础架构)下令人望而却步,会抑制协同作用,甚至可能导致性能下降。

大语言模型 (LLM)  代表 NLP 和人工智能领域的重大突破,公众可以通过 Open AI 的 Chat GPT-3 和 GPT-4 等界面轻松访问,这些界面已获得 Microsoft 的支持。其他示例包括 Meta 的 Llama 模型,以及来自转换器 (BERT/RoBERTa) 和 PaLM 模型的 Google 双向编码器表示。IBM 最近还在 watsonx.ai 上推出了 Granite 模型系列,该系列已成为 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 产品的生成式 AI 支柱。

简而言之,大语言模型 (LLM) 旨在经过大量数据训练,像人类一样理解和生成文本以及其他形式的内容。这种模型有能力从环境中推断,生成连贯且与环境相关的响应,翻译成英语以外的语言,总结文本,回答问题(一般对话和常见问题解答),甚至协助完成创意写作或代码生成任务

它们之所以如此神通广大,是因为有数十亿个参数使模型能够捕获语言中的复杂模式并执行各种与语言相关的任务。大语言模型 (LLM) 正在彻底改变从聊天机器人和虚拟助理到内容生成、研究协助和语言翻译各个领域的应用程序。

随着大语言模型 (LLM) 的不断发展和改进,大语言模型 (LLM) 将重塑我们与技术交互和获取信息的方式,使它们成为现代数字环境的关键部分。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

大语言模型 (LLM) 的工作原理

大语言模型 (LLM) 通过利用深度学习技术和大量文本数据来运行。这些模型通常基于转换器架构,如生成式预训练转换器,它擅长处理文本输入等顺序数据。大语言模型 (LLM) 由多层神经网络组成,每层神经网络的参数都可以在训练过程中进行微调,而被称为注意力机制的众多神经网络层则进一步增强了这些神经网络的功能,这些神经网络层可以对数据集的特定部分进行调整。

在训练过程中,这些模型学习根据前面单词提供的上下文来预测句子中的下一个单词。该模型通过将概率分数归因于重复的已标记单词(分解为较小的字符序列)来实现这一点。然后,这些标记被转换为嵌入,嵌入是该上下文的数字表示。

为了确保准确性,这个过程涉及在大量文本语料库(数十亿页)上训练大语言模型 (LLM),使 大语言模型 (LLM) 能够通过零样本和自我监督学习来学习语法、语义和概念关系。经过这些训练数据的训练后,大语言模型 (LLM) 就可以根据它们收到的输入自动预测下一个单词,并利用它们获得的模式和知识来生成文本。其结果是生成连贯且与上下文相关的语言,可用于广泛的 NLU 和内容生成任务。

还可以通过提示工程、提示调优、微调和其他策略来提高模型性能,例如基于人类反馈的强化学习 (RLHF),以消除偏见、仇恨言论和被称为“幻觉”的事实错误答案,这些通常是对如此多的非结构化数据进行训练的有害副产品。这是确保企业级大语言模型 (LLM)  随时可用,不会令组织承担不必要的责任,或对组织声誉造成损害的最重要的方面之一。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

大语言模型 (LLM) 用例

大语言模型 (LLM) 正在重新定义越来越多的业务流程,并已在各个行业的无数用例和任务中证明了它们的多功能性。大语言模型 (LLM) 可以增强聊天机器人和虚拟助理(例如 IBM® watsonx Assistant 和 Google 的 BARD)中的会话式 AI,以增强支持卓越客户服务的交互,提供模仿与人工客服交互的情境感知响应。

大语言模型 (LLM) 还擅长内容生成,可以自动创建内容,包括博客文章、营销或销售资料以及其他写作任务。在研究和学术界,它们帮助从大量数据集中总结和提取信息,加速知识发现。大语言模型 (LLM) 在语言翻译中也发挥着至关重要的作用,通过提供准确且与上下文相关的翻译来打破语言障碍。它们甚至可以用来编写代码,或者在编程语言之间进行“翻译”。

此外,它们还通过提供文字转语音应用程序以及无障碍格式生成内容等功能来帮助残障人员,为无障碍访问功能做出了贡献。从医疗保健到金融,大语言模型 (LLM) 正在通过简化流程、改善客户体验以及实现更高效和数据驱动的决策,来推动行业转型

最令人振奋的是,所有这些功能均易于访问,在某些情况下,实际只需要 API 集成即可。

以下是大语言模型 (LLM) 为组织带来益处的一些最重要的领域:

  • 文本生成:语言生成能力,如根据提示撰写电子邮件、博客文章或其他中长篇内容,并加以提炼和润色。检索增强生成 (RAG) 就是一个很好的例子。

  • 内容摘要:将长文章、新闻报道、研究报告、公司文档甚至客户历史记录汇总成根据输出格式定制长度的完整文本。

  • AI 助手:聊天机器人,可以回答客户询问、执行后端任务并以自然语言提供详细信息,作为集成式自助客户服务解决方案的一部分。

  • 代码生成:帮助开发人员构建应用程序,查找代码中的错误并发现多种编程语言中的安全问题,甚至在它们之间进行“翻译”。

  • 情感分析:分析文本,确定客户的语气,以便大规模了解客户反馈,并帮助进行品牌声誉管理。

  • 语言翻译:通过流畅的翻译和多语言功能,为各语言和地域的组织提供更广泛的覆盖范围。

大语言模型 (LLM) 将通过实现客户自助服务自动化、加快对越来越多任务的响应以及提高准确性、增强路由和智能上下文收集,影响从金融到保险、人力资源到医疗保健等各个行业。

大语言模型 (LLM) 和治理

组织需要在治理实践方面打下坚实的基础,以利用 AI 模型的潜力彻底改变他们的业务方式。这意味着需要提供值得信赖、透明、可靠和安全的 AI 工具和技术。AI 治理和可追溯性也是 IBM 为客户提供的解决方案的基本方面,旨在管理和监控涉及 AI 的活动,从而能够以始终可审计和可问责的方式追踪来源、数据和模型。

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案