LLM API:弥合差距的技巧

2024 年 12 月 13 日

作者

Cole Stryker

Editorial Lead, AI Models

Gather

当您去一个语言不通的国家或地区旅游时,您可能会依靠朋友翻译对话,或者在问路时使用翻译应用程序。这样,您就不需要学习整门语言,尤其是在短途旅行中。

大型语言模型 (LLM) 领域,应用程序编程接口 (API) 充当着翻译器的角色,支持 LLM 和人工智能 (AI) 应用程序之间的无缝交换。这些接口有助于将自然语言处理 (NLP) 和自然语言理解功能整合到软件系统中。

通过 LLM API,企业可以在工作流中利用 AI 模型。例如,在线零售商可以将其客户服务聊天机器人与语言模型连接起来,以获得更有针对性的回复,从而促进自然而有吸引力的互动。同样,企业也可以将其 AI 编码助手与 LLM 连接起来,以进行更强大的代码分析和生成。

LLM API 的工作原理

LLM API 通常基于请求响应架构,该架构遵循一系列步骤:

  1. 应用程序通常以超文本传输协议 (HTTP) 请求的形式向 API 发送请求。在传输之前,应用程序首先会将请求转换成 API 所需的数据格式(通常是 JavaScript Object Notation 或 JSON 格式),其中包含模型变体、实际提示和其他参数等信息。

  2. API 收到请求后,将其转发给 LLM 进行处理。

  3. 机器学习模型利用其 NLP 技能(内容生成、问题解答、情感分析文本生成文本摘要)生成响应,并将其转发给 API。

  4. API 会将此响应反馈给应用程序。

要访问 LLM API,用户需要在其选择的提供商处注册,并生成 API 密钥,以便进行身份验证。

令牌和定价

定价是 LLM API 的重要组成部分。提供商根据各自的模型提供不同的价位。

要了解 LLM API 的定价工作原理,您需要首先掌握令牌的概念。对于语言模型,令牌是单词的机器可读表示。令牌可以是字母、标点符号、单词的一部分或整个单词本身。

令牌是模型可以作为输入接收和处理并作为输出生成的最小文本单位。它们是定价的基础。大多数提供商使用即用即付定价模型,按每千或百万个令牌收取 LLM API 访问费用,对输入和输出令牌单独定价。

这种基于令牌的定价方式反映了与运行 LLM 相关的计算和处理成本。它还具有透明度和灵活性,可适应不同企业的不同使用模型。

LLM API 的优势和挑战

将企业数据或服务与 LLM API 带来的 AI 层相结合,可以实现更强大的实际应用。以下是 LLM API 可以提供的一些优势:

  • 易用性:企业无需具备全面的 AI 知识和专业技能,即可利用 AI 语言功能。他们也无需投资开发自己的模型和相关的基础设施成本。
  • 定制:通过 LLM API,组织可以微调大型语言模型以适应其特定任务或领域。
  • 定期更新:提供商定期更新其算法,以提高性能并跟上 AI 快速变化的步伐。
  • 可扩展性:LLM API 通常可以同时处理大量请求,并随着业务的增长进行扩展。

尽管取得了这些成果,但 LLM API 也带来了挑战:

  • 成本:这些接口的成本可能很高,尤其是在大批量或大规模使用时。企业必须有效管理成本,以最大限度发挥 LLM API 的价值。
  • 安全漏洞:不法分子可以将 API 端点用于恶意目的,例如提取敏感数据、安装恶意软件或进行分布式拒绝服务 (DDoS) 攻击发送海量请求)。

 

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

高效使用 LLM API 的建议

LLM API 为企业通过 AI 实现其应用程序的全部潜力提供了可能性。以下是帮助企业更高效地使用 LLM API 的五种技术:

1. 考虑您的用例

选择最适合您的用例的语言模型。从基本功能开始,逐步使用更高级的功能。

例如,如果您只想进行情感分析,更小、更旧、更具成本效益的模型就可以满足您的需求。但是,如果您追求的是快速实时响应,例如客户服务聊天机器人和翻译应用程序,您可能会选择更大、更新的模型。更复杂的任务可能需要最新、最强大的变体模型。

一些提供商甚至还提供了针对特定用例的 API 和模型。OpenAI 的 Assistants API 针对的是构建 AI 助手,而 Mistral 则为编码和计算机视觉任务提供了 API。您还可以考虑微调 API,利用组织的训练数据对模型进行微调。

2. 管理成本

使用 LLM API 的成本可能会迅速增加,因此请密切关注您的使用情况。大多数提供商都有仪表板或工具来监控令牌的使用情况,并设置每月支出限额来管理您的成本。随时了解可能更适合企业预算并提供更多价值的定价和算法变化。

一些提供商对某些服务提供更低的价格或折扣。Google 的 Gemini API 和 OpenAI 一样,在上下文缓存方面价格更低,它将一组输入令牌存储在缓存中,供后续请求检索。当向模型传递重复内容时,无论是聊天机器人的重复指令、数据集的重复查询还是代码库的类似错误修复,这种做法都很有用。

同时,OpenAI 通过其 Batch API(Anthropic 和 Mistral 也有类似的 API)为批处理提供折扣。这种异步处理方式对于在大型数据集上发送不需要立即响应的成组请求(例如汇总冗长的文档或对内容进行分类)来说,是一种经济实惠的选择。

利用免费的 LLM API 层。这些层是免费的,但有令牌或使用量有限制。对于预算紧张的企业来说,免费 LLM API 层可能适合测试应用程序或构建原型。

3. 将安全放在首位

API 安全是任何组织的必须考虑的事项。以下是确保 API 与 LLM 交互安全的一些方法:

  • 实施安全协议,对通过 LLM API 传递的信息进行加密,从而保护传输中的数据。
  • 建立访问控制策略,只有授权用户才能访问 API 密钥,并限制对 API 本身的访问。
  • 在通过 LLM API 发送敏感信息之前,请先从数据集中删除这些信息。
  • 评估您选择的 LLM API 提供商的安全措施和政策。

4. 优化、优化、再优化

词元会影响成本,因此尽量减少输入词元的数量可以帮助降低成本并提高性能。尽量减少输入词元的一种方法是通过词元优化,这在很大程度上借鉴了提示工程策略。

以下是一些优化令牌的策略

  • 编写简洁明了的提示。使用直接的语言和重点突出的指令。
  • 如果无法避免冗长的提示语,则应将其分解成更小、更有意义的部分。
  • 删除冗余数据和不必要的细节。
  • 根据上下文,以结构化和一致的格式提供简短、极具代表性的示例。只包含对模型理解任务至关重要的信息。

5. 完善和监控

应用相关优化技术后,根据模型的输出结果不断完善提示。验证这些输出,确保它们正确无误。

观察您的使用模型是否符合您的预算,以及您是否正在实施最具成本效益的模型。采用 API 监控解决方案,根据响应时间、延迟和错误率等关键指标跟踪 LLM API 性能,以最大限度地提高所选模型的有效性。

常用的 LLM API

LLM API 是一个不断增长的市场。许多 LLM 开发人员拥有自己的 API,而其他外部 API 提供商则提供对各种大型语言模型的访问权限。

独立基准测试公司 Artificial Analysis 维护着一个广受欢迎的 LLM API 排行榜(ibm.com 外部链接),该排行榜就延迟、输出速度、质量和价格等指标对不同的 API 端点进行了比较和排名。

以下是一些热门的 LLM API:

Anthropic

AI 研究公司 Anthropic(ibm.com 外部链接)为其 Claude 系列大型语言模型提供了 API。这些模型包括该公司的最新高级产品 Claude 3.5 Sonnet;速度最快、最具成本效益的模型 Claude 3.5 Haiku;用于复杂任务的强大模型的 Claude 3 Opus。API 也可用于旧的模型版本,例如 Claude 3 Haiku 和 Claude 3 Sonnet。

有三种方法可以访问 API(ibm.com 外部链接):Anthropic 的 Web 控制台、GitHub 上的 Python 和 TypeScript 开发人员库,以及 Amazon Bedrock 和 Google Cloud Vertex AI 等合作伙伴平台。

Cohere

AI 公司 Cohere 为 Command R+ 和 Command R 提供了自己的 API(ibm.com 外部链接),Command R+ 是 Cohere 专为企业用例打造的 LLM,而 Command R 则是一种生成式 AI 模型,针对检索增强生成 (RAG) agentic AI 功能进行了优化。开发人员可以使用 Cohere 的命令行界面工具或通过 GitHub 上的 Go、Java、Python 和 TypeScript 库访问 API(ibm.com 外部链接)。

Google

Google 为其 Gemini 大型语言模型套件提供 API(ibm.com 外部链接)。这些模型包括速度最快的多模态 AI 模型 Gemini 1.5 Flash;最小的模型 Gemini 1.5 Flash-8B;下一代模型 Gemini 1.5 Pro;以及第一代模型 Gemini 1.0 Pro 等。

开发人员可以通过 Google AI Studio 和 Google Cloud Vertex AI 访问 Gemini API(ibm.com 外部链接)。此外,还提供不同编程语言的软件开发库。

IBM

IBM Granite 是 IBM LLM 基础模型的旗舰系列。开发人员可以使用 IBM watsonx 平台上的 API 访问 Granite 3.0 模型,特别是 Granite 3.0 2B Instruct 和 Granite 3.0 8B Instruct,它们是具有 20 亿和 80 亿参数的指令调整模型。Granite 3.0 开源模型还可通过 Google Vertex AI 和 Hugging Face 等平台合作伙伴获得。

Meta

Llama 是 Meta 的开源 AI 模型集。Llama 3 模型,尤其是 3.1 版本,可通过 Meta 各生态系统合作伙伴的 API 进行访问(ibm.com 外部链接)。

Meta 还发布了 Llama Stack(ibm.com 外部链接),以简化基于 Llama 模型构建的 AI 应用程序的开发和部署。Llama Stack 包含一组用于代理、推理、内存和安全等的可互操作 API。

Mistral

Mistral AI 为其主要模型(例如 Mistral Large、Mistral Small 和 Ministral)和免费模型(包括 Mistral NeMo 和 Mistral 7B)提供了不同的 API 端点(ibm.com 外部链接)。该公司还提供微调 API。Mistral API 可通过其自己的 La Plateforme 开发平台以及 IBM watsonx 和 Microsoft Azure AI 等合作伙伴平台访问。

OpenAI

ChatGPT 背后的公司 OpenAI 为其多种模型提供了 API(ibm.com 外部链接)。这些 API 包括最新的生成式预训练转换器 (GPT) 模型 GPT-4o 和 GPT-4o mini,以及旧的 OpenAI GPT 模型,例如 GPT-4 Turbo 和 GPT-3.5 Turbo。

OpenAI 的文本生成模型采用聊天完成 API 端点,其他 API 包括用于 OpenAI 图像模型的图像 API、用于文本到语音模型的音频 API 和用于低延迟应用的实时 API。开发人员可以通过 OpenAI 平台和各种编程语言的软件开发库访问 OpenAI API。

LLM API 在 AI 管道中发挥着至关重要的作用。通过将 LLM 的推理能力与编程接口的可用性相结合,LLM API 在大型语言模型与企业应用之间架起了一座桥梁。了解 LLM API 的内部工作原理以及如何高效地使用它们,可以帮助企业更好地将 AI 融入其系统中。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

相关解决方案
基础模型

深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解人工智能解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

深入了解 IBM watsonx 产品组合中的 IBM 基础模型库,满怀信心地为您的业务扩展生成式 AI。

深入了解 watsonx.ai 深入了解人工智能解决方案