模型网关(预览)

您可以通过模型网关安全地访问并与多个模型提供商的基础模型进行交互。 该模型网关提供了一个 OpenAI-compatible API,用于将来自不同模型供应商的请求路由至基础模型。

使用模型网关通过统一接口路由和格式化请求,实现多个模型提供商之间的高效切换。 您可以通过网关模型构建并部署AI代理、RAG模式等功能。

注:模型网关功能目前处于预览阶段,仅在多伦多区域可用。

该模型网关已通过认证,可访问以下基础模型提供商的模型:

  • IBM watsonx.ai

  • OpenAI

  • Azure OpenAI

  • Anthropic

  • AWS Bedrock

  • Cerebras

  • NVIDIA NIM

  • Google Gemini

功能

您可以使用具有以下功能的模型网关:

安全管理接入提供商
与 IBM Cloud Secrets Manager 集成,安全地存储和管理 API 密钥及其他敏感的配置数据。 Secrets Manager 在您选择的模型提供商和 watsonx.ai 之间安全地管理访问凭证。 您可以与 IBM Cloud Identity and Access Management (IAM) 集成,对谁可以检索和管理这些机密实施访问控制。
访问多种模式提供商
通过单一、统一的界面连接各种模型提供商。 通过 OpenAI-compatible API 端点,您可以使用一致的请求格式与不同的模型进行交互。 内置的负载均衡功能可将请求分配到各个可用模型,以优化性能并防止过载。 访问多个提供商可根据用例灵活集成模型,并加快测试和部署,而无需更改现有代码库。
自定义模型端点
通过模型网关配置端点,部署并管理您亲自精选的一组基础模型。 自定义端点可将自定义模型安全、可扩展地集成到您的应用程序中。
负载均衡
使用负载均衡器,可在多个模型后端之间确保高可用性,分发流量,并在扩展后端容量的同时调用单个稳定的别名。
费率限制
设置基于请求和基于令牌的限制,以防止资源密集型工作负载消耗共享容量,并确保各提供商之间的资源分配公平。
访问策略
使用访问策略来控制对模型和负载均衡器的访问(通过用户界面),以及对提供商端点、租户端点和策略端点的访问(通过 API)。
注:

通过模型网关添加的模型不能在 Prompt Lab 或 Tuning Studio 中启用。

要打开模型网关,请打开导航菜单,点击 “管理 ”,然后选择 “模型网关 ”。

工作方式

您可以通过多种方法来配置模型网关。 有关详细信息,请参阅 “设置模型网关 ”。

要通过网关对基础模型进行推理,您可以使用以下方法:

  • watsonx.ai REST API
  • OpenAI Python SDK。

有关详细信息,请参阅 “通过模型网关进行模型推理 ”。

工作流程

下图展示了通过网关配置模型网关及推理模型的工作流程:

展示 watsonx.aiIBM 模型网关工作流的示意图

以下是设置和使用模型网关所需步骤的高级概述:

  1. 创建一个 Secrets Manager 服务实例

  2. 允许“ watsonx.ai ”运行时服务实例访问“ Secrets Manager ”

  3. 通过模型网关配置基础模型提供商。 添加凭据并将其存储在 Secrets Manager 中。

  4. 为每个已配置的模型提供商添加模型

  5. 启用负载均衡、创建访问策略并为模型设置速率限制

  6. 可通过网关访问的推理基础模型

了解更多