定制基础模型的属性和参数
您可以设置和调整定制基础模型的参数以定义其行为。
定制基础模型的全局参数
您可以使用全局参数来部署自定义基础模型。 您必须在下表指定的范围内设置基本模型参数值。 如果不这样做,您的部署可能会失败,推理也将无法进行。 如果模型参数的默认值导致错误,请联系管理员修改 watsonxaiifm CR 中的模型注册表。
适用于所有模型的参数
您可以在指定值范围内使用以下全局参数来部署自定义基础模型:
| 参数 | 类型 | 数值范围 | 缺省值 | 描述 |
|---|---|---|---|---|
序列最大数量(max_num_seqs) |
数量 | max_num_seqs >= 1 |
16 | 指定在推理过程中并行处理的序列(请求)的最大数量。 较高的数值可以提高吞吐量,但需要更多的KV缓存内存。 |
Max Model Length(max_model_length) |
数量 | max_model_length >= 20; max_model_length <= model_context_length x max_num_seqs <= 可用 KV 缓存内存 |
2048 | 指定每个序列的最大令牌总数(输入 + 输出)。 max_num_seqs必须在模型的上下文长度范围内,并根据的值进行选择。 这两个参数都会影响 KV 缓存的内存使用情况。 |
注:
最大并发请求数 (max_concurrent_requests) 和最大批处理大小 (max_batch_size) 参数的值仅适用于在早期版本中部署且使用 软件 watsonx-cfm-caikit-1.0 规范的模型。 此软件规格书不适用于新部署。
有关详细参数描述,请参阅 定制基础模型的全局参数属性。
定制基础模型的全局参数的属性
可以将以下属性用于定制基础模型的全局参数:
| 属性 | 类型 | 必需或可选 | 描述 |
|---|---|---|---|
name |
字符串 | 必需 | 使用此属性来指定参数的名称。 |
default |
字符串,数字,布尔值 | 必需 | 使用此属性可指定参数的缺省值。 |
min |
数量 | 可选 | 使用此属性来指定比较器的最小值。 min 值必须小于或等于输入的值。 |
max |
数量 | 可选 | 使用此属性可指定参数的最大值。 max 值必须大于或等于输入值。 |
options |
字符串,数字 | 可选 | 使用此属性来指定要为参数选择的选项列表。 选项值的类型必须与参数值相同。 所选值必须在 options 列表中。 |
注:
- 如果系统管理员在模型注册阶段设置了默认模型参数,您可以在创建阶段和更新时覆盖这些参数。
- 如果系统管理员在模型注册阶段没有设置默认参数,watsonx会在创建阶段设置默认参数。 然后,您可以在更新期间覆盖它们。
- 时间序列模型不需要任何参数。 部署自定义时间序列模型时,请勿提供任何参数。 如果您在部署自定义时间序列模型时提供参数,这些参数将不起作用。
- 使用自定义推理运行时映像的模型会忽略在部署创建阶段设置的参数。 MLOps 工程师必须在创建运行时定义或模型注册时设置参数。 此外,可接受的参数列表可能与使用标准推理运行时间的模型所使用的参数列表不同。
为确保在重复推理场景中降低代币消耗并提升推理速度,使用运行时 vLLM 引擎的模型默认 true 启用了前缀缓存功能。 如果您的使用场景不同,或遇到缓存使用率过高、内存不足(OOM)等错误,请在模型参数中添加 参数 enable_prefix_caching ,并将该参数值设置为 false。
仅适用于具有聊天 API 的模型的参数
这些可选参数只适用于有聊天 API 并使用 vLLM 运行时引擎的模型。
此外,这些参数只能在部署模型或以编程方式更新已部署模型时使用:
| 参数 | 类型 | 数值范围 | 缺省值 | 描述 |
|---|---|---|---|---|
| 工具解析器名称 ( tool_call_parser) |
字符串 | 与模型匹配的工具解析器名称 | 不适用 | 可从用户在推理阶段提供的工具列表中自动选择。 您可以在 vLLM 文档中找到可用解析器的列表 |
| 聊天模板文件 ( chat_template) |
字符串 | 模板文件名称 | 不适用 | 覆盖模型提供的标准聊天模板。 有关更多信息,请参阅设置存储和上传模型。 |