自定义地基模型的全局参数
使用全局参数配置模型行为。
在下表指定的范围内设置基本模型参数值。 如果不这样做,您的部署可能会失败,推理也将无法进行。
适用于所有型号的参数
注:
时间序列模型不需要任何参数。 部署自定义时间序列模型时,请勿提供任何参数。 如果您在部署自定义时间序列模型时提供了参数,那么这些参数将不起作用。
| 参数 | 类型 | 值的范围 | 缺省值 | 描述 |
|---|---|---|---|---|
| 数据类型 ( dtype) |
字符串 | float16, bfloat16 |
float16 |
使用此参数指定模型的数据类型。 |
| 最大批量 ( max_batch_size) |
数量 | max_batch_size >= 1 |
256 | 使用此参数可指定模型的最大批量大小。 |
| 最大并发请求数 ( max_concurrent_requests) |
数量 | max_concurrent_requests >= 1 和 >= max_concurrent_requests max_batch_size |
1024 | 使用此参数可指定可向模型发出的最大并发请求数。 |
最大新增代币数(max_new_tokens) |
数量 | max_new_tokens ≥ 20 |
2048 | 使用该参数可指定推理请求中模型可生成的最大标记数。 |
最大序列长度(max_sequence_length) |
数量 | max_sequence_length >= 20 和 > max_sequence_length max_new_tokens |
2048 | 使用该参数可指定模型的最大序列长度。 |
仅适用于具有聊天 API 的模型的参数
这些可选参数只适用于有聊天 API 并使用 vLLM 运行时引擎的模型。
此外,这些参数只能在部署模型或以编程方式更新已部署模型时使用:
| 参数 | Type | 值范围 | 缺省值 | 描述 |
|---|---|---|---|---|
| 工具解析器名称 ( tool_call_parser) |
字符串 | 与模型匹配的工具解析器名称 | 不适用 | 可从用户在推理阶段提供的工具列表中自动选择。 您可以在 vLLM 文档中找到可用解析器的列表 |
| 聊天模板文件 ( chat_template) |
字符串 | 模板文件名称 | 不适用 | 覆盖模型提供的标准聊天模板。 有关更多信息,请参阅将自定义基础模型添加到云对象存储中 |