自定义地基模型的全局参数

使用全局参数配置模型行为。

在下表指定的范围内设置基本模型参数值。 如果不这样做,您的部署可能会失败,推理也将无法进行。

适用于所有型号的参数

注:

时间序列模型不需要任何参数。 部署自定义时间序列模型时,请勿提供任何参数。 如果您在部署自定义时间序列模型时提供了参数,那么这些参数将不起作用。

自定义地基模型的全局参数
参数 类型 值的范围 缺省值 描述
数据类型
(dtype)
字符串 float16, bfloat16 float16 使用此参数指定模型的数据类型。
最大批量
(max_batch_size)
数量 max_batch_size >= 1 256 使用此参数可指定模型的最大批量大小。
最大并发请求数
(max_concurrent_requests)
数量 max_concurrent_requests >= 1 和 >= max_concurrent_requests max_batch_size 1024 使用此参数可指定可向模型发出的最大并发请求数。
最大新增代币数(max_new_tokens) 数量 max_new_tokens ≥ 20 2048 使用该参数可指定推理请求中模型可生成的最大标记数。
最大序列长度(max_sequence_length) 数量 max_sequence_length >= 20 和 > max_sequence_length max_new_tokens 2048 使用该参数可指定模型的最大序列长度。

仅适用于具有聊天 API 的模型的参数

这些可选参数只适用于有聊天 API 并使用 vLLM 运行时引擎的模型。

此外,这些参数只能在部署模型或以编程方式更新已部署模型时使用:

自定义地基模型的可选全局参数
参数 Type 值范围 缺省值 描述
工具解析器名称
(tool_call_parser)
字符串 与模型匹配的工具解析器名称 不适用 可从用户在推理阶段提供的工具列表中自动选择。 您可以在 vLLM 文档中找到可用解析器的列表
聊天模板文件
(chat_template)
字符串 模板文件名称 不适用 覆盖模型提供的标准聊天模板。 有关更多信息,请参阅将自定义基础模型添加到云对象存储中