Planificación de la implantación de un modelo de base personalizado
Revise las consideraciones y los requisitos para implementar un modelo de base personalizado para inferencias con watsonx.ai.
Cargar y utilizar tu propio modelo personalizado solo está disponible en el plan Estándar para watsonx.ai.
Mientras se prepara para implantar un modelo de base personalizado, revise estas consideraciones de planificación:
- Revise los Requisitos y notas de uso para los modelos de cimientos personalizados
- Revise las arquitecturas admitidas para los modelos de cimentación personalizados para asegurarse de que su modelo es compatible
- Recopilar los detalles necesarios como requisitos previos para implantar un modelo de cimentación personalizado
- Seleccione una especificación de hardware para su modelo de cimentación personalizada
- Revisar las directrices de utilización de recursos
- Revisa las limitaciones de despliegue
- Habilitar credenciales de tareas para poder desplegar modelos de cimientos personalizados
- Verificar la lista de modalidades (texto, audio, vídeo e imagen) que pueden utilizarse al inferir su modelo
Requisitos y notas de uso de los modelos de cimientos personalizados
Los modelos personalizados desplegables deben cumplir estos requisitos:
- El modelo debe construirse con un tipo de arquitectura de modelo compatible.
- La lista de archivos del modelo debe contener un archivo
config.json. - Modelos de uso general: debe asegurarse de que su modelo de cimentación personalizado se guarda con la biblioteca
transformerscompatible. Si el archivomodel.safetensorsde su modelo de base personalizado utiliza un formato de datos no compatible en el encabezado de metadatos, es posible que la implantación falle. Para más información, consulte Resolución de problemas en watsonx.ai Runtime. - Modelos de series temporales: el directorio del modelo debe contener el archivo
tsfm_config.json. Los modelos de series temporales alojados en Hugging Face (model_type:tinytimemixer) no pueden incluir este archivo. Si el archivo no está allí cuando el modelo se descarga y se despliega, la previsión fallará. Para evitar problemas de previsión, tendrás que realizar un paso adicional cuando descargues el modelo.
Además, debe asegurarse de que el proyecto o espacio en el que desea desplegar su modelo de base personalizado tiene asociada una instancia de watsonx.ai Runtime. Abre la pestaña Gestionar en tu proyecto o espacio para comprobarlo.
Arquitecturas de modelos compatibles
En las tablas siguientes se enumeran las arquitecturas de modelos que puede desplegar como modelos personalizados para inferencias con watsonx.ai. Las arquitecturas de los modelos se enumeran junto con información sobre los métodos de cuantización que admiten, los tensores paralelos, los tamaños de las configuraciones de despliegue y las especificaciones de software.
Existen varias especificaciones de software para sus implantaciones:
- La especificación de software
watsonx-cfm-caikit-1.0se basa en el motor de ejecución TGI. - La especificación del software
watsonx-cfm-caikit-1.1se basa en el motor de ejecución vLLM. Es mejor en términos de rendimiento, pero no está disponible con todos los modelos de arquitectura. - La especificación del software
watsonx-tsfm-runtime-1.0está diseñada para modelos de series temporales. Se basa en el tiempo de ejecución de inferenciawatsonx-tsfm-runtime-1.0.
Modelos de uso general:
| Tipo de arquitectura del modelo | Ejemplos de modelos de base | Método de cuantificación | Tensores paralelosmultiGpu) | Especificaciones de software |
|---|---|---|---|---|
bloom |
bigscience/bloom-3b, bigscience/bloom-560m |
N/D | Sí | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
codegen |
Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono |
N/D | Nee | watsonx-cfm-caikit-1.0 |
exaone |
lgai-exaone/exaone-3.0-7.8B-Instruct |
N/D | Nee | watsonx-cfm-caikit-1.1 |
falcon |
tiiuae/falcon-7b |
N/D | Sí | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
gemma |
google/gemma-2b |
N/D | Sí | watsonx-cfm-caikit-1.1 |
gemma2 |
google/gemma-2-9b |
N/D | Sí | watsonx-cfm-caikit-1.1 |
gemma3 |
google/gemma-3-27b-it |
N/D | Sí | watsonx-cfm-caikit-1.1 |
gpt_bigcode |
bigcode/starcoder, bigcode/gpt_bigcode-santacoder |
gptq |
Sí | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
gpt-neox |
rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b |
N/D | Sí | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
gptj |
EleutherAI/gpt-j-6b |
N/D | Nee | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
gpt2 |
openai-community/gpt2-large |
N/D | Nee | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
granite |
ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab |
N/D | Nee | watsonx-cfm-caikit-1.1 |
jais |
core42/jais-13b |
N/D | Sí | watsonx-cfm-caikit-1.1 |
llama |
DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf |
gptq |
Sí | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
mistral |
mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin |
N/D | Nee | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 |
mixtral |
TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 |
gptq |
Nee | watsonx-cfm-caikit-1.1 |
mpt |
mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b |
N/D | Nee | watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 (sólo con vLLM versión 0.7.4 ) |
mt5 |
google/mt5-small, google/mt5-xl |
N/D | Nee | watsonx-cfm-caikit-1.0 |
nemotron |
nvidia/Minitron-8B-Base |
N/D | Sí | watsonx-cfm-caikit-1.1 |
olmo |
allenai/OLMo-1B-hf, allenai/OLMo-7B-hf |
N/D | Sí | watsonx-cfm-caikit-1.1 |
persimmon |
adept/persimmon-8b-base, adept/persimmon-8b-chat |
N/D | Sí | watsonx-cfm-caikit-1.1 |
phi |
microsoft/phi-2, microsoft/phi-1_5 |
N/D | Sí | watsonx-cfm-caikit-1.1 |
phi3 |
microsoft/Phi-3-mini-4k-instruct |
N/D | Sí | watsonx-cfm-caikit-1.1 |
qwen |
DeepSeek-R1 (distilled variant) |
N/D | Sí | watsonx-cfm-caikit-1.1 |
qwen2 |
Qwen/Qwen2-7B-Instruct-AWQ |
AWQ |
Sí | watsonx-cfm-caikit-1.1 |
qwen3 |
Qwen/Qwen3-32B |
N/D | Sí | watsonx-cfm-caikit-1.1 |
t5 |
google/flan-t5-large, google/flan-t5-small |
N/D | Sí | watsonx-cfm-caikit-1.0 |
Modelos de series temporales:
| Tipo de arquitectura del modelo | Ejemplos de modelos de base | Método de cuantificación | Tensores paralelosmultiGpu) | Configuraciones de despliegue | Especificaciones de software |
|---|---|---|---|---|---|
tinytimemixer |
ibm-granite/granite-timeseries-ttm-r2 |
N/D | N/D | Pequeño, Mediano, Grande, Extra grande | watsonx-tsfm-runtime-1.0 |
- IBM sólo certifica las arquitecturas modelo que figuran en las tablas 1 y 2. Puede utilizar modelos con otras arquitecturas que sean compatibles con el marco de inferencia de vLLM, pero IBM no admite fallos de despliegue como resultado del despliegue de modelos foundation con arquitecturas no compatibles o características incompatibles.
- No es posible desplegar
codegen,mt5, yt5modelos de tipo con lawatsonx-cfm-caikit-1.1especificación de software. - Si tu modelo no soporta tensores paralelos, la única configuración que puedes usar es una GPU, por ejemplo:
1 x L40S,1 x A100,1 x H100y otras configuraciones similares de una sola GPU. Sin embargo, si su modelo se entrenó con un gran número de parámetros que excede la capacidad de una sola GPU, la implantación fallará. Para más información sobre las limitaciones, véase Directrices sobre la utilización de recursos.
Recopilación de los requisitos previos para un modelo de cimentación personalizado
Compruebe la existencia del archivo
config.jsonen la carpeta de contenido del modelo de cimentación. El servicio de despliegue comprobará la existencia del archivoconfig.jsonen la carpeta de contenido del modelo de cimentación después de cargarlo en el almacenamiento en la nube.Abra el archivo
config.jsonpara confirmar que el modelo de cimentación utiliza una arquitectura compatible.Importante:Debe asegurarse de que su modelo de base personalizado se guarda con la biblioteca
transformerscompatible. Si el archivo model.safetensors de su modelo de base personalizado utiliza un formato de datos no admitido en el encabezado de metadatos, su implantación podría fallar. Para más información, consulte Resolución de problemas en watsonx.ai Runtime.
Vea un ejemplo:
Para el falcon-40b modelo almacenado en Hugging Face, haga clic en Archivos y versiones para ver la estructura de archivos y comprobar si hay config.json:

El modelo de ejemplo utiliza una versión de la arquitectura falcon soportada.

Si el modelo no cumple estos requisitos, no podrá crear un activo de modelo ni desplegar su modelo.
Directrices para la utilización de recursos
Modelos de series temporales
El tiempo de ejecución de inferencia para modelos de series temporales admite estas especificaciones de hardware: S (Pequeño), M (Mediano), L (Grande), XL (Extra grande).
Asigne una especificación de hardware a su modelo personalizado de series temporales, en función del número máximo de usuarios simultáneos y de las características de la carga útil:
| Series temporales univariantes | Series temporales multivariantes (series x objetivos) | Pequeña | Medio | Grande | Extra grande |
|---|---|---|---|---|---|
| 1000 | 23x100 | 6 | 6 | 25 | 50 |
| 500 | 15x80 | 10 | 21 | 42 | 85 |
| 250 | 15x40 | 13 | 26 | 53 | 106 |
| 125 | 15x20 | 13 | 27 premios | 54 | 109 |
| 60 | 15x10 | 14 | 28 | 56 | 112 |
| 30 | 15x5 | 14 | 28 | 56 | 113 |
Modelos de uso general
- Asigne la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) a cualquier modelo de precisión de doble byte bajo los parámetros 26B, sujeto a prueba y validación.
- Asigne la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 27B y 53B, sujeto a prueba y validación.
- Asigne la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 54B y 106B, sujeto a prueba y validación.
- Si la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) falla, pruebe la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ).
- Si la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) falla, pruebe la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ).
| Configuración | Ejemplos de modelos adecuados |
|---|---|
| 1 Configuración GPU (por ejemplo 1xH100 ) |
llama-3-8bllama-2-13bstarcoder-15.5bmt0-xxl-13bjais-13bgpt-neox-20bflan-t5-xxl-11bflan-ul2-20ballam-1-13b |
| 2 GPU confuguración (por ejemplo 2xA100 ) |
codellama-34b |
| 4 Configuración GPU (por ejemplo 4xH100 ) |
llama-3-70b llama-2-70b |
| Configuración de la GPU | Memoria total de la GPU |
|---|---|
| 1 × L40S | 48 GB |
| 2 × L40S | 96 GB |
| 1 × A100 | 80 GB |
| 2 × A100 | 160 GB |
| 4 × A100 | 320 GB |
| 8 × A100 | 640 GB |
| 1 × H100 | 80 GB |
| 2 × H100 | 160 GB |
| 4 × H100 | 320 GB |
| 8 × H100 | 640 GB |
| 1 × H200 | 141 GB |
| 2 × H200 | 282 GB |
| 4 × H200 | 564 GB |
| 8 × H200 | 1128 GB |
Limitaciones y restricciones de los modelos de cimentación personalizados
- Los modelos de series temporales no toman parámetros. No proporcione ningún parámetro cuando despliegue un modelo de series temporales personalizado. Si proporciona parámetros al desplegar un modelo personalizado de series temporales, no tendrán ningún efecto.
- No se puede ajustar un modelo de base personalizado.
- No puede utilizar watsonx.governance para evaluar o realizar el seguimiento de una plantilla de aviso para un modelo de base personalizado.
Próximos pasos
Descarga de un modelo de cimentación personalizado y configuración del almacenamiento