Planificación de la implantación de un modelo de base personalizado

Revise las consideraciones y los requisitos para implementar un modelo de base personalizado para inferencias con watsonx.ai.

Nota:

Cargar y utilizar tu propio modelo personalizado solo está disponible en el plan Estándar para watsonx.ai.

Mientras se prepara para implantar un modelo de base personalizado, revise estas consideraciones de planificación:

Revise los Requisitos y notas de uso para los modelos de cimientos personalizados
Revise las arquitecturas admitidas para los modelos de cimentación personalizados para asegurarse de que su modelo es compatible
Recopilar los detalles necesarios como requisitos previos para implantar un modelo de cimentación personalizado
Seleccione una especificación de hardware para su modelo de cimentación personalizada
Revisar las directrices de utilización de recursos
Revisa las limitaciones de despliegue
Habilitar credenciales de tareas para poder desplegar modelos de cimientos personalizados
Verificar la lista de modalidades (texto, audio, vídeo e imagen) que pueden utilizarse al inferir su modelo

Requisitos y notas de uso de los modelos de cimientos personalizados

Los modelos personalizados desplegables deben cumplir estos requisitos:

El modelo debe construirse con un tipo de arquitectura de modelo compatible.
La lista de archivos del modelo debe contener un archivo config.json.
Modelos de uso general: debe asegurarse de que su modelo de cimentación personalizado se guarda con la biblioteca transformers compatible. Si el archivo model.safetensors de su modelo de base personalizado utiliza un formato de datos no compatible en el encabezado de metadatos, es posible que la implantación falle. Para más información, consulte Resolución de problemas en watsonx.ai Runtime.
Modelos de series temporales: el directorio del modelo debe contener el archivo tsfm_config.json . Los modelos de series temporales alojados en Hugging Face (model_type: tinytimemixer) no pueden incluir este archivo. Si el archivo no está allí cuando el modelo se descarga y se despliega, la previsión fallará. Para evitar problemas de previsión, tendrás que realizar un paso adicional cuando descargues el modelo.

Además, debe asegurarse de que el proyecto o espacio en el que desea desplegar su modelo de base personalizado tiene asociada una instancia de watsonx.ai Runtime. Abre la pestaña Gestionar en tu proyecto o espacio para comprobarlo.

Arquitecturas de modelos compatibles

En las tablas siguientes se enumeran las arquitecturas de modelos que puede desplegar como modelos personalizados para inferencias con watsonx.ai. Las arquitecturas de los modelos se enumeran junto con información sobre los métodos de cuantización que admiten, los tensores paralelos, los tamaños de las configuraciones de despliegue y las especificaciones de software.

Nota:

Existen varias especificaciones de software para sus implantaciones:

La especificación de software watsonx-cfm-caikit-1.0 se basa en el motor de ejecución TGI.
La especificación del software watsonx-cfm-caikit-1.1 se basa en el motor de ejecución vLLM. Es mejor en términos de rendimiento, pero no está disponible con todos los modelos de arquitectura.
La especificación del software watsonx-tsfm-runtime-1.0 está diseñada para modelos de series temporales. Se basa en el tiempo de ejecución de inferencia watsonx-tsfm-runtime-1.0 .

Modelos de uso general:

Arquitecturas de modelos compatibles, métodos de cuantificación, tensores paralelos y especificaciones de software para modelos de uso general
Tipo de arquitectura del modelo	Ejemplos de modelos de base	Método de cuantificación	Tensores paralelosmultiGpu)	Especificaciones de software
`bloom`	`bigscience/bloom-3b`, `bigscience/bloom-560m`	N/D	Sí	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`codegen`	`Salesforce/codegen-350M-mono`, `Salesforce/codegen-16B-mono`	N/D	Nee	`watsonx-cfm-caikit-1.0`
`exaone`	`lgai-exaone/exaone-3.0-7.8B-Instruct`	N/D	Nee	`watsonx-cfm-caikit-1.1`
`falcon`	`tiiuae/falcon-7b`	N/D	Sí	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gemma`	`google/gemma-2b`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`gemma2`	`google/gemma-2-9b`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`gemma3`	`google/gemma-3-27b-it`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`gpt_bigcode`	`bigcode/starcoder`, `bigcode/gpt_bigcode-santacoder`	`gptq`	Sí	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt-neox`	`rinna/japanese-gpt-neox-small`, `EleutherAI/pythia-12b`, `databricks/dolly-v2-12b`	N/D	Sí	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gptj`	`EleutherAI/gpt-j-6b`	N/D	Nee	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`gpt2`	`openai-community/gpt2-large`	N/D	Nee	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`granite`	`ibm-granite/granite-3.0-8b-instruct`, `ibm-granite/granite-3b-code-instruct-2k`, `granite-8b-code-instruct`, `granite-7b-lab`	N/D	Nee	`watsonx-cfm-caikit-1.1`
`jais`	`core42/jais-13b`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`llama`	`DeepSeek-R1 (distilled variant)`, `meta-llama/Meta-Llama-3-8B`, `meta-llama/Meta-Llama-3.1-8B-Instruct`, `llama-2-13b-chat-hf`, `TheBloke/Llama-2-7B-Chat-AWQ`, `ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf`	`gptq`	Sí	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mistral`	`mistralai/Mistral-7B-v0.3`, `neuralmagic/OpenHermes-2.5-Mistral-7B-marlin`	N/D	Nee	`watsonx-cfm-caikit-1.0`, `watsonx-cfm-caikit-1.1`
`mixtral`	`TheBloke/Mixtral-8x7B-v0.1-GPTQ`, `mistralai/Mixtral-8x7B-Instruct-v0.1`	`gptq`	Nee	`watsonx-cfm-caikit-1.1`
`mpt`	`mosaicml/mpt-7b`, `mosaicml/mpt-7b-storywriter`, `mosaicml/mpt-30b`	N/D	Nee	`watsonx-cfm-caikit-1.0`
`mt5`	`google/mt5-small`, `google/mt5-xl`	N/D	Nee	`watsonx-cfm-caikit-1.0`
`nemotron`	`nvidia/Minitron-8B-Base`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`olmo`	`allenai/OLMo-1B-hf`, `allenai/OLMo-7B-hf`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`persimmon`	`adept/persimmon-8b-base`, `adept/persimmon-8b-chat`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`phi`	`microsoft/phi-2`, `microsoft/phi-1_5`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`phi3`	`microsoft/Phi-3-mini-4k-instruct`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`qwen`	`DeepSeek-R1 (distilled variant)`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`qwen2`	`Qwen/Qwen2-7B-Instruct-AWQ`	`AWQ`	Sí	`watsonx-cfm-caikit-1.1`
`qwen3`	`Qwen/Qwen3-32B`	N/D	Sí	`watsonx-cfm-caikit-1.1`
`t5`	`google/flan-t5-large`, `google/flan-t5-small`	N/D	Sí	`watsonx-cfm-caikit-1.0`

Modelos de series temporales:

Tabla 2. Arquitecturas de modelos compatibles, métodos de cuantificación, tensores paralelos, tamaños de configuración de despliegue y especificaciones de software para modelos de series temporales
Tipo de arquitectura del modelo	Ejemplos de modelos de base	Método de cuantificación	Tensores paralelosmultiGpu)	Configuraciones de despliegue	Especificaciones de software
`tinytimemixer`	`ibm-granite/granite-timeseries-ttm-r2`	N/D	N/D	Pequeño, Mediano, Grande, Extra grande	`watsonx-tsfm-runtime-1.0`

Importante:

IBM sólo certifica las arquitecturas modelo que figuran en las tablas 1 y 2. Puede utilizar modelos con otras arquitecturas que sean compatibles con el marco de inferencia de vLLM, pero IBM no admite fallos de despliegue como resultado del despliegue de modelos foundation con arquitecturas no compatibles o características incompatibles.
No es posible desplegar codegen, mt5, y t5 modelos de tipo con la watsonx-cfm-caikit-1.1 especificación de software.
Si tu modelo no soporta tensores paralelos, la única configuración que puedes usar es una GPU, por ejemplo: 1 x L40S, 1 x A100, 1 x H100 y otras configuraciones similares de una sola GPU. Sin embargo, si su modelo se entrenó con un gran número de parámetros que excede la capacidad de una sola GPU, la implantación fallará. Para más información sobre las limitaciones, véase Directrices sobre la utilización de recursos.

Recopilación de los requisitos previos para un modelo de cimentación personalizado

Compruebe la existencia del archivo config.json en la carpeta de contenido del modelo de cimentación. El servicio de despliegue comprobará la existencia del archivo config.json en la carpeta de contenido del modelo de cimentación después de cargarlo en el almacenamiento en la nube.
Abra el archivo config.json para confirmar que el modelo de cimentación utiliza una arquitectura compatible.

Importante:
Debe asegurarse de que su modelo de base personalizado se guarda con la biblioteca transformers compatible. Si el archivo model.safetensors de su modelo de base personalizado utiliza un formato de datos no admitido en el encabezado de metadatos, su implantación podría fallar. Para más información, consulte Resolución de problemas en watsonx.ai Runtime.

Vea un ejemplo:

Para el falcon-40b modelo almacenado en Hugging Face, haga clic en Archivos y versiones para ver la estructura de archivos y comprobar si hay config.json:

Comprobación del archivo config.json dentro de un modelo de fundación alojado en Hugging Face

El modelo de ejemplo utiliza una versión de la arquitectura falcon soportada.

Comprobación de una arquitectura compatible para un modelo de cimentación

Si el modelo no cumple estos requisitos, no podrá crear un activo de modelo ni desplegar su modelo.

Directrices para la utilización de recursos

Modelos de series temporales

El tiempo de ejecución de inferencia para modelos de series temporales admite estas especificaciones de hardware: S (Pequeño), M (Mediano), L (Grande), XL (Extra grande).

Asigne una especificación de hardware a su modelo personalizado de series temporales, en función del número máximo de usuarios simultáneos y de las características de la carga útil:

Recomendaciones para la asignación de especificaciones de hardware, basadas en el número de usuarios concurrentes y las características de la carga útil
Series temporales univariantes	Series temporales multivariantes (series x objetivos)	Pequeña	Medio	Grande	Extra grande
1000	23x100	6	6	25	50
500	15x80	10	21	42	85
250	15x40	13	26	53	106
125	15x20	13	27 premios	54	109
60	15x10	14	28	56	112
30	15x5	14	28	56	113

Modelos de uso general

Asigne la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) a cualquier modelo de precisión de doble byte bajo los parámetros 26B, sujeto a prueba y validación.
Asigne la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 27B y 53B, sujeto a prueba y validación.
Asigne la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 54B y 106B, sujeto a prueba y validación.
Si la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) falla, pruebe la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ).
Si la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) falla, pruebe la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ).

Configuraciones de hardware y modelos de ejemplo
Configuración	Ejemplos de modelos adecuados
1 Configuración GPU (por ejemplo 1xH100 )	`llama-3-8b` `llama-2-13b` `starcoder-15.5b` `mt0-xxl-13b` `jais-13b` `gpt-neox-20b` `flan-t5-xxl-11b` `flan-ul2-20b` `allam-1-13b`
2 GPU confuguración (por ejemplo 2xA100 )	`codellama-34b`
4 Configuración GPU (por ejemplo 4xH100 )	`llama-3-70b` `llama-2-70b`

La lista de todas las configuraciones de hardware de GPU disponibles
Configuración de la GPU	Memoria total de la GPU
1 × L40S	48 GB
2 × L40S	96 GB
1 × A100	80 GB
2 × A100	160 GB
4 × A100	320 GB
8 × A100	640 GB
1 × H100	80 GB
2 × H100	160 GB
4 × H100	320 GB
8 × H100	640 GB
1 × H200	141 GB
2 × H200	282 GB
4 × H200	564 GB
8 × H200	1128 GB

Limitaciones y restricciones de los modelos de cimentación personalizados

Los modelos de series temporales no toman parámetros. No proporcione ningún parámetro cuando despliegue un modelo de series temporales personalizado. Si proporciona parámetros al desplegar un modelo personalizado de series temporales, no tendrán ningún efecto.
No se puede ajustar un modelo de base personalizado.
No puede utilizar watsonx.governance para evaluar o realizar el seguimiento de una plantilla de aviso para un modelo de base personalizado.

Próximos pasos

Descarga de un modelo de cimentación personalizado y configuración del almacenamiento