Planificación de la implantación de un modelo de base personalizado

Revise las consideraciones y los requisitos para implementar un modelo de base personalizado para inferencias con watsonx.ai.

Nota:

Cargar y utilizar tu propio modelo personalizado solo está disponible en el plan Estándar para watsonx.ai.

Mientras se prepara para implantar un modelo de base personalizado, revise estas consideraciones de planificación:

Requisitos y notas de uso de los modelos de cimientos personalizados

Los modelos personalizados desplegables deben cumplir estos requisitos:

  • El modelo debe construirse con un tipo de arquitectura de modelo compatible.
  • La lista de archivos del modelo debe contener un archivo config.json.
  • Modelos de uso general: debe asegurarse de que su modelo de cimentación personalizado se guarda con la biblioteca transformers compatible. Si el archivo model.safetensors de su modelo de base personalizado utiliza un formato de datos no compatible en el encabezado de metadatos, es posible que la implantación falle. Para más información, consulte Resolución de problemas en watsonx.ai Runtime.
  • Modelos de series temporales: el directorio del modelo debe contener el archivo tsfm_config.json . Los modelos de series temporales alojados en Hugging Face (model_type: tinytimemixer) no pueden incluir este archivo. Si el archivo no está allí cuando el modelo se descarga y se despliega, la previsión fallará. Para evitar problemas de previsión, tendrás que realizar un paso adicional cuando descargues el modelo.

Además, debe asegurarse de que el proyecto o espacio en el que desea desplegar su modelo de base personalizado tiene asociada una instancia de watsonx.ai Runtime. Abre la pestaña Gestionar en tu proyecto o espacio para comprobarlo.

Arquitecturas de modelos compatibles

En las tablas siguientes se enumeran las arquitecturas de modelos que puede desplegar como modelos personalizados para inferencias con watsonx.ai. Las arquitecturas de los modelos se enumeran junto con información sobre los métodos de cuantización que admiten, los tensores paralelos, los tamaños de las configuraciones de despliegue y las especificaciones de software.

Nota:

Existen varias especificaciones de software para sus implantaciones:

  • La especificación de software watsonx-cfm-caikit-1.0 se basa en el motor de ejecución TGI.
  • La especificación del software watsonx-cfm-caikit-1.1 se basa en el motor de ejecución vLLM. Es mejor en términos de rendimiento, pero no está disponible con todos los modelos de arquitectura.
  • La especificación del software watsonx-tsfm-runtime-1.0 está diseñada para modelos de series temporales. Se basa en el tiempo de ejecución de inferencia watsonx-tsfm-runtime-1.0 .

Modelos de uso general:

Arquitecturas de modelos compatibles, métodos de cuantificación, tensores paralelos y especificaciones de software para modelos de uso general
Tipo de arquitectura del modelo Ejemplos de modelos de base Método de cuantificación Tensores paralelosmultiGpu) Especificaciones de software
bloom bigscience/bloom-3b, bigscience/bloom-560m N/D watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
codegen Salesforce/codegen-350M-mono, Salesforce/codegen-16B-mono N/D Nee watsonx-cfm-caikit-1.0
exaone lgai-exaone/exaone-3.0-7.8B-Instruct N/D Nee watsonx-cfm-caikit-1.1
falcon tiiuae/falcon-7b N/D watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gemma google/gemma-2b N/D watsonx-cfm-caikit-1.1
gemma2 google/gemma-2-9b N/D watsonx-cfm-caikit-1.1
gemma3 google/gemma-3-27b-it N/D watsonx-cfm-caikit-1.1
gpt_bigcode bigcode/starcoder, bigcode/gpt_bigcode-santacoder gptq watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt-neox rinna/japanese-gpt-neox-small, EleutherAI/pythia-12b, databricks/dolly-v2-12b N/D watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gptj EleutherAI/gpt-j-6b N/D Nee watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
gpt2 openai-community/gpt2-large N/D Nee watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
granite ibm-granite/granite-3.0-8b-instruct, ibm-granite/granite-3b-code-instruct-2k, granite-8b-code-instruct, granite-7b-lab N/D Nee watsonx-cfm-caikit-1.1
jais core42/jais-13b N/D watsonx-cfm-caikit-1.1
llama DeepSeek-R1 (distilled variant), meta-llama/Meta-Llama-3-8B, meta-llama/Meta-Llama-3.1-8B-Instruct, llama-2-13b-chat-hf, TheBloke/Llama-2-7B-Chat-AWQ, ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf gptq watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mistral mistralai/Mistral-7B-v0.3, neuralmagic/OpenHermes-2.5-Mistral-7B-marlin N/D Nee watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1
mixtral TheBloke/Mixtral-8x7B-v0.1-GPTQ, mistralai/Mixtral-8x7B-Instruct-v0.1 gptq Nee watsonx-cfm-caikit-1.1
mpt mosaicml/mpt-7b, mosaicml/mpt-7b-storywriter, mosaicml/mpt-30b N/D Nee watsonx-cfm-caikit-1.0, watsonx-cfm-caikit-1.1 (sólo con vLLM versión 0.7.4 )
mt5 google/mt5-small, google/mt5-xl N/D Nee watsonx-cfm-caikit-1.0
nemotron nvidia/Minitron-8B-Base N/D watsonx-cfm-caikit-1.1
olmo allenai/OLMo-1B-hf, allenai/OLMo-7B-hf N/D watsonx-cfm-caikit-1.1
persimmon adept/persimmon-8b-base, adept/persimmon-8b-chat N/D watsonx-cfm-caikit-1.1
phi microsoft/phi-2, microsoft/phi-1_5 N/D watsonx-cfm-caikit-1.1
phi3 microsoft/Phi-3-mini-4k-instruct N/D watsonx-cfm-caikit-1.1
qwen DeepSeek-R1 (distilled variant) N/D watsonx-cfm-caikit-1.1
qwen2 Qwen/Qwen2-7B-Instruct-AWQ AWQ watsonx-cfm-caikit-1.1
qwen3 Qwen/Qwen3-32B N/D watsonx-cfm-caikit-1.1
t5 google/flan-t5-large, google/flan-t5-small N/D watsonx-cfm-caikit-1.0

Modelos de series temporales:

Tabla 2. Arquitecturas de modelos compatibles, métodos de cuantificación, tensores paralelos, tamaños de configuración de despliegue y especificaciones de software para modelos de series temporales
Tipo de arquitectura del modelo Ejemplos de modelos de base Método de cuantificación Tensores paralelosmultiGpu) Configuraciones de despliegue Especificaciones de software
tinytimemixer ibm-granite/granite-timeseries-ttm-r2 N/D N/D Pequeño, Mediano, Grande, Extra grande watsonx-tsfm-runtime-1.0
Importante:
  • IBM sólo certifica las arquitecturas modelo que figuran en las tablas 1 y 2. Puede utilizar modelos con otras arquitecturas que sean compatibles con el marco de inferencia de vLLM, pero IBM no admite fallos de despliegue como resultado del despliegue de modelos foundation con arquitecturas no compatibles o características incompatibles.
  • No es posible desplegar codegen, mt5, y t5 modelos de tipo con la watsonx-cfm-caikit-1.1 especificación de software.
  • Si tu modelo no soporta tensores paralelos, la única configuración que puedes usar es una GPU, por ejemplo: 1 x L40S, 1 x A100, 1 x H100 y otras configuraciones similares de una sola GPU. Sin embargo, si su modelo se entrenó con un gran número de parámetros que excede la capacidad de una sola GPU, la implantación fallará. Para más información sobre las limitaciones, véase Directrices sobre la utilización de recursos.

Recopilación de los requisitos previos para un modelo de cimentación personalizado

  1. Compruebe la existencia del archivo config.json en la carpeta de contenido del modelo de cimentación. El servicio de despliegue comprobará la existencia del archivo config.json en la carpeta de contenido del modelo de cimentación después de cargarlo en el almacenamiento en la nube.

  2. Abra el archivo config.json para confirmar que el modelo de cimentación utiliza una arquitectura compatible.

    Importante:

    Debe asegurarse de que su modelo de base personalizado se guarda con la biblioteca transformers compatible. Si el archivo model.safetensors de su modelo de base personalizado utiliza un formato de datos no admitido en el encabezado de metadatos, su implantación podría fallar. Para más información, consulte Resolución de problemas en watsonx.ai Runtime.

Vea un ejemplo:

Para el falcon-40b modelo almacenado en Hugging Face, haga clic en Archivos y versiones para ver la estructura de archivos y comprobar si hay config.json:

Comprobación del archivo config.json dentro de un modelo de fundación alojado en Hugging Face

El modelo de ejemplo utiliza una versión de la arquitectura falcon soportada.

Comprobación de una arquitectura compatible para un modelo de cimentación

Si el modelo no cumple estos requisitos, no podrá crear un activo de modelo ni desplegar su modelo.

Directrices para la utilización de recursos

Modelos de series temporales

El tiempo de ejecución de inferencia para modelos de series temporales admite estas especificaciones de hardware: S (Pequeño), M (Mediano), L (Grande), XL (Extra grande).

Asigne una especificación de hardware a su modelo personalizado de series temporales, en función del número máximo de usuarios simultáneos y de las características de la carga útil:

Recomendaciones para la asignación de especificaciones de hardware, basadas en el número de usuarios concurrentes y las características de la carga útil
Series temporales univariantes Series temporales multivariantes (series x objetivos) Pequeña Medio Grande Extra grande
1000 23x100 6 6 25 50
500 15x80 10 21 42 85
250 15x40 13 26 53 106
125 15x20 13 27 premios 54 109
60 15x10 14 28 56 112
30 15x5 14 28 56 113

Modelos de uso general

  • Asigne la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) a cualquier modelo de precisión de doble byte bajo los parámetros 26B, sujeto a prueba y validación.
  • Asigne la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 27B y 53B, sujeto a prueba y validación.
  • Asigne la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ) a cualquier modelo de precisión de doble byte entre los parámetros 54B y 106B, sujeto a prueba y validación.
  • Si la configuración de 1 GPU (por ejemplo, 1 x A100, 1 x H100 ) falla, pruebe la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ).
  • Si la configuración de 2 GPU (por ejemplo, 2 x A100, 2 x H100 ) falla, pruebe la configuración de 4 GPU (por ejemplo, 4 x A100, 4 x H100 ).
Configuraciones de hardware y modelos de ejemplo
Configuración Ejemplos de modelos adecuados
1 Configuración GPU
(por ejemplo 1xH100 )
llama-3-8b
llama-2-13b
starcoder-15.5b
mt0-xxl-13b
jais-13b
gpt-neox-20b
flan-t5-xxl-11b
flan-ul2-20b
allam-1-13b
2 GPU confuguración
(por ejemplo 2xA100 )
codellama-34b
4 Configuración GPU
(por ejemplo 4xH100 )
llama-3-70b
llama-2-70b
La lista de todas las configuraciones de hardware de GPU disponibles
Configuración de la GPU Memoria total de la GPU
1 × L40S 48 GB
2 × L40S 96 GB
1 × A100 80 GB
2 × A100 160 GB
4 × A100 320 GB
8 × A100 640 GB
1 × H100 80 GB
2 × H100 160 GB
4 × H100 320 GB
8 × H100 640 GB
1 × H200 141 GB
2 × H200 282 GB
4 × H200 564 GB
8 × H200 1128 GB

Limitaciones y restricciones de los modelos de cimentación personalizados

  • Los modelos de series temporales no toman parámetros. No proporcione ningún parámetro cuando despliegue un modelo de series temporales personalizado. Si proporciona parámetros al desplegar un modelo personalizado de series temporales, no tendrán ningún efecto.
  • No se puede ajustar un modelo de base personalizado.
  • No puede utilizar watsonx.governance para evaluar o realizar el seguimiento de una plantilla de aviso para un modelo de base personalizado.

Próximos pasos

Descarga de un modelo de cimentación personalizado y configuración del almacenamiento