Pianificazione dell'implementazione di un modello di base personalizzato in watsonx.ai

Esamina le considerazioni e i requisiti per l'implementazione di un modello di base personalizzato per l'inferenza con watsonx.ai.

Mentre ti prepari a implementare un modello di base personalizzato, verifica questi requisiti:

Considera il tipo di modello che stai implementando. Le operazioni variano leggermente a seconda che si stia scaricando un modello da un repository pubblico come Hugging Face o un modello presente nel proprio ambiente. Per ogni attività di distribuzione, seguire i passaggi relativi al proprio scenario.
Esamina i requisiti del ruolo per le attività associate alla distribuzione di un modello di base personalizzato.
Esamina le architetture supportate per i modelli di base personalizzati per assicurarti che il tuo modello sia compatibile.
Verifica se il tuo modello richiede specifiche hardware personalizzate. Vedere Requisiti hardware per modelli di fondazione personalizzati.
5.3.1 e successivamente Verifica l'elenco delle modalità (testo, audio, video e immagini) che possono essere utilizzate durante l'inferenza del tuo modello.

Requisiti di ruolo per le attività associate alla distribuzione di un modello di base personalizzato

L'amministratore di sistema deve eseguire le seguenti operazioni:

Creazione di un'immagine runtime di inferenza personalizzata (se necessario)
Configurazione dello spazio di archiviazione.
Caricamento del modello.
Registrazione del modello con watsonx.ai.

Requisiti e note sull'utilizzo dei modelli di base personalizzati

I modelli personalizzati implementabili devono soddisfare i seguenti requisiti:

L'elenco dei file per il modello deve contenere un config.json file. È config.json necessario caricare il modello nel runtime di inferenza. Il servizio di distribuzione richiederà la presenza del file config.json nella cartella dei contenuti del modello di base dopo che è stato caricato nell'archivio. Per informazioni su come verificare la presenza del file, consulta Pianificazione dell'implementazione di un modello di base personalizzato.
Modelli generici: il modello deve essere in un safetensors formato compatibile con la libreria transformers supportata. Se il modello non è in safetensors formato ma è comunque compatibile, un'utilità di conversione apporterà le modifiche necessarie come parte del processo di preparazione del modello.
Modelli generici: l'elenco dei file per il modello deve contenere un tokenizer.json file. Se la directory del modello non contiene questo file, è comunque possibile provare a distribuire il modello, ma è necessario sovrascrivere manualmente le impostazioni sul cluster. Per
Modelli di serie temporali: la directory dei modelli per i modelli di serie temporali deve contenere il tsfm_config.json file. I modelli di serie temporali ospitati su Hugging Face (model_type: tinytimemixer) potrebbero non includere questo file. Se il file non è presente al momento del download e dell'implementazione del modello, la previsione non andrà a buon fine. Per evitare problemi di previsione, dovrai eseguire un passaggio aggiuntivo quando scarichi il modello.

Nota: se il modello soddisfa tutti i requisiti ma continua a non funzionare, consultare la sezione Risoluzione dei problemi.

Raccolta dei dettagli necessari per un modello di fondazione personalizzato

Ad esempio, per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare: config.json

visualizzazione dell'archivio e verifica dei config.json file

Il modello di esempio utilizza una versione dell'architettura falcon .

Questo modello di esempio contiene il tokenizer.json file ed è in formato .safetensors :

directory repository che mostra la struttura dei file in tokenizer.json formato.safetensors

Requisiti hardware per modelli di fondazione personalizzati

Le configurazioni hardware standard supportate per l'implementazione di modelli di base personalizzati sono:

NVIDIA A100 GPU con 80 GB di RAM
NVIDIA H100 GPU con 80 GB di RAM
NVIDIA H200 GPU con 141 GB di RAM

Se la configurazione della GPU è diversa (ad esempio GPU NVIDIA H100 con 40 GB di RAM), è necessario creare una specifica hardware personalizzata. Per ulteriori dettagli, consultare Creazione di specifiche hardware personalizzate.

Restrizione: non è possibile utilizzare GPU basate Intel Gaudi 3 AI Accelerator sull'architettura per implementazioni di modelli di base personalizzati.