Pianificazione dell'implementazione di un modello di base personalizzato in watsonx.ai

Esamina le considerazioni e i requisiti per l'implementazione di un modello di base personalizzato per l'inferenza con watsonx.ai.

Mentre ti prepari a implementare un modello di base personalizzato, verifica questi requisiti:

Requisiti di ruolo per le attività associate alla distribuzione di un modello di base personalizzato

L'amministratore di sistema deve eseguire le seguenti operazioni:
  1. Creazione di un'immagine runtime di inferenza personalizzata (se necessario)
  2. Configurazione dello spazio di archiviazione.
  3. Caricamento del modello.
  4. Registrazione del modello con watsonx.ai.

Requisiti e note sull'utilizzo dei modelli di base personalizzati

I modelli personalizzati implementabili devono soddisfare i seguenti requisiti:

  • L'elenco dei file per il modello deve contenere un config.json file. È config.json necessario caricare il modello nel runtime di inferenza. Il servizio di distribuzione richiederà la presenza del file config.json nella cartella dei contenuti del modello di base dopo che è stato caricato nell'archivio. Per informazioni su come verificare la presenza del file, consulta Pianificazione dell'implementazione di un modello di base personalizzato.
  • Modelli generici: il modello deve essere in un safetensors formato compatibile con la libreria transformers supportata. Se il modello non è in safetensors formato ma è comunque compatibile, un'utilità di conversione apporterà le modifiche necessarie come parte del processo di preparazione del modello.
  • Modelli generici: l'elenco dei file per il modello deve contenere un tokenizer.json file. Se la directory del modello non contiene questo file, è comunque possibile provare a distribuire il modello, ma è necessario sovrascrivere manualmente le impostazioni sul cluster. Per
  • Modelli di serie temporali: la directory dei modelli per i modelli di serie temporali deve contenere il tsfm_config.json file. I modelli di serie temporali ospitati su Hugging Face (model_type: tinytimemixer) potrebbero non includere questo file. Se il file non è presente al momento del download e dell'implementazione del modello, la previsione non andrà a buon fine. Per evitare problemi di previsione, dovrai eseguire un passaggio aggiuntivo quando scarichi il modello.
Nota: se il modello soddisfa tutti i requisiti ma continua a non funzionare, consultare la sezione Risoluzione dei problemi.

Raccolta dei dettagli necessari per un modello di fondazione personalizzato

Ad esempio, per il falcon-40b modello memorizzato su Hugging Face, fare clic su File e versioni per visualizzare la struttura dei file e verificare: config.json

visualizzazione dell'archivio e verifica dei config.json file

Il modello di esempio utilizza una versione dell'architettura falcon .

json.config file che mostra che il modello di esempio utilizza una versione dell'architettura Falcon

Questo modello di esempio contiene il tokenizer.json file ed è in formato .safetensors :

directory repository che mostra la struttura dei file in tokenizer.json formato.safetensors

Requisiti hardware per modelli di fondazione personalizzati

Le configurazioni hardware standard supportate per l'implementazione di modelli di base personalizzati sono:
  • NVIDIA A100 GPU con 80 GB di RAM
  • NVIDIA H100 GPU con 80 GB di RAM
  • NVIDIA H200 GPU con 141 GB di RAM
Se la configurazione della GPU è diversa (ad esempio GPU NVIDIA H100 con 40 GB di RAM), è necessario creare una specifica hardware personalizzata. Per ulteriori dettagli, consultare Creazione di specifiche hardware personalizzate.
Restrizione: non è possibile utilizzare GPU basate Intel Gaudi 3 AI Accelerator sull'architettura per implementazioni di modelli di base personalizzati.