Fehlerbehebung Watson Machine Learning

Befolgen Sie diese Tipps, um häufig auftretende Probleme zu lösen, die beim Arbeiten mit Watson Machine Learningauftreten können.

Fehlersuche bei AutoAI

Fehlerbehebung bei Installationen

Fehlersuche bei AutoAI

Befolgen Sie diese Tipps, um allgemeine Probleme zu lösen, die bei der Arbeit mit AutoAI auftreten können.

Ein AutoAI mit Anomalievorhersage schlägt fehl

Die Funktion zur Vorhersage von Anomalien in den Ergebnissen eines Zeitreihenexperiments wird nicht mehr unterstützt. Der Versuch, ein vorhandenes Experiment auszuführen, führt zu Fehlern wegen fehlender Laufzeitbibliotheken. Zum Beispiel könnte dieser Fehler auftreten:

The selected environment seems to be invalid: Could not retrieve environment. CAMS error: Missing or invalid asset id

Dieses Verhalten ist zu erwarten, da die Laufzeiten für die Vorhersage von Anomalien nicht unterstützt werden. Für dieses Problem gibt es keine Abhilfe.

AutoAI für ein RAG-Experiment überschreitet Modellgrenzen

Wenn Sie ein Inferenz-Notizbuch ausführen, das für ein AutoAI RAG-Experiment generiert wurde, können Sie manchmal diesen Fehler erhalten:

MissingValue: No "model_limits" provided. Reason: Model <model-nam> limits cannot be found in the model details.

Der Fehler zeigt an, dass die Token-Grenzen für die Herleitung des für das Experiment verwendeten Basismodells fehlen. Um das Problem zu lösen, suchen Sie die Funktion " default_inference_function und ersetzen Sie " get_max_input_tokens durch die maximalen Token für das Modell. Zum Beispiel:

model = ModelInference(api_client=client, **params['model"])
# model_max_input_tokens = get+max_input_tokens(model=model, params=params)
model_max_input_tokens = 4096

Sie finden den maximalen Token-Wert für das Modell in der Tabelle der unterstützten Foundation-Modelle, die in watsonx.ai verfügbar sind.

Training eines AutoAI-Experiments schlägt mit Service-ID-Anmeldeinformationen fehl

Wenn Sie ein AutoAI-Experiment mit dem API-Schlüssel für die serviceID, trainieren, kann das Training mit diesem Fehler fehlschlagen:

User specified in query parameters does not match user from token.

Eine Möglichkeit, dieses Problem zu lösen, besteht darin, das Experiment mit Ihren Benutzeranmeldedaten durchzuführen. Wenn Sie das Experiment mit Anmeldeinformationen für den Dienst durchführen möchten, führen Sie die folgenden Schritte aus, um die Rollen und Richtlinien für die Dienst-ID zu aktualisieren.

  1. Öffnen Sie Ihre serviceID auf IBM Cloud. Suche nach der Seite serviceID policy
  2. Erstellen Sie eine neue serviceID oder aktualisieren Sie die vorhandene ID mit der folgenden Zugriffsrichtlinie:
    • Alle IAM Account Management Services mit den Rollen API Key Reviewer, User API Key Creator, Viewer, Operator und Editor. Idealerweise erstellen sie dafür einen neuen ServiceId Apikey. Aktualisierung der Richtlinien und Rollen für eine serviceID
  3. Die aktualisierte Richtlinie sieht wie folgt aus: Aktualisierte serviceID Richtlinie
  4. Führen Sie das Training erneut mit den Anmeldeinformationen für die aktualisierte serviceID durch.

Vorhersageanforderung für AutoAI Zeitreihenmodell kann bei zu vielen neuen Beobachtungen auslaufen

Eine Vorhersageanforderung kann für ein eingesetztes AutoAI-Zeitreihenmodell eine Zeitüberschreitung verursachen, wenn zu viele neue Beobachtungen übermittelt werden. Führen Sie einen der folgenden Schritte aus, um das Problem zu lösen:

  • Reduzieren Sie die Anzahl der neuen Beobachtungen.
  • Erweitern Sie die für das Experiment verwendeten Trainingsdaten, indem Sie neue Beobachtungen hinzufügen. Führen Sie dann das AutoAI Zeitreihenexperiment mit den aktualisierten Trainingsdaten erneut durch.

Unzureichende Klassenmitglieder in Trainingsdaten für das Experiment AutoAI

Trainingsdaten für ein AutoAI -Experiment müssen mindestens 4 Mitglieder pro Klasse enthalten. Wenn Ihre Trainingsdaten eine unzureichende Anzahl von Mitgliedern in einer Klasse enthalten, tritt der folgende Fehler auf:

ERROR: ingesting data Message id: AC10011E. Message: Each class must have at least 4 members. The following classes have too few members: ['T'].

Um das Problem zu beheben, aktualisieren Sie die Trainingsdaten, um die Klasse zu entfernen oder um weitere Mitglieder hinzuzufügen.

Assets aus Cloud Pak for Data, die watsonx.ai benötigen, können nicht geöffnet werden

Wenn Sie im Kontext von Cloud Pak for Data arbeiten, können Sie keine Assets öffnen, die einen anderen Produktkontext erfordern, wie z. B. watsonx.ai. Wenn Sie zum Beispiel ein AutoAI für ein RAG-Muster mit watsonx.ai erstellen, können Sie dieses Asset nicht öffnen, wenn Sie sich im Kontext von Cloud Pak for Data befinden. Bei AutoAI können Sie den Trainingstyp in der Asset-Liste einsehen. Sie können Experimente mit dem Typ Maschinelles Lernen eröffnen, aber nicht mit dem Typ Retrieval-augmented generation.

Fehlerbehebung bei Installationen

Befolgen Sie diese Tipps, um häufige Probleme zu lösen, die bei der Arbeit mit Watson Machine Learning auftreten können.

Stapelbereitstellungen, die große Datenvolumen als Eingabe verwenden, schlagen möglicherweise fehl

Wenn Sie ein Scoring für einen Batch-Job durchführen, der große Datenvolumen als Eingabequelle verwendet, schlägt der Job möglicherweise bei internen Zeitlimiteinstellungen fehl. Ein Symptom dieses Problems könnte eine Fehlernachricht ähnlich der folgenden sein:

Incorrect input data: Flight returned internal error, with message: CDICO9999E: Internal error occurred: Snowflake sQL logged error: JDBC driver internal error: Timeout waiting for the download of #chunk49(Total chunks: 186) retry=0.

Wenn das Zeitlimit beim Scoring Ihrer Stapelbereitstellung auftritt, müssen Sie die Begrenzung für das Zeitlimit auf Datenquellenabfrageebene konfigurieren, um Jobs mit langer Laufzeit zu verarbeiten.

Zeitlimitinformationen auf Abfrageebene für Datenquellen lauten wie folgt:

Informationen zur Zeitbegrenzung auf Abfrageebene für Datenquellen
Datenquelle Zeitbegrenzung auf Abfrageebene Standardzeitlimit Standardzeitlimit ändern
Apache Cassandra Ja 10 Sekunden Setzen Sie die Parameter ' read_timeout_in_ms und ' write_timeout_in_ms in der Apache Cassandra oder in der URL, um das Standard-Zeitlimit zu ändern.
Cloud Object Storage Nein Nicht zutreffend Nicht zutreffend
Db2 Ja Nicht zutreffend Legen Sie den Parameter QueryTimeout fest, um anzugeben, wie lange (in Sekunden) ein Client auf die Beendigung einer Abfrageausführung wartet, bevor ein Client versucht, die Ausführung abzubrechen und die Steuerung an die Anwendung zurückzugeben.
Hive via Execution Engine for Hadoop Ja 60 Minuten (3600 Sekunden) Legen Sie die Eigenschaft " hive.session.query.timeout in der URL fest, um das Standardzeitlimit zu ändern.
Microsoft SQL Server Ja 30 Sekunden Legen Sie die Serverkonfigurationsoption QUERY_TIMEOUT fest, um das Standardzeitlimit zu ändern.
MongoDB Ja 30 Sekunden Legen Sie den Parameter maxTimeMS in den Abfrageoptionen fest, um das Standardzeitlimit zu ändern.
MySQL Ja 0 Sekunden (kein Standardzeitlimit) Setzen Sie die Eigenschaft ' timeout in der URL oder in den JDBC, um ein Zeitlimit für Ihre Abfrage festzulegen.
Oracle Ja 30 Sekunden Legen Sie den Parameter QUERY_TIMEOUT im Oracle JDBC -Treiber fest, um anzugeben, wie lange eine Abfrage maximal ausgeführt werden kann, bevor sie automatisch abgebrochen wird.
PostgreSQL Nein Nicht zutreffend Legen Sie die Eigenschaft queryTimeout fest, um anzugeben, wie lange eine Abfrage maximal ausgeführt werden kann. Der Standardwert der Eigenschaft queryTimeout ist 0.
Snowflake Ja 6 Stunden Legen Sie den Parameter queryTimeout fest, um das Standardzeitlimit zu ändern.

Damit Ihre Stapelbereitstellungen nicht fehlschlagen, partitionieren Sie Ihre Datei oder verringern Sie ihre Größe.

Sicherheit für Dateiuploads

Dateien, die Sie über die Benutzerschnittstelle von Watson Studio oder Watson Machine Learning hochladen, werden nicht validiert oder auf potenziell schädlichen Inhalt gescannt. Es wird empfohlen, vor dem Hochladen Sicherheitssoftware (z. B. eine Antivirenanwendung) für alle Dateien auszuführen, um die Sicherheit Ihrer Inhalte sicherzustellen.

Bereitstellungen mit eingeschränkten Softwarespezifikationen schlagen nach einem Upgrade fehl

Wenn Sie auf eine neuere Version von IBM Cloud Pak for Data aktualisieren und ein R Shiny-Anwendungs-Asset bereitstellen, das unter Verwendung eingeschränkter Softwarespezifikationen im FIPS-Modus erstellt wurde, schlägt die Bereitstellung fehl.

Beispielsweise schlagen Bereitstellungen, die shiny-r3.6 und shiny-r4.2 Softwarespezifikationen verwenden, nach einem Upgrade von IBM Cloud Pak for Data Version 4.7.0 auf 4.8.4 oder höher fehl. Möglicherweise erhalten Sie die FehlermeldungError 502 - Bad Gateway .

Um zu verhindern, dass Ihre Bereitstellung fehlschlägt, aktualisieren Sie die eingeschränkte Spezifikation für Ihr bereitgestelltes Asset, um die neueste Softwarespezifikation zu verwenden. Weitere Informationen finden Sie unter Verwalten veralteter Softwarespezifikationen oder Frameworks. Sie können Ihre Anwendungsbereitstellung auch löschen, wenn Sie sie nicht mehr benötigen.

Das Erstellen eines Auftrags für einen SPSS Modeler-Flow in einem Bereitstellungsraum schlägt fehl

Während der Konfiguration eines Batch-Jobs für Ihren SPSS Modeler-Flow in einem Deployment-Space kann die automatische Zuordnung von Daten-Assets zu ihrer jeweiligen Verbindung fehlschlagen.

Das Bild zeigt, dass die automatische Zuordnung von Datenbeständen und Verbindungen nicht funktioniert

Er schlägt fehl, weil der Auftrag kein Daten-Asset oder keine Verbindung mit demselben Namen im Bereitstellungsbereich finden kann. Gehen Sie folgendermaßen vor, um den Fehler bei der automatischen Zuordnung zu beheben:

  1. Überprüfen Sie die Details Ihres Bereitstellungsauftrags, um festzustellen, ob das Datenelement oder die Verbindung fehlt oder ob der Fluss nicht auf das richtige Datenelement verweist.

  2. Klicken Sie auf Erstellen, um Ihren Fortschritt zu speichern und das Konfigurationsdialogfeld Neuer Auftrag zu verlassen.

  3. Wenn sich ein Datenbestand oder eine Verbindung nicht in Ihrem Bereitstellungsbereich befindet, suchen Sie sie in Ihrem Projekt und verschieben Sie sie in den Bereitstellungsbereich.

  4. Wenn der Fluss SPSS Modeler nicht auf das richtige Datenelement oder die richtige Verbindung verweist, aktualisieren Sie den Fluss SPSS Modeler im Projektraum und verschieben Sie ihn erneut in den Bereitstellungsraum.

  5. Klicken Sie in Ihrem Bereitstellungsbereich auf die Registerkarte Jobs und wählen Sie Ihren SPSS Modeler flow job aus, um.

  6. Klicken Sie auf der Seite mit den Jobdetails auf das Symbol „Bearbeiten“, um die Zuordnung Ihrer Bild des Bearbeitungssymbols Datenbestände und Verbindungen zu überprüfen.

  7. Wenn der Fehler behoben ist, können Sie mit der Konfiguration Ihres Auftrags im Dialogfeld Neuer Auftrag fortfahren. Weitere Informationen finden Sie unter Erstellen von Bereitstellungsaufträgen für SPSS Modeler-Flows

    Das Bild zeigt, dass die automatische Zuordnung von Datenbeständen und Verbindungen erfolgreich ist

Das Bereitstellen eines benutzerdefinierten Basismodells aus einem Bereitstellungsbereich schlägt fehl

Wenn Sie eine Bereitstellung für ein benutzerdefiniertes Basismodell aus Ihrem Bereitstellungsbereich erstellen, kann Ihre Bereitstellung aus vielen Gründen fehlschlagen. Befolgen Sie diese Tipps, um häufige Probleme zu beheben, die bei der Bereitstellung Ihrer benutzerdefinierten Foundation-Modelle aus einem Bereitstellungsbereich auftreten können.

Fall 1: Parameterwert liegt außerhalb des Bereichs

Wenn Sie eine Bereitstellung für ein benutzerdefiniertes Basismodell aus Ihrem Bereitstellungsbereich erstellen, müssen Sie sicherstellen, dass die Werte Ihrer Basismodellparameter innerhalb des angegebenen Bereichs liegen. Weitere Informationen finden Sie unter Eigenschaften und Parameter für benutzerdefinierte Fundamentmodelle. Wenn Sie einen Wert eingeben, der außerhalb des angegebenen Bereichs liegt, kann ein Fehler auftreten.

Zum Beispiel muss der Wert des Parameters " max_new_tokens kleiner sein als " max_sequence_length. Wenn Sie bei der Aktualisierung der Basismodellparameterwerte einen Wert für ' max_new_tokens eingeben, der größer oder gleich dem Wert von ' max_sequence_length (2048) ist, kann ein Fehler auftreten.

Das folgende Bild zeigt ein Beispiel für eine Fehlermeldung: Value must be an integer between 20 and 1000000000000000 and be greater than 'Max New Tokens'.

Beispiel einer Fehlermeldung

Wenn die Standardwerte für Ihre Modellparameter zu einem Fehler führen, wenden Sie sich an Ihren Administrator, um die Registrierung des Modells in der watsonxaiifm CR zu ändern.

Fall 2: Nicht unterstützter Datentyp

Sie müssen darauf achten, dass Sie einen Datentyp auswählen, der von Ihrem benutzerdefinierten Basismodell unterstützt wird. Wenn Sie beim Aktualisieren der Basismodellparameterwerte den Datentyp für Ihr bereitgestelltes Modell mit einem nicht unterstützten Datentyp aktualisieren, kann die Bereitstellung fehlschlagen.

So unterstützt das Modell " LLaMA-Pro-8B-Instruct-GPTQ beispielsweise nur den Datentyp " float16. Wenn Sie das Modell " LLaMA-Pro-8B-Instruct-GPTQ mit " float16 " Enum bereitstellen und dann den Parameter " Enum von " float16 auf " bfloat16 aktualisieren, schlägt die Bereitstellung fehl.

Wenn der Datentyp, den Sie für Ihr benutzerdefiniertes Basismodell ausgewählt haben, zu einem Fehler führt, können Sie den Datentyp für das benutzerdefinierte Basismodell während der Erstellung der Bereitstellung überschreiben oder sich an Ihren Administrator wenden, um die Registrierung des Modells in der CR watsonxaiifm zu ändern.

Fall 3: Parameterwert ist zu groß

Wenn Sie einen sehr großen Wert für die Parameter ' max_sequence_length und ' max_new_token eingeben, kann ein Fehler auftreten. Wenn Sie beispielsweise den Wert von " max_sequence_length auf " 1000000000000000 setzen, erhalten Sie die folgende Fehlermeldung:

Die Bereitstellung des benutzerdefinierten Foundation-Modells ist fehlgeschlagen. Der Vorgang ist fehlgeschlagen aufgrund von 'max_batch_weight (19596417433) nicht groß genug für (prefill) max_sequence_length (1000000000000000)'. Retry the operation. Wenden Sie sich an den IBM, wenn das Problem weiterhin besteht.

Achten Sie darauf, dass Sie einen Wert für den Parameter eingeben, der kleiner ist als der in der Modellkonfigurationsdatei definierte Wert (config.json).

Fall 4: Datei " model.safetensors wird mit nicht unterstützten Bibliotheken gespeichert

Wenn die Datei " model.safetensors für Ihr benutzerdefiniertes Basismodell ein nicht unterstütztes Datenformat im Metadaten-Header verwendet, kann Ihre Bereitstellung fehlschlagen.

Wenn Sie beispielsweise das benutzerdefinierte Stiftungsmodell OccamRazor/mpt-7b-storywriter-4bit-128g von Hugging Face in Ihren Bereitstellungsbereich importieren und eine Online-Bereitstellung erstellen, kann Ihre Bereitstellung fehlschlagen. Dies liegt daran, dass die Datei " model.safetensors für das Modell " OccamRazor/mpt-7b-storywriter-4bit-128g mit " save_pretrained gespeichert wird, einer nicht unterstützten Bibliothek. Sie erhalten möglicherweise die folgende Fehlermeldung:

Der Vorgang ist fehlgeschlagen, weil das Objekt 'NoneType' kein Attribut "get" hat.

Sie müssen sicherstellen, dass Ihr benutzerdefiniertes Fundamentmodell mit der unterstützten " transformers -Bibliothek gespeichert wird.

Fall 5: Einsatz eines Llama 3.1 Modells schlägt fehl

In Ihrem Llama 3.1-Modell schlägt die Bereitstellung fehl, versuchen Sie, den Inhalt der ' config.json atei Ihres Modells zu bearbeiten:

  1. Suchen Sie den Eintrag " eos_token_id.
  2. Ändern Sie den Wert des Eintrags von einem Array in eine Ganzzahl.

Versuchen Sie dann, Ihr Modell neu zu verteilen.

Auswertung einer Bereitstellung in Watson OpenScale schlägt fehl

Wenn Sie Watson OpenScale konfigurieren, um eine Bereitstellung in Ihrem Bereitstellungsbereich zu evaluieren, können Ihre Konfigurationseinstellungen aufgrund von fehlgeschlagenen Vorhersageanforderungen fehlschlagen. Möglicherweise erhalten Sie den Fehlercode ' 504 mit der folgenden Fehlermeldung:

Fehler bei der Konfiguration von OpenScale Monitors für ein bestehendes Dashboard

Als Abhilfe können Sie die Bereitstellung mit dem Endpunkt " suspend aussetzen und die Vorhersage erneut versuchen. Verwenden Sie das folgende Codebeispiel, um die Vorhersage auszusetzen und die Bereitstellung wiederherzustellen:

curl -k -X POST '/ml/v4/deployments/deployment-id/suspend?space_id=&version=2020-09-01' -H 'content-type: application/json' -H 'Authorization: Bearer $token'

Die Bereitstellung eines benutzerdefinierten Foundation-Modell schlägt fehl und meldet eine fehlende tokenizer.json Datei

Wenn das benutzerdefinierte Foundation-Modell, das Sie bereitstellen möchten, keine Datei tokenizer.json enthält, schlägt die Bereitstellung mit folgender Meldung fehl:

Deployment creation failed because tokenizer.json file was not found in the model directory. Add tokenizer.json to your model directory and retry the deployment.

So beheben Sie das Problem:

  1. Bevor Sie Ihr Modell bereitstellen, versetzen Sie den wml Operator in den Wartungsmodus:

    `oc patch wmlbase wml-cr -n <instance-namespace>  --type=merge  -p '{"spec":{"ignoreForMaintenance": true}}'`
    
  2. Öffnen Sie die wmlruntimemanagerConfigMap im Bearbeitungsmodus:

    oc edit cm wmlruntimemanager -n cpd-instance-name
    
  3. Unter model_requirements, hinzufügen require_tokenizer_json = false:

    model_requirements {
          require_tokenizer_json = false
          mistral {
            tokenizer_mode {
              enable = true
              allowed_arch = [ "mistral", "pixtral", "mistral3" ]
            }
          }
        }
    
  4. Speichern und beenden Sie die Datei ConfigMap.

  5. Starten Sie das wml-deployment-managerGerät neu:

    oc rollout restart deploy wml-deployment-manager -n <instance-namespace>
    
  6. Stellen Sie das Modell bereit.

  7. Wenn das Modell bereitgestellt ist, ändern Sie den wml Betriebsmodus wieder auf „Normal“:

oc patch wmlbase wml-cr -n <instance-namespace>  --type=merge  -p '{"spec":{"ignoreForMaintenance": false}}'

Inline-Nutzlastinferenzierung bei der Textextraktion schlägt aufgrund von Ressourcenbeschränkungen fehl

Wenn Sie Watson Document Understanding verwenden, kann eine Inline-Nutzlastreferenz mit diesem Fehler fehlschlagen:

failed to process text extraction event, no response detected from runtime

Der Fehler kann aus Neustarts resultieren, die zur Laufzeit aufgrund einer Überschreitung der Ressourcenkapazität erkannt werden.

Um das Problem zu beheben, versuchen Sie, die Anzahl der Kopien von Watson Document Understanding-Pods im IBM Software Hub -Cluster zu erhöhen, indem Sie den watsonxaiifm CR patchen, um die Anzahl der Pod-Replikate zu erhöhen.

spec:
    blockStorageClass: managed-nfs-storage
    fileStorageClass: managed-nfs-storage
    ignoreForMaintenance: false
    install_model_list:
    - wdu
    license:
    accept: true
    version: 10.0.0
    wdu_main_deploy_multi_replicas: 2
    wdu_multi_deploy_multi_replicas: 4

Die empfohlene Größenordnung für mittlere Implementierungen ist:

  • wdu_main_deploy_multi_replicas: 2
  • wdu_multi_deploy_multi_replicas: 4

Die empfohlene Größenordnung für große Implementierungen ist:

  • wdu_main_deploy_multi_replicas: 4
  • wdu_multi_deploy_multi_replicas: 8

Der watsonxaiifm Dienst bleibt möglicherweise im Status „In Bearbeitung“ hängen, nachdem ein neues Update ConfigMap angewendet wurde

Bei der Registrierung eines benutzerdefinierten Foundation-Modell für den globalen Einsatz kann es vorkommen, dass der watsonxaiifm Dienst nach der Anwendung eines neuen ConfigMap Modells im Status „In Bearbeitung“ hängen bleibt.

Verwenden Sie diesen Befehl, um den aktuellen Status des watsonxaiifm Dienstes abzurufen:

oc get watsonxaiifm -n ${PROJECT_CPD_INST_OPERANDS}

Wenn der AGE Wert sehr hoch ist, ist der Dienst blockiert. Beispielausgabe:

NAME              VERSION   RECONCILED   STATUS   PERCENT   AGE
watsonxaiifm-cr   10.1.0    10.1.0       InProgress   55%   43h

Der Status kann auch mit einem sehr hohen AGE Wert sein Failed:

NAME              VERSION   RECONCILED   STATUS   PERCENT   AGE
watsonxaiifm-cr   10.1.0    10.1.0       Failed   55%       43h

Möglicherweise tritt auch folgender Fehler auf:

The error appears to be in '/opt/ansible/10.2.0/roles/watsonxaiifm/tasks/check-model.yml': line 13, column 3, but may
be elsewhere in the file depending on the exact syntax problem.

Um das Problem zu beheben:

  1. Führen Sie diesen Befehl aus, um den Namen WatsonxAIIFM des Operator-Pods zu erhalten:

    oc get pods -n <operator-namespace> | grep watsonx
    

    Beispiel für einen Pod-Namen: ibm-cpd-watsonx-ai-ifm-operator-6f8c86c8d8-45kfk

  2. Führen Sie diesen Befehl aus, um die Protokolle des Operator-Pods anzuzeigen:

    oc logs <operator-pod-name> -n <operator-namespace> -f
    

    Ersetzen Sie <operator-pod-name> durch den Pod-Namen, den Sie in Schritt 1 erhalten haben. Suchen Sie in den Protokollen nach ERROR Schlüsselwörtern wie FAILED oder, um Probleme zu identifizieren.

  3. Überprüfen Sie, ob sowohl der Persistent Volume Claim (PVC) als auch WatsonxAIIFM der Operator dieselbe Speicherklasse verwenden.

    Um die Speicherklasse des PVC zu ermitteln, führen Sie folgenden Befehl aus:

    oc get pvc <pvc-name>
    

    Beispielausgabe:

    NAME                           STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS                AGE
    meta-llama-3-8b-instruct-pvc   Bound    pvc-ffa1bd5b-16b5-43cf-b344-58fb61aac86d   62Gi       RWX            ocs-storagecluster-cephfs   136m
    

    Um die Cluster-Speicherklasse zu überprüfen, führen Sie diesen Befehl aus:

    oc describe zenservice
    

    Beispielausgabe:

    Spec:
      Block Storage Class:      managed-nfs-storage
      Cloud Pak Type:          data
      File Storage Class:      managed-nfs-storage
    

    Überprüfen Sie im Spec Abschnitt die Block Storage Class Werte File Storage Class und :

  4. Überprüfen Sie die ConfigMap YAML-Datei:

    • Suchen Sie nach Einrückungsfehlern oder ungültiger YAML-Syntax.
    • Überprüfen Sie die Werte in der ConfigMap Datei anhand der Beispielkonfiguration, um sicherzustellen, dass sie korrekt sind.
  5. Führen Sie diesen Befehl aus, um die WatsonxAIIFM CR (benutzerdefinierte Ressource) anzuzeigen:

    oc edit watsonxaiifm
    

    Überprüfen Sie, ob die Formatierung korrekt ist und alle Konfigurationen gültig sind.

  6. Run this command to check whether the predictor pod is created:

    oc get po | grep predictor
    

  7. Nachdem Sie die erforderlichen Änderungen vorgenommen haben, starten Sie den WatsonxAIIFM Operator-Pod neu. Starten Sie den Pod neu, auch wenn Sie in den vorherigen Schritten keine Probleme festgestellt haben. Ein Neustart könnte das Problem beheben. Führen Sie diesen Befehl aus:

    oc delete pod <operator-pod-name> -n <operator-namespace>
    

    Ersetzen Sie <operator-pod-name> durch den Pod-Namen, den Sie in Schritt 1 erhalten haben.

Der Einsatz von parametereffizienten, fein abgestimmten (PEFT) Modellen scheitert

Die Bereitstellung eines PEFT-Modells, das mit einem LoRA - oder QLoRA -Adapter trainiert wurde, kann aus vielen Gründen fehlschlagen.

Befolgen Sie diese Tipps, um häufige Probleme zu lösen, die bei der Bereitstellung Ihrer PEFT-Modelle auftreten können:

Fall 1: Die Bereitstellung des LoRA -Adapters schlägt fehl, da im enable_lora -Feld Werte fehlen

Die Bereitstellung des LoRA -Adapters schlägt möglicherweise fehl, weil das enable_lora -Feld in der Bereitstellung des Basis-Foundation-Modells nicht auf true eingestellt ist. Wenn Sie den Wert dieses Parameters während des Trainings nicht aktivieren, schlägt Ihre Bereitstellung fehl.

Sie erhalten möglicherweise die folgende Fehlermeldung:

Die Bereitstellung ist fehlgeschlagen, da enable_lora nicht in der Basisbereitstellung mit der ID: {Deployment ID} festgelegt ist.

Sie müssen das Feld online.parameters.foundation_model.enable_lora auf true in der Basis-Foundation-Bereitstellung setzen und den Vorgang erneut versuchen.

Fall 2: LoRA -Adapterbereitstellung schlägt fehl, da max_gpu_loras -Grenzwert überschritten wird

Die Bereitstellung des LoRA -Adapters kann fehlschlagen, weil die Anzahl der im Basis-Foundation-Modell bereitgestellten LoRA -Adapter den konfigurierten Parameter max_gpu_loras überschreitet. Diese Grenze wurde festgelegt, um eine Überlastung der GPU-Ressourcen zu verhindern. Wird sie überschritten, schlägt die Bereitstellung fehl.

Sie erhalten möglicherweise die folgende Fehlermeldung:

Die Bereitstellung ist fehlgeschlagen, da sie den in der Basisbereitstellung festgelegten Wert "max_gpu_loras" mit der ID überschreitet: {Deployment ID}

Um dieses Problem zu beheben, löschen Sie die vorhandenen LoRA -Adapterbereitstellungen, die auf die Basis-Bereitstellungs-ID verweisen, und erstellen Sie dann die neuen LoRA -Adapterbereitstellungen.

Alternativ können Sie eine neue Basis-Foundation-Bereitstellung mit demselben Modell-Asset erstellen und die LoRA -Adapter-Bereitstellungen mit der neu erstellten Basis-Foundation-Bereitstellung erstellen.

Fall 3: LoRA -Adapterbereitstellung schlägt fehl, da max_lora_rank -Limit überschritten wird

Die Bereitstellung des LoRA -Adapters kann fehlschlagen, weil der im Feld training.fine_tuning.peft_parameters.rank der Modell-Metadaten konfigurierte LoRA -Rang größer ist als der konfigurierte Parameter max_lora_rank in der Bereitstellung des Basis-Foundation-Modells. Diese Grenze wurde festgelegt, um eine Überlastung der Modellressourcen zu verhindern. Wird sie überschritten, schlägt die Bereitstellung fehl.

Sie erhalten möglicherweise die folgende Fehlermeldung:

Die Bereitstellung ist fehlgeschlagen, da der im Modell-Meta angegebene "Rang" den in der Basisbereitstellung mit der ID festgelegten "max_lora_rank" überschreitet: {Deployment ID}

Um dieses Problem zu beheben, geben Sie einen größeren Wert für das Feld online.parameters.foundation_model.max_lora_rank in der Basisbereitstellung an und wiederholen Sie den Vorgang. Der maximal zulässige Wert von max_lora_rank ist 64.

Fall 4: Die Bereitstellung des Basis-Foundation-Modells schlägt aufgrund der zugehörigen LoRA -Adapter fehl

Die Löschung des Basis-Foundation-Modelleinsatzes schlägt fehl, da damit LoRA -Adaptereinsätze verbunden sind. Das System verhindert das Löschen der Bereitstellung des Basis-Foundation-Modells, um zu vermeiden, dass die zugehörigen LoRA -Adapter verwaist werden. Um die Bereitstellung des Basis-Foundation-Modells zu löschen, müssen zuerst die zugehörigen LoRA -Adapter gelöscht werden.

Sie erhalten möglicherweise die folgende Fehlermeldung:

Die Bereitstellung mit der ID {Deployment ID} kann nicht gelöscht werden, da mindestens eine Lora-Adapter-Bereitstellung damit verknüpft ist. Entfernen Sie sie, bevor Sie versuchen, diese zu löschen.

Um dieses Problem zu beheben, löschen Sie die vorhandenen LoRA -Adapter-Bereitstellungen und anschließend die Bereitstellung des Basis-Foundation-Modells.