Basismodell in watsonx.ai auswählen

Bei der Auswahl eines Basismodells für das Inferencing eines generativen KI-Projekts sind viele Faktoren zu berücksichtigen.

Für eine Lösung, die Callcenter-Problemberichte zusammenfasst, benötigen Sie beispielsweise ein Basismodell mit folgenden Merkmalen:

  • Erreicht gute Ergebnisse bei Benchmarks für Zusammenfassungsaufgaben
  • Verarbeitet große Textmengen, was eine große Länge des Kontextfensters bedeutet
  • Kann Bilder von beschädigten Gegenständen interpretieren und akzeptiert daher Eingaben sowohl in Text- als auch in Bildform

Bestimmen Sie, welche Faktoren für Sie und Ihr Unternehmen am wichtigsten sind.

Nachdem Sie eine kurze Liste von Modellen erstellt haben, die Ihren Anforderungen am besten entsprechen, können Sie die Modelle testen, um herauszufinden, welche Modelle die gewünschten Ergebnisse liefern.

Basismodelle, die Ihren Anwendungsfall unterstützen

Suchen Sie zunächst nach Basismodellen, die den Typ der auszuführenden Task ausführen können.

Die folgende Tabelle zeigt die Arten von Aufgaben, die die Stiftungsmodelle in IBM watsonx.ai unterstützen. Ein Häkchen (✓) zeigt an, dass die in der Spaltenüberschrift genannte Task vom Basismodell unterstützt wird. Bei einigen Aufgaben können Sie auf einen Link klicken, um zu einer Beispielaufforderung für die Aufgabe zu gelangen.

Tabelle 1a. Unterstützung von Basismodelltasks
Modell Konversation
aus Chat-API
Werkzeuginteraktion
von Chat API
Retrieval-augmented Generation (RAG) Beispiele
ibm-defense-4-0-small
• RAG von Prompt Lab
• RAG von AutoAI
Beispiel für den Aufruf
eines Tools • Chat-API
ibm-defense-4-0-micro
• RAG von Prompt Lab
• RAG von AutoAI
Beispiel für den Aufruf
eines Tools • Chat-API
ibm-defense-3-3-8b-instruct
• RAG aus Prompt Lab
Chat-API
granite-4-h-tiny
• RAG von Prompt Lab
• RAG von AutoAI
Beispiel für den Aufruf
eines Tools • Chat-API
granite-4-h-small
• RAG von Prompt Lab
• RAG von AutoAI
Chat-API
granite-docling-258M
RAG von Prompt Lab
Chat mit
Bildbeispiel• Chat-API
granite-3-3-8b-instruct
• RAG von Prompt Lab
• RAG von AutoAI
Fragen und Antworten
granite-13b-instruct-v2
RAG von Prompt Lab
Generation
granite-3-2-8b-instruct
RAG von Prompt Lab
Chat-API
granite-3-2b-instruct Code
Chat-API
granite-3-8b-instruct
• RAG von Prompt Lab
• RAG von AutoAI
Code
Chat-API
Tool-Aufruf
granite-3b-code-instruct Code
granite-8b-code-instruct Code
granite-20b-code-instruct Code
Chat-API
granite-20b-code-base-schema-linking Code
granite-20b-code-base-sql-gen Code
granite-34b-code-instruct Code
Chat-API
granite-guardian-3-2b
RAG von Prompt Lab
Klassifizierung
granite-guardian-3-8b
RAG von Prompt Lab
Klassifizierung
granite-guardian-3-2-5b
RAG von Prompt Lab
Klassifizierung
Chat-API
granite-vision-3-3-2b Chat mit
Bildbeispiel• Chat-API
allam-1-13b-instruct Klassifizierung
Übersetzung
codestral-22b Code
codestral-2501 Code
codestral-2508 Code
devstral-small-2512 Klassifizierung
• Fragen und Antworten
Zusammenfassung
devstral-medium-2507 Klassifizierung
• Fragen und Antworten
Zusammenfassung
devstral-medium-2512 Klassifizierung
• Fragen und Antworten
Zusammenfassung
flan-t5-xl-3b
RAG von Prompt Lab
Klassifizierung
• Fragen und Antworten
Zusammenfassung
gpt-oss-20b
• RAG von Prompt Lab
• RAG von AutoAI
Chat-API
gpt-oss-120b
• RAG von Prompt Lab
• RAG von AutoAI
Chat-API
jais-13b-chat Dialog
llama-4-maverick-17b-128e-instruct-fp8
• RAG von Prompt Lab
• RAG von AutoAI
Dialog
Chat
Chat-API
llama-4-scout-17b-16e-instruct-int4
• RAG von Prompt Lab
• RAG von AutoAI
Dialog
Chat
Chat-API
llama-3-3-70b-instruct
• RAG von Prompt Lab
• RAG von AutoAI
Beispiel-Chat
Beispiel für
Tool-Aufruf • Chat-API
llama-3-2-1b-instruct
RAG von Prompt Lab
Code
Dialog
Tool-Aufruf
llama-3-2-3b-instruct
RAG von Prompt Lab
Code
Dialog
Tool-Aufruf
llama-3-2-11b-vision-instruct
RAG von Prompt Lab
Chat mit
Bildbeispiel•
Chat-APIBeispiel für den Aufruf eines Tools
llama-3-2-90b-vision-instruct
RAG von Prompt Lab
Chat mit
Bildbeispiel•
Chat-APIBeispiel für den Aufruf eines Tools
llama-3-1-8b
RAG von Prompt Lab
Dialog
llama-guard-3-11b-vision
RAG von Prompt Lab
Klassifizierung
Chat mit
Bildbeispiel• Chat-API
llama-3-1-8b-instruct ✓•
RAG von Prompt Lab
• RAG von AutoAI
Dialog
Chat-API
Tool-Aufruf
llama-3-1-70b-instruct ✓•
RAG von Prompt Lab
• RAG von AutoAI
Dialog
Chat-API
Tool-Aufruf
llama-3-405b-instruct
RAG von Prompt Lab
Dialog
Tool-Aufruf
llama-2-13b-chat
RAG von Prompt Lab
Dialog
ministral-8b-instruct Klassifizierung
• Extraktion
• Zusammenfassung
Übersetzung
ministral-14b-instruct-2512
RAG von Prompt Lab
Chat-API
Chat mit Bildbeispiel
mistral-groß ✓•
RAG von Prompt Lab
• RAG von AutoAI
Klassifizierung
Extr aktion

• Zusammenfassung • Code
Übersetzung

Chat-APITool-Aufruf
mistral-large-2512 ✓•
RAG von Prompt Lab
Klassifizierung
• Extraktion

Zusammenfassung • Code
Übersetzung
Chat-API
Tool-Aufruf
Chat mit Bildbeispiel
mistral-large-instruct-2411
RAG von Prompt Lab
Klassifizierung
Extraktion
• Zusammenfassung
Code
Übersetzung
mistral-klein-anleitung Klassifizierung

Extraktion •
ZusammenfassungKodierung
Übersetzung
mistral-small-3-2-24b-instruct-2506 ✓•
RAG von Prompt Lab
• RAG von AutoAI
Chat-API
Chat mit Bildbeispiel
mistral-small-3-1-24b-instruct-2503 ✓•
RAG von Prompt Lab
• RAG von AutoAI
Chat-API
mistral-small-24b-instruct-2501
RAG von Prompt Lab
Klassifizierung
• Extraktion
Generierung
Zusammenfassung
Code
Übersetzung
mixtral-8x7b-instruct-v01 ✓•
RAG von Prompt Lab
• RAG von AutoAI
Klassifizierung

ExtraktionGenerierung
Zusammenfassung
Code
Übersetzung
pixtral-12b
RAG von Prompt Lab
Klassifizierung
• Extr aktion
Zusammenfassung
Chat mit Bildbeispiel
pixtral-large-instruct-2411 Chat mit Bildbeispiel
voxtral-small-24b-2507 ✓•
RAG von Prompt Lab
• RAG von AutoAI
Chat-API
Klassifizierung
Extraktion
Generierung
Zusammenfassung
Übersetzung

 

Multimodale Stiftungsmodelle

Multimodale Grundlagenmodelle sind in der Lage, Informationen aus vielen Modalitäten oder Datentypen zu verarbeiten und zu integrieren. Diese Modalitäten können Text, Bilder, Audio, Video und andere Formen von Sinneseindrücken umfassen.

Die multimodalen Basismodelle, die von watsonx.ai zur Verfügung gestellt werden, können die folgenden Arten von Aufgaben erfüllen:

Bild-zu-Text-Generierung
Nützlich für die Beantwortung visueller Fragen, die Interpretation von Diagrammen und Schaubildern, die Beschriftung von Bildern und vieles mehr.
Audio-zu-Text-Generierung
Nützlich für Spracherkennung, Transkription gesprochener Inhalte, Verständnis von Sprachbefehlen, Erstellung von Besprechungsnotizen, Barrierefreiheit und vieles mehr.

In der folgenden Tabelle sind die verfügbaren Stiftungsmodelle aufgeführt, die andere Modalitäten als Texteingabe und Textausgabe unterstützen.

Tabelle 1b. Unterstützte multimodale Stiftungsmodelle
Modell Modalitäten der Eingabe Modalitäten der Ausgabe
granite-vision-3-2-2b bild, Text Text
llama-4-maverick-17b-128e-instruct-fp8 bild, Text Text
llama-4-scout-17b-16e-instruct bild, Text Text
llama-3-2-11b-vision-instruct bild, Text Text
llama-3-2-90b-vision-instruct bild, Text Text
llama-guard-3-11b-vision bild, Text Text
ministral-8b-instruct-2512 bild, Text Text
ministral-14b-instruct-2512 bild, Text Text
mistral-large-2512 bild, Text Text
mistral-small-3-2-24b-instruct-2506 bild, Text Text
pixtral-12b bild, Text Text
voxtral-small-24b-2507 Audio, Text Text

 

Basismodelle, die Ihre Sprache unterstützen

Viele Gründungsmodelle funktionieren gut nur auf Englisch. Einige Modellersteller enthalten jedoch mehrere Sprachen in den Datasets vor dem Training, um ihr Modell für Tasks in verschiedenen Sprachen zu optimieren und die Leistung ihres Modells in mehreren Sprachen zu testen. Wenn Sie planen, eine Lösung für eine globale Zielgruppe oder eine Lösung zu erstellen, die Übersetzungstasks ausführt, suchen Sie nach Modellen, die mit mehrsprachiger Unterstützung erstellt wurden.

In der folgenden Tabelle sind natürliche Sprachen aufgelistet, die zusätzlich zu Englisch nach Basismodellen in watsonx.aiunterstützt werden. Weitere Informationen zu den Sprachen, die für mehrsprachige Basismodelle unterstützt werden, finden Sie auf der Modellkarte für das Basismodell.

Hinweis:Eine Übersicht über alle Stiftungsmodelle finden Sie in der Ressourcendrehscheibe.
Tabelle 2. Basismodelle, die andere natürliche Sprachen als Englisch unterstützen
Modell Andere Sprachen als Englisch
Granite 4.0 (granite-4-h-small, granite-4-h-micro, granite-4-h-tiny ) Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch. Sie können diese Granite Modelle für Sprachen außerhalb dieser 12 Sprachen feinabstimmen
Granite Anweisen 3.3 ( granite-3-3-2b-instruct, granite-3-3-8b-instruct ) Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch. Sie können diese Granite Modelle für Sprachen außerhalb dieser 12 Sprachen feinabstimmen.
Granite Vision ( granite-vision-3-3-2b, granite-vision-3-2-2b ) Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch, Chinesisch
IBM Verteidigungs 4.0 Deutsch, Spanisch, Französisch, Japanisch, Portugiesisch, Arabisch, Tschechisch, Italienisch, Koreanisch, Niederländisch und Chinesisch.
allam-1-13b-instruct Arabisch
flan-t5-xl-3b Mehrsprachig(siehe Modellkarte)
gpt-oss-120b Mehrsprachig
jais-13b-chat Arabisch
Llama 4 ( llama-4-maverick-17b-128e-instruct-fp8, llama-4-scout-17b-16e-instruct ) Arabisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch.
Llama 3.3 ( llama-3-3-70b-instruct ) Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch
Llama 3.2 ( llama-3-2-1b-instruct, llama-3-2-3b-instruct. Auch llama-3-2-11b-vision-instruct, llama-3-2-90b-vision-instruct, und llama-guard-3-11b-vision mit reinen Texteingaben) Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch
Llama 3.1 ( llama-3-1-8b-instruct, llama-3-1-70b-instruct, llama-3-405b-instruct ) Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thailändisch
Ministral 3 ( ministral-3b-instruct-2512, ministral-8b-instruct-2512, ministral-14b-instruct-2512 ) Französisch, Spanisch, Deutsch, Italienisch, Portugiesisch, Niederländisch, Chinesisch, Japanisch, Koreanisch, Arabisch und Dutzende weiterer Sprachen.
ministral-8b-instruct Mehrsprachig(siehe Modellkarte)
mistral-large-2512 Französisch, Deutsch, Italienisch, Spanisch, Chinesisch, Japanisch, Koreanisch, Portugiesisch, Niederländisch, Polnisch und Dutzende weiterer Sprachen.
Mistral Medium ( mistral-medium-2505, mistral-medium-2508 ) Mehrsprachig (siehe Modellkarte)
mistral-small-3-2-24b-instruct-2506 Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Malaiisch, Nepalesisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Serbisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch, Arabisch, Bengali, Chinesisch, Farsi.
mixtral-8x7b-instruct-v01 Französisch, Deutsch, Italienisch, Spanisch
voxtral-small-24b-2507 Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch, Italienisch.

 

Stiftungsmodelle, die Sie abstimmen können

Sie können Tuning-Experimente durchführen, die die Parametergewichte des zugrunde liegenden Foundation-Modell ändern, um das Modell so zu steuern, dass es für eine Aufgabe optimierte Ergebnisse generiert.

Die folgende Tabelle zeigt Foundation-Modelle, die Sie mithilfe verschiedener Feinabstimmungsmethoden in abstimmen IBMwatsonx.ai können. Ein Häkchen (✓) zeigt an, dass die Feinabstimmung vom Foundation-Modell ismodell unterstützt wird.

Tabelle 3. Foundation-Modelle die angepasst werden können
Modellname Vollständige Feinabstimmung LoRA Feinabstimmung QLoRA Feinabstimmung
allam-1-13b-instruct
granite-3b-code-instruct
granite-8b-code-instruct
granite-20b-code-instruct
granite-3-1-8b-base
llama-3-1-8b
llama-3-1-8b-instruct
llama-3-1-70b
llama-3-1-70b-gptq

Weitere Informationen finden Sie unter Auswahl eines Modells zum Optimieren.

Modelltypen und IP-Entschädigung

Prüfen Sie die Entschädigungsrichtlinien für geistiges Eigentum für das Stiftungsmodell, das Sie verwenden möchten. Einige Drittanbieter von Stiftungsmodellen verlangen von Ihnen, dass Sie sie von der Haftung für Verletzungen des geistigen Eigentums freistellen, die sich aus der Verwendung ihrer KI-Modelle ergeben könnten.

IBM-entwickelte Basismodelle, die von watsonx.ai zur Verfügung gestellt werden, haben einen standardmäßigen Schutz des geistigen Eigentums, ähnlich dem, den IBM für Hardware- und Softwareprodukte bietet.

IBM dehnt seine Standardentschädigung für geistiges Eigentum auf den Output aus, der von den erfassten Modellen erzeugt wird. Die abgedeckten Modelle umfassen IBM-entwickelte und einige von Drittanbietern stammende Basismodelle, die von watsonx.ai verfügbar sind. Abgedeckte Modelle von Drittanbietern sind in Tabelle 4 aufgeführt.

In der folgenden Tabelle werden die verschiedenen Stiftungsmodelle und ihre Entschädigungspolitik beschrieben. Ausführliche Informationen finden Sie in den Referenzmaterialien.

Tabelle 4. Einzelheiten der Entschädigungspolitik
Modell der Stiftung Entschädigungspolitik Basismodelle Details zu Referenzmaterialien
IBM Abgedecktes Modell Unbegrenzte IBM-Entschädigung - IBM Granite
- IBM Schiefer
IBM -entwickelte Grundmodelle, die unter watsonx.ai erhältlich sind. Lizenzinformationen
Drittes gedecktes Modell Begrenzte IBM-Entschädigung Mistral Handelsmodelle Modelle mit Drittanbieter-Abdeckung, die unter watsonx.ai erhältlich sind. Lizenzinformationen
Nicht-IBM Produkt Keine IBM Entschädigung Verschiedene Modelle von Drittanbietern, die von watsonx.ai erhältlich sind und deren jeweiligen Lizenzbedingungen unterliegen, einschließlich der damit verbundenen Verpflichtungen und Einschränkungen. Siehe Modellinformationen.
Angepasstes Modell Keine IBM Entschädigung Verschiedene Foundation-Modelle, die Sie zur Verwendung in watsonx.ai importieren, sind Client-Inhalte. Der Kunde ist allein verantwortlich für die Auswahl und Verwendung des Modells und des Outputs sowie für die Einhaltung der Lizenzbedingungen, Verpflichtungen und Einschränkungen Dritter.

Weitere Informationen zu den Lizenzbedingungen für Drittanbietermodelle finden Sie unter Drittanbieter-Basismodelle.

Weitere Überlegungen zur Auswahl eines Modells

Tabelle 5. Hinweise zur Auswahl eines Basismodells in IBM watsonx.ai
Modellattribut Überlegungen
Kontextlänge Manchmal auch als Kontextfensterlänge, Kontextfensteroder maximale Sequenzlängebezeichnet, ist die Kontextlänge der maximal zulässige Wert für die Anzahl der Tokens in der Eingabeaufforderung plus die Anzahl der Tokens in der generierten Ausgabe. Wenn Sie Ausgaben mit Modellen in watsonx.aigenerieren, wird die Anzahl der Tokens in der generierten Ausgabe durch den Parameter "Max. Token" begrenzt.
Feinabgestimmt Nachdem ein Basismodell vortrainiert wurde, sind viele Basismodelle für bestimmte Tasks wie Klassifizierung, Informationsextraktion, Zusammenfassung, Beantwortung von Anweisungen, Beantwortung von Fragen oder Teilnahme an einem Back-and-forth-Dialog fein abgestimmt. Ein Modell, das für Tasks, die Ihrer geplanten Verwendung ähneln, optimiert wird, ist in der Regel besser mit Zero-Shot-Eingabeaufforderungen als Modelle, die nicht auf eine für Ihren Anwendungsfall passende Weise optimiert sind. Eine Möglichkeit, die Ergebnisse für ein fein optimiertes Modell zu verbessern, besteht darin, Ihre Eingabeaufforderung in demselben Format zu strukturieren wie Eingabeaufforderungen in den Datasets, die zur Feinabstimmung dieses Modells verwendet wurden.
Instruktionsoptimiert Instruktionsoptimiert bedeutet, dass das Modell mit Eingabeaufforderungen, die eine Instruktion enthalten, fein optimiert wurde. Wenn ein Modell instruktionsoptimiert ist, reagiert es normalerweise gut auf Eingabeaufforderungen, die eine Anweisung haben, auch wenn diese Eingabeaufforderungen keine Beispiele enthalten.
IP-Schadensersatz Überprüfen Sie zusätzlich zu den Lizenzbedingungen die Richtlinie zur Entschädigung bei geistigem Eigentum für das Modell. Weitere Informationen finden Sie unter Modelltypen und IP-Entschädigung.
Lizenz Im Allgemeinen verfügt jedes Basismodell über eine andere Lizenz, die die Verwendung des Modells einschränkt. Überprüfen Sie Modelllizenzen, um sicherzustellen, dass Sie ein Modell für Ihre geplante Lösung verwenden können.
Modellarchitektur Die Architektur des Modells beeinflusst das Verhalten des Modells. Ein transformatorbasiertes Modell hat in der Regel eine der folgenden Architekturen:
Nur Codierer: Versteht Eingabetext auf Satzebene, indem Eingabesequenzen in Darstellungsvektoren, die als Einbettungen bezeichnet werden, umgesetzt werden. Zu den allgemeinen Tasks für reine Encoder-Modelle gehören die Klassifizierung und Entitätsextraktion.
Nur Decoder: Generiert den Ausgabetext wortweise durch Inferenz aus der Eingabefolge. Allgemeine Tasks für reine Decodermodelle sind das Generieren von Text und das Beantworten von Fragen.
Encoder-Decoder: Beide verstehen Eingabetext und generieren Ausgabetext auf der Basis des Eingabetexts. Gängige Aufgaben für Encoder-Decoder-Modelle sind die Übersetzung und Zusammenfassung.
Unterstützte Programmiersprachen Nicht alle Basismodelle funktionieren gut für die Programmierung von Anwendungsfällen. Wenn Sie planen, eine Lösung zu erstellen, die Code zusammenfasst, konvertiert, generiert oder auf andere Weise verarbeitet, überprüfen Sie, welche Programmiersprachen in den Vortrainingsdatasets eines Modells enthalten waren, und optimieren Sie die Aktivitäten, um festzustellen, ob dieses Modell für Ihren Anwendungsfall geeignet ist.

Weitere Informationen