Chatten mit Dokumenten und Mediendateien

Fügen Sie schnell Dokumente und Mediendateien hinzu, über die Sie in den von Ihnen erstellten Prompt LabFoundation-Modell -Prompts chatten können.

Funktionen

Wenn Sie möchten, dass ein Foundation-Modell aktuelle, faktenbasierte Informationen in seine Ausgabe einbezieht, können Sie das Modell verankern, indem Sie Dokumente mit Ihrer Eingabe verknüpfen. Dieser Ansatz, bekannt als Retrieval-Augmented Generation (RAG), ist besonders hilfreich, um präzise Antworten auf Fragen zu generieren.

Sie können verwenden, Prompt Lab um sowohl die Dokumentqualität als auch die Funktionen Foundation-Modell schnell zu testen, bevor Sie eine vollständige RAG-Lösung implementieren.

Sie können Dateien in den folgenden Formaten mit Ihrer Eingabeaufforderung verknüpfen:

Chatten mit Dokumenten

Wenn Sie ein Dokument hochladen, wird der Text in dem Dokument in Einbettungen umgewandelt und in einem Vektorindex gespeichert, um eine schnelle Suche zu ermöglichen. Wenn Sie eine Frage einreichen, führt das System eine Ähnlichkeitssuche in diesem Index durch, fügt den relevantesten Inhalt als Kontext zu Ihrer Eingabe hinzu und sendet die Informationen an das Foundation-Modell.

Die Kontextinformationen, die Sie hinzufügen, können Produktdokumentation, Einzelheiten zu den Unternehmensrichtlinien, Leistungsdaten der Branche, Fakten und Zahlen zu einem bestimmten Thema oder andere Inhalte umfassen, die für Ihren Anwendungsfall von Bedeutung sind. Erdungsdokumente können auch proprietäre Geschäftsmaterialien enthalten, die Sie anderswo nicht verfügbar machen möchten.

Achtung: Für den Austausch strukturierter Dokumente in Formaten wie XML oder YAML müssen die Dokumente Textblöcke enthalten, die sich leicht vektorisieren lassen und für eine effiziente Suche und Abfrage verwendet werden können.

Sie können ein Dokument direkt von Ihrem lokalen Computer oder Ihrem Projekt hochladen. Das lokal verfügbare Dokument wird in einem In-Memory-Vektorspeicher gespeichert, der automatisch für Sie erstellt wird.

Um eine robustere Lösung zu implementieren, können Sie Remote-Vektordatenspeicher zum Speichern Ihrer Dokumente verwenden. Weitere Informationen zu den verschiedenen Arten von Vektorspeichern und den unterstützten Dokumentdateitypen finden Sie Hinzufügen vektorisierter Dokumente für die Grundierung Foundation-Modell -Promptsunter.

Warnung:

Bei einem PDF-Dokument, das einen Stempel enthält, der Text überlagert, kann die Abfrage des Dokuments im Prompt Lab zu unerwarteten Zeichen führen. Entfernen Sie alle Bilder, die sich mit Text überschneiden, bevor Sie das Dokument im Chat-Modus zu Ihrer Eingabeaufforderung hinzufügen.

Im Chat-Modus können Sie gleichzeitig Dokumente aus bis zu 10 Vektorindizes hochladen. Sie können jedoch nicht mehr als einen In-Memory-Vektorindex gleichzeitig aus den verfügbaren Vektorindizes auswählen.

Hinweis: Wenn Sie den Prompt als Prompt-Vorlage speichern möchten, können Sie nur Dateien mit einer maximalen Gesamtgröße von 5 MB hinzufügen.

Chatten mit Bildern

Laden Sie ein Bild hoch, um es zu den Eingaben hinzuzufügen, die Sie an ein multimodales Stiftungsmodell senden. Nachdem Sie das Bild hinzugefügt haben, können Sie Fragen zum Bildinhalt stellen.

Sie können jeweils nur ein Bild zu einer Chat-Sitzung hinzufügen. Ein Bild wird je nach Bildgröße mit etwa 1.200 bis 3.000 Tokens berechnet.

Vielleicht möchten Sie ein Bild hinzufügen und die visuellen Informationen in Text umwandeln, um die verschiedenen Aufgaben zu erleichtern:

  • Automatisierte Generierung von Alternativtext für Bilder, um blinden Nutzern zu helfen, aussagekräftige Bilder auf einer Webseite zu erkennen und die Anforderungen an die Barrierefreiheit zu erfüllen
  • Zusammenfassende Fotos von Sachschäden, die Versicherungsansprüche begleiten
  • Konvertierung von Bildern aus einem Dokument in Text, bevor das Dokument als Basisinformation für einen RAG-Anwendungsfall verwendet wird.

Das Hochladen von Bildern in einen Chat wird nur unterstützt, wenn mindestens ein multimodales Basismodell in Ihrer Einrichtung installiert ist.

Achten Sie darauf, alle Vorschläge des Anbieters des Stiftungsmodells zu prüfen und umzusetzen, die dazu beitragen, das Modell auf Kurs zu halten und unangemessene Inhalte zu blockieren, wie z. B. das Hinzufügen empfohlener Systemaufforderungen. Weitere Informationen zum Bearbeiten einer Systemansage finden Sie unter Chat-Vorlagen.

In der folgenden Tabelle sind die Dateitypen aufgeführt, die als Bilder hinzugefügt werden können.

Tabelle 2. Unterstützte Dateitypen für Bilder
Unterstützter Dateityp Maximale Gesamtdateigröße
PNG 4 MB
JPEG 4 MB

Das von Ihnen hinzugefügte Bild wird in dem IBM Cloud Object Storage Bucket gespeichert, das Ihrem Projekt als Daten-Asset zugeordnet ist.

Vorgehensweise

Um mit einem Dokument oder einer Mediendatei zu chatten, führen Sie die folgenden Schritte aus:

  1. Wählen Sie im Chat-Modus von Prompt Lab ein Fundamentmodell aus und geben Sie dann alle Modellparameter an, die Sie für die Eingabeaufforderung verwenden möchten.

  2. Klicken Sie auf das Symbol „Dateien Symbol für das Hochladen von Dokumentenhochladen“ und wählen Sie dann den Dateityp aus den folgenden Optionen aus:

    • Dokumente : Durchsuchen, um eine Datei hochzuladen, oder wählen Sie ein Datenelement in Ihrem Projekt mit der Datei, die Sie hinzufügen möchten.

    • Bilder : Durchsuchen, um eine Bilddatei hochzuladen, oder wählen Sie ein Datenelement in Ihrem Projekt mit der Bilddatei, die Sie hinzufügen möchten.

  3. Klicken Sie auf Hinzufügen.

    Für Dokumente klicken Sie auf Erstellen. Möglicherweise wird eine Meldung angezeigt, die besagt, dass die Erstellung des Vektorindexes im Gange ist. Um herauszufinden, wann der Index fertig ist, schließen Sie die Nachricht und klicken Sie dann auf das hochgeladene Dokument, um die Detailseite des Vektorindex-Assets zu öffnen.

  4. Stellen Sie Fragen zu Informationen aus dem Dokument oder der Mediendatei, um zu sehen, wie gut das Modell die Kontextinformationen nutzen kann, um Ihre Fragen zu beantworten.

    Beispielsweise können Sie das Foundation-Modell bitten, die in der Datei erläuterten Konzepte zusammenzufassen oder Fragen dazu zu stellen.

    Wenn für Dokumente die erwarteten Antworten nicht gefunden werden, können Sie die Konfiguration des Vektorindex-Assets überprüfen und Anpassungen vornehmen. Siehe Verwaltung eines Vektorindex.

  5. Optional: Speichern Sie den Prompt als Prompt-Vorlage oder Prompt-Sitzung.

    Hinweis: Sie können einen Chat mit einem hinzugefügten Bild nicht als Prompt-Notizbuch speichern.

    Weitere Informationen finden Sie unter Speichern Ihrer Arbeit.

Beispiele

Sehen Sie sich Beispielaufforderungen an, die verwendet werden, um über Dokumente und Mediendateien mit den folgenden Gründungsmodellen zu sprechen:

Prompting the Llama 4 Unterrichtsmodelle

Llama-4-scout-17b-16e-instruct

Im folgenden Beispiel wird ein Bild eines Balkendiagramms zusammen mit der Anweisung Provide a short summary of the data shown in the bar graph an das Gründungsmodell llama-4-scout-17b-16e-instruct übermittelt.

Ein Balkendiagramm, das ein Beispiel für eine effektive Datenextraktion aus einem Bild zeigt.

Das Stiftungsmodell llama-4-scout-17b-16e-instruct antwortet mit der folgenden umfassenden Erklärung:

Beschreibung des Balkendiagramms: Das Balkendiagramm veranschaulicht die Verteilung der Leser auf verschiedene akademische Hintergründe.

Datenpunkte:

  • Cyber-Sicherheitsinformationen: ca. 30
  • Technik: etwa 40
  • Quantenphysik: rund 50
  • Mathematik Angewandte Mathematik: unter 25
  • Informatik: über 120
  • Business IT Information: rund 85
  • Cybersicherheit (SRA): 5
  • Quantencomputing: 5

Analyse:

  • Das Fachgebiet mit den meisten Lesern ist die Informatik mit über 120.
  • Business IT Information hat rund 85 Leser.
  • Die Quantenphysik, die angewandte Mathematik, die Cybersicherheit (SRA) und die Quanteninformatik haben relativ geringe Leserzahlen.

Schlussfolgerung: Die Grafik zeigt, dass Informatik und Wirtschaftsinformatik die meisten Leser haben, während Cybersicherheit (SRA) und Quanteninformatik die wenigsten Leser haben.

Llama-4-maverick-17b-128e-instruct-fp8

Im folgenden Beispiel wird ein Dokument über InfoSphere MDM in französischer Sprache zusammen mit der Anweisung Briefly summarize the attached document in English an das Stiftungsmodell llama-4-maverick-17b-128e-instruct-fp8 übermittelt.

Das Modell antwortet mit der folgenden Zusammenfassung:

Ein Diagramm, das ein Beispiel für eine effektive Übersetzung eines Dokuments zeigt.

Das Modell llama-4-maverick-17b-128e-instruct-fp8 übersetzt das Dokument aus dem Französischen ins Englische und erstellt eine Zusammenfassung, einschließlich der Seitenzahlen der Quelle.

Aufrufen der Llama 3.2 vision models

llama-3-2-11b-vision-instruct

Im folgenden Beispiel wird ein Diagramm des RAG-Musters (retrieval-augmented generation) zusammen mit der Anweisung " Explain the process that is shown in the image" an das llama-3-2-11b-vision-instruct übermittelt.

Ein Bild-zu-Text-Grundmodell erklärt ein Diagramm des RAG-Musters.

Das Stiftungsmodell llama-3-2-11b-vision-instruct antwortet mit der folgenden umfassenden Erklärung:

Das Bild veranschaulicht den Prozess der Interaktion eines Benutzers mit einem Chatbot oder einem KI-System für Unterhaltungen. Hier ist eine schrittweise Aufschlüsselung:

  1. Benutzereingabe: Der Benutzer initiiert das Gespräch, indem er eine Frage stellt oder eine Eingabe macht.

  2. Frage: Die Anfrage des Benutzers wird vom System entgegengenommen und bearbeitet.

  3. Suche: Das System durchsucht seine Wissensbasis oder Datenbank, um relevante Informationen zur Frage des Benutzers zu finden.

  4. Top-Suchergebnisse: Das System ruft die wichtigsten Suchergebnisse aus dem Suchprozess ab.

  5. Eingabe = Anweisung + Suchergebnisse + Frage: Das System kombiniert die Eingabe des Benutzers (Frage), die Suchergebnisse und jeden zusätzlichen Kontext oder Anweisungen, um ein umfassendes Verständnis der Absicht des Benutzers zu erhalten.

  6. -Basis-Modell: Das System verwendet ein Basismodell, bei dem es sich um ein umfangreiches Sprachmodell handelt, das auf einer großen Menge von Textdaten vortrainiert wurde. Dieses Modell wird verwendet, um Antworten zu generieren, die kontextuell relevant und genau sind.

  7. Tatsächliche Antwort: Das Basismodell verarbeitet die kombinierte Eingabe und generiert eine sachliche Antwort auf der Grundlage der Suchergebnisse und der Benutzereingaben.

Zusammengefasst zeigt das Bild einen Nutzer, der mit einem Chatbot oder einem KI-System interagiert, das eine Kombination aus natürlicher Sprachverarbeitung (NLP), maschinellem Lernen und Wissensabfrage verwendet, um eine sachliche Antwort auf die Frage des Nutzers zu geben.

llama-3-2-90b-vision-instruct

Dieses Beispiel veranschaulicht, wie sich die Anweisungen, die Sie im Text geben, auf die Qualität der Ausgabe des Fundamentmodells auswirken.

Die Eingabeaufforderung, die an das llama-3-2-90b-vision-instruct übermittelt wird, enthält ein Bild, das einen effektiven Alternativtext für ein Bild einer Umsatztabelle illustriert.

Ein Diagramm, das ein Beispiel für einen effektiven Alternativtext für ein Bild zeigt.

Wenn die Anweisung spezifisch ist, erzeugt das Stiftungsmodell eine nützliche Antwort.

Anweisung
Was sagt das Bild über den alternativen Bildtext aus?
Antwort
Das Bild zeigt, wie alternativer Text verwendet werden kann, um eine prägnante und informative Beschreibung eines Bildes für sehbehinderte Personen zu liefern. Der Beispiel-Alt-Text für ein Balkendiagramm lautet: "Balkendiagramm, das die täglichen Umsätze des Monats im Vergleich zum historischen Durchschnitt zeigt", was die wesentlichen Informationen des Bildes gut wiedergibt. Dieser Ansatz stellt sicher, dass alle Benutzer, unabhängig von ihren visuellen Fähigkeiten, auf die im Diagramm dargestellten Daten zugreifen und sie verstehen können.

Wenn Sie dem Modell eine allgemeine Anweisung geben, beschreibt das Basismodell die visuellen Elemente des Bildes im Detail, interpretiert aber nicht immer die Informationen, die im Bild vermittelt werden.

Anweisung

Erklären Sie das Bild.

Antwort

Er geht auf die visuellen Elemente ein und versucht, die Informationen zu erklären, die in dem Dummy-Bild vermittelt werden, ohne den größeren Gedanken zu erfassen, der ausgedrückt wird, wie dieser Auszug aus der Antwort zeigt:

Insgesamt deutet das Bild darauf hin, dass das Unternehmen im vergangenen Jahr ein deutliches Umsatzwachstum verzeichnen konnte, mit einem bemerkenswerten Anstieg im Februar. Die rosafarbene Linie, die den durchschnittlichen monatlichen Umsatz hervorhebt, bietet einen Kontext für den Umsatztrend, der es dem Betrachter ermöglicht, die Leistung des Unternehmens schnell zu verstehen.

Verwendung des Llama Guard-Vision-Modells zur Überprüfung der Bildsicherheit

Das llama-guard-3-11b-vision Modell bewertet sowohl Bilder als auch Begleittexte hinsichtlich Sicherheitsbedenken. Um dieses Modell zu finden, wählen Sie Alle Foundation-Modelle anzeigen aus dem Modell Dropdown-Menü des Feldes aus, löschen Sie den Aufgabe>Chat Filter und wählen Sie die Modalitäten>Bild Option aus.

Wichtig: Bearbeiten Sie die Systemaufforderung für dieses Foundation-Modell nicht.

Ein Modell der Bild-zu-Text-Generierung stuft ein Foto eines flauschigen Welpen als sicher ein.

Das Modell bewertet den kombinierten Kontext von Bild und Text. Beispielsweise würde ein harmloses Bild eines Gebäudes in Verbindung mit einem Text, in dem gefragt wird, wie man dort einbrechen kann, als unsicher eingestuft werden:

Ein Bild-zu-Text-Grundlagenmodell stuft ein Bild eines Gebäudes mit einem Text, der nach einer Einbruchsmethode fragt, als unsicher ein.

Die oben S2 angezeigte Kategorie kennzeichnet Verweise auf gewaltfreie Straftaten. Weitere Informationen zu Sicherheitskategorien und reinen Text-Prompts finden Sie in der Dokumentation zu Llama Guard 3 und im Beispiel-Prompt: Prompts für Sicherheit klassifizieren.

Anregung für multimodale Mistral-Modelle

Sie können die Foundation-Modelle pixtral-12b und pixtral-large-instruct-2411 für fortgeschrittene Anwendungsfälle zur Bild- und Dokumentenanalyse verwenden.

Im folgenden Beispiel wird ein Diagramm, das die Unterschiede zwischen traditionellen KI-Modellen und Grundlagenmodellen erklärt, zusammen mit der Anweisung " What information does this image convey? an das pixtral-12b Grundlagenmodell übermittelt.

Ein Grundmodell der Bild-zu-Text-Generierung erklärt ein Diagramm der verschiedenen Arten von KI-Modellen.

Das Stiftungsmodell pixtral-12b antwortet mit der folgenden umfassenden Erklärung:

Das Bild stellt die traditionellen KI-Modelle den Stiftungsmodellen gegenüber und hebt ihre jeweiligen Mechanismen und Fähigkeiten hervor.

Traditionelle AI-Modelle Auf der linken Seite des Bildes sind traditionelle KI-Modelle abgebildet. Diese Modelle funktionieren wie folgt:

  1. Training: Jedes Modell wird anhand eines bestimmten Datentyps trainiert (dargestellt durch verschiedene Symbole, wie z. B. ein Dokument, eine Datenbank, eine Kalkulationstabelle usw.).
  2. Modelle: Für jede Art von Daten wird ein eigenes Modell erstellt (model_1, model_2, model_3 usw.).
  3. Aufgaben: Jedes Modell ist auf bestimmte Aufgaben spezialisiert, die durch grüne Häkchen gekennzeichnet sind.

Fundamentmodelle Auf der rechten Seite des Bildes sind Fundamentmodelle abgebildet:

  1. Umfangreiche externe Daten: Foundation-Modelle werden anhand einer Vielzahl unterschiedlicher externer Daten trainiert, die durch verschiedene Symbole dargestellt werden, darunter eine Datenbank, ein Dokument, Code und mehr.
  2. Foundation-Modell : Dieses Modell wird anhand umfangreicher externer Daten trainiert, wodurch es eine Vielzahl von Aufgaben bewältigen kann.
  3. Aufforderungen: Die Aufgaben werden mit Hilfe von Aufforderungen ausgeführt, die die Antworten des Modells anleiten.
  4. Aufgaben: Das Stiftungsmodell kann mehrere Aufgaben bewältigen, darunter:
    • Übersetzung
    • Textgenerierung
    • Codegenerierung
    • Beantwortung von Sachfragen

Zusammenfassung

  • Traditionelle KI-Modelle: Spezialisiert auf bestimmte Aufgaben, nachdem sie auf bestimmten Datensätzen trainiert wurden.
  • Grundlegende Modelle: An umfangreichen, vielfältigen Datensätzen trainiert, so dass sie mehrere Aufgaben mit einem einzigen Modell unter Verwendung von Eingabeaufforderungen bearbeiten können.

Weitere Informationen