Ein Flussdiagramm mit verschiedenen Formen und Symbolen
Generative Suche

Die generative Suche ist die Kombination von generativen KI-Modellen mit Suchfunktionen. Sie erweitert die Such- und Abruffunktionen von Suchlösungen um die Funktionen zur Inhaltsgenerierung und Zusammenfassung von großen Sprachmodellen (LLMs). Die konzeptionelle Architektur der generativen Suche ist in der Abbildung unten dargestellt.

Eine Illustration der Hauptkomponenten und ihrer Zusammenhänge für eine generative Suchlösung.
Eine Illustration der Hauptkomponenten und ihrer Zusammenhänge für eine generative Suchlösung.
  1. Dokumente von Kunden, darunter Word-Dokumente, PDFs, Webdaten und andere strukturierte und unstrukturierte Texte, werden in eine Content Analysis Komponente eingelesen und für die semantische Suche vorbereitet.

     

  2. Ein Benutzer reicht eine Frage über die Content Analysis Benutzeroberfläche ein.

     

  3. Die Content Analysis Komponente nimmt die Frage des Benutzers und identifiziert damit die Dokumente und Informationspassagen, die für die Frage des Benutzers am relevantesten sind. Je nach Frage des Benutzers sendet die Komponente die Frage zusammen mit relevanten Dokumenten und Textpassagen an ein LLM, um eine menschliche Antwort zu generieren.

     

  4. Das LLM gibt die generierte Antwort zurück, die anschließend an den Benutzer weitergeleitet wird.

IBM Produktarchitektur

Die Zuordnung der IBM watsonx-Produktfamilie zum generativen Suchmuster ist im folgenden Diagramm dargestellt. IBM Watson Discovery wird für die Dokumentenaufnahme, das Dokumentenverständnis sowie die Inhaltsanalyse und Erkenntnisse der Content Analysis Komponente eingesetzt. IBM watsonx.ai wird verwendet, um das große Sprachmodell auszuwählen, anzupassen, zu testen und bereitzustellen, das zur Erweiterung von Watson Discovery verwendet wird.

Eine Veranschaulichung, wie IBM Watson Discovery und die IBM watsonx.ai SaaS-Plattform die generative Suchlösung realisieren.
Eine Veranschaulichung, wie IBM Watson Discovery und die IBM watsonx.ai SaaS-Plattform die generative Suchlösung realisieren.
Lokale/private Bereitstellungen

In einigen Regionen ist watsonx.ai für Kunden nicht verfügbar oder es bestehen Sicherheitsbedenken oder regulatorische Anforderungen, die sie an der Nutzung der watsonx.ai SaaS-Lösung hindern. Für diese Kunden bieten wir watsonx.ai als containerisierte Dienste an, die auf Red Hat Openshift in den Rechenzentren der Kunden oder in einer Private Cloud innerhalb der Infrastruktur eines Cloud-Service bereitgestellt werden können.

Eine Illustration, wie IBM Watson Discovery und IBM watsonx.ai lokal bereitgestellt werden können, um die generative Suchlösung zu realisieren.
Eine Illustration, wie IBM Watson Discovery und IBM watsonx.ai lokal bereitgestellt werden können, um die generative Suchlösung zu realisieren.

Entscheidungen und Überlegungen zur Architektur

Wenn Sie ein Modell auswählen wollen, das für Ihr Projekt gut geeignet ist, spielen viele Faktoren eine Rolle.

Die Lizenz des Modells kann die Verwendung des Modells einschränken. Zum Beispiel kann die Lizenz eines Modells verhindern, dass es als Teil einer kommerziellen Anwendung verwendet wird.

Die zum Trainieren des Modells verwendeten Daten haben einen direkten Einfluss darauf, wie gut das Modell für eine bestimmte Anwendung eingesetzt werden kann, und beeinflussen maßgeblich das Risiko, dass das Modell unsinnige, anstößige oder unerwünschte Antworten generiert. Ebenso können Modelle, die mit urheberrechtlich geschützten oder privaten Daten trainiert wurden, ihre Benutzer rechtlich haftbar machen. IBM gewährleistet volle Transparenz der Trainingsdaten und stellt eine Haftungsfreistellung gegen Rechtsansprüche im Zusammenhang mit seinen Modellen sicher.

Die Größe des Modells, also mit wie vielen Parametern es trainiert wurde, und die Größe seines Kontextfensters, also welche Länge an Textpassagen das Modell akzeptiert, beeinflusst die Modellleistung, den Ressourcenbedarf und damit auch die Kosten und den Durchsatz. Auch wenn es verlockend sein mag, dem Ansatz „je größer, desto besser“ zu folgen und ein Modell mit 20 Milliarden Parametern zu wählen, rechtfertigen der Ressourcenbedarf und die (gegebenenfalls vorhandene) Verbesserung der Genauigkeit dies möglicherweise nicht. Aktuelle Studien haben gezeigt, dass kleinere Modelle bei einigen Lösungen deutlich besser abschneiden als größere.

Jede Feinabstimmung, die an einem Modell vorgenommen wird, kann sich auf seine Eignung für eine Aufgabe auswirken. IBM bietet beispielsweise zwei Versionen des Granite-Modells an: eine, die auf allgemeine Chat-Anwendungen abgestimmt ist, und eine andere, die auf die Befolgung von Anweisungen abgestimmt ist.

Weitere Überlegungen bei der Auswahl eines Modells sind:

  • Auswahl von Modellparametern, z. B. die Modelltemperatur, um ein ausgewogenes Verhältnis zwischen menschenähnlichen Texten und faktischen Antworten zu erzielen. Die Einstellung der Modelltemperatur auf einen hohen Wert führt zu konsistenten, aber möglicherweise uninteressanten oder zu knappen Antworten, während die Einstellung auf einen niedrigen Wert mehr Abwechslung in die Antworten bringt, aber die Länge und den Inhalt der Antworten unvorhersehbar macht.

  • Auswahl und Implementierung von Modellleitlinien zum Schutz vor ineffektiven oder anstößigen Ergebnissen.

  • Auch die Sprache der Kundendaten und der Benutzereingaben muss berücksichtigt werden. Die meisten LLMs werden anhand von englischsprachigem Text trainiert und die Qualität der Übersetzung zwischen Englisch und anderen Sprachen variiert. Anwendungen, die eine mehrsprachige oder lokalisierte Sprachunterstützung benötigen, erfordern möglicherweise die Verwendung mehrerer Modelle, die in jeder der unterstützten Sprachen trainiert wurden, oder die Implementierung eines Übersetzungsschritts, um mehrsprachige Eingaben ins Englische oder eine andere Grundsprachen zu übersetzen.

Einige Kunden wünschen sich vielleicht einen Feedback-Mechanismus, um die Antworten des Systems kontinuierlich zu optimieren. Mit der Zeit kann dieses Feedback sowohl zur Verbesserung der Watson Discovery-Konfiguration (z. B. durch Verfeinerung der Suchparameter) als auch zur Feinabstimmung des LLM beitragen.

Kunden in regulierten Branchen möchten möglicherweise eine zusätzliche Überwachungsebene einbauen, um Vorschriften einzuhalten und den Benutzern Transparenz darüber zu bieten, wie ihre Anfragen bearbeitet werden und welche Rolle KI bei der Generierung von Antworten spielt.

Überwachen Sie wie bei jedem integrierten System kontinuierlich die Leistung, die Benutzerzufriedenheit und mögliche Probleme. Seien Sie bereit, die Infrastruktur zu skalieren, wenn die Benutzernachfrage steigt.

Nächste Schritte

Sprechen Sie mit unseren Experten über die Implementierung eines Hybrid Cloud-Bereitstellungsmodells.

Beitragende

Manav Gupta, Chris Kirby, Mihai Criveti, Bryan Kyle

Aktualisiert: 30. November 2023