Ein mehrstufiges Support-System in einem Unternehmen kann einen auf dem Large Language Model basierenden Konversationsassistenten oder Chatbot neben menschlichen Agenten verwenden, um den Endbenutzern effiziente und umfassende Unterstützung zu bieten.
Die Architektur für die Konversation mit virtuellen Assistenten ist im obigen Diagramm dargestellt. Die wichtigsten Schritte im Ablauf der Architektur sind:
Unternehmensdokumente wie Produkthandbücher, Dokumente mit häufig gestellten Fragen, Angebotsmaterialien, Prospekte, gelöste Supporttickets und andere werden in eine Instanz von IBM watsonx Discovery aufgenommen und für die semantische Suche vorbereitet.
Benutzer senden Anfragen, Probleme oder Fragen über eine Schnittstelle auf der Website des Unternehmens, einer dedizierten App oder anderen Plattformen ein. Diese Interaktion wird durch IBM watsonx Assistant erleichtert, der als primäre Schnittstelle für chatbasierte Interaktionen dient.
Für Anfragen, die das Abrufen von Daten aus den Dokumenten oder der Wissensdatenbank des Unternehmens erfordern, wird IBM watsonx Discovery aufgerufen, um nach den Informationspassagen zu suchen und diese abzurufen, die für die Anfrage des Benutzers am relevantesten sind.
Anschließend übermittelt watsonx Assistant die Benutzeranfrage und die relevanten, von watsonx Discovery abgerufenen Informationen an ein großes Sprachmodell (LLM), das auf watsonx.ai gehostet wird.
Das LLM synthetisiert die Anfrage des Nutzers und die bereitgestellten Informationen zusammen mit dem eingebetteten Wissen und generiert eine menschenähnliche Antwort, die an watsonx.ai zurückgegeben wird und dem Nutzer – möglicherweise nach Formatierung und anderer Verarbeitung – präsentiert wird.
Wenn der Benutzer mit der generierten Antwort nicht zufrieden ist (beispielsweise weil seine Anfrage differenziert, komplex ist oder spezifisches Wissen erfordert), kann er entscheiden, dass der watsonx Assistant den Anruf an einen menschlichen Mitarbeiter weiterleitet. Ebenso können Interaktionen automatisch eskaliert werden, wenn die Antwort des LLMs als wenig vertrauenswürdig oder potenziell beleidigend eingestuft wird. Sie können sich jederzeit für die Interaktion mit einem menschlichen Vertreter entscheiden. watsonx Assistant leitet die Interaktion reibungslos an einen menschlichen Mitarbeiter über das Contact-Center-Managementsystem des Unternehmens weiter.
Ein Servicemitarbeiter mit vollem Zugriff auf den Chatverlauf von watsonx Assistant unterstützt den Benutzer bei der Lösung seiner Anfrage, seines Problems oder seiner Frage.
Nach der Lösung kann das System über watsonx Assistant Feedback einholen. Dieses Feedback hilft bei der Optimierung zukünftiger Interaktionen, indem es häufig verpasste oder eskalierte Abfragen analysiert und es dem Unternehmen ermöglicht, das auf watsonx.ai gehostete LLM und/oder die Suchparameter von watsonx Discovery zu optimieren, um die Leistung zu steigern.
Die Zuordnung der IBM Watsonx-Produktfamilie zur konzeptionellen Architektur ist in der folgenden Abbildung dargestellt. Watsonx Assistant bietet die Interaktionsfunktionen der virtuellen Assistenten-Komponente, während Watsonx Discovery, ein Add-on zu Watsonx Assistant, Funktionen zur Dokumentaufnahme und semantischen Suche bietet. Die Modellentwicklungs- und Hostingumgebung watsonx.ai wird verwendet, um das große Sprachmodell auszuwählen, abzustimmen, zu testen und bereitzustellen.
Einige Kunden haben in ihrer Region keinen Zugriff auf watsonx.ai oder es bestehen Sicherheitsbedenken oder regulatorische Anforderungen, die sie an der Nutzung der watsonx.ai SaaS-Lösung hindern. Für diese Kunden bieten wir watsonx.ai als eine Reihe containerisierter Dienste an, die auf Red Hat Openshift in den Rechenzentren der Kunden, in einer virtuellen privaten Cloud (VPC) auf der Infrastruktur eines Cloud-Service-Anbieters oder an einem anderen Standort bereitgestellt werden können.
Wenn Sie ein Modell auswählen wollen, das für Ihr Projekt gut geeignet ist, spielen viele Faktoren eine Rolle.
Die Lizenz des Modells kann die Verwendung des Modells einschränken. Zum Beispiel kann die Lizenz eines Modells verhindern, dass es als Teil einer kommerziellen Anwendung verwendet wird.
Der Datensatz, der zum Trainieren des Modells verwendet wird, hat einen direkten Einfluss darauf, wie gut das Modell für eine bestimmte Anwendung funktioniert, und wirkt sich erheblich auf das Risiko aus, dass das Modell unsinnige, beleidigende oder einfach unerwünschte Antworten erzeugt. Ebenso können Modelle, die mit urheberrechtlich geschützten oder privaten Daten trainiert wurden, ihre Benutzer rechtlich haftbar machen. IBM bietet vollständige Transparenz der Trainingsdaten und Freistellung von Rechtsansprüchen, die sich aus seinen Modellen ergeben.
Die Größe des Modells, die Anzahl der Parameter, mit denen es trainiert wird, und die Größe des Kontextfensters (wie lange Textpassagen kann das Modell akzeptieren) wirken sich auf die Modellleistung, den Ressourcenbedarf und den Durchsatz aus. Es ist zwar verlockend, der Philosophie „größer ist besser“ zu folgen und ein Modell mit 20 Milliarden Parametern zu wählen, aber der Ressourcenbedarf und die Verbesserung der Genauigkeit (wenn überhaupt) rechtfertigen dies möglicherweise nicht. Aktuelle Studien zeigen, dass kleinere Modelle bei einigen Lösungen deutlich besser abschneiden können als größere Modelle.
Jede Feinabstimmung, die an einem Modell vorgenommen wird, kann sich auf seine Eignung für eine Aufgabe auswirken. IBM bietet beispielsweise zwei Versionen des Granite-Modells an: eine, die auf allgemeine Chat-Anwendungen abgestimmt ist, und eine andere, die auf die Befolgung von Anweisungen abgestimmt ist.
Weitere Überlegungen bei der Auswahl eines Modells sind:
Auswahl von Modellparametern, z. B. die Modelltemperatur, um ein ausgewogenes Verhältnis zwischen menschenähnlichen Texten und faktischen Antworten zu erzielen. Die Einstellung der Modelltemperatur auf einen hohen Wert führt zu konsistenten, aber möglicherweise uninteressanten oder zu knappen Antworten, während die Einstellung auf einen niedrigen Wert mehr Abwechslung in die Antworten bringt, aber die Länge und den Inhalt der Antworten unvorhersehbar macht.
Auswahl und Implementierung von Modellleitlinien zum Schutz vor ineffektiven oder anstößigen Ergebnissen.
Auch die Sprache der Client-Daten und der Benutzereingaben muss berücksichtigt werden. Die Mehrheit der LLM-Absolventen ist auf englischsprachige Texte spezialisiert und kann häufig zwischen Englisch und anderen Sprachen übersetzen, wobei die Fachkenntnisse unterschiedlich ausgeprägt sind. Anwendungen, die mehrsprachige oder lokalisierte Sprachunterstützung benötigen, erfordern möglicherweise die Verwendung mehrerer Modelle, die in jeder der unterstützten Sprachen trainiert wurden, oder die Implementierung eines Übersetzungsschritts, um mehrsprachige Eingaben ins Englische oder eine andere „Basis“ -Sprache zu übersetzen.