Unter Zusammenfassung versteht man die Fähigkeit, lange Dokumente zu einer prägnanten Zusammenfassung zusammenzufassen, die die wichtigsten Punkte des Gesamtwerks enthält. Aus technologischer Sicht ist die Zusammenfassung eine Herausforderung, da sie ein breites Spektrum an Funktionen erfordert: das Verstehen langer Textpassagen, die Identifizierung der wichtigsten Punkte und Themen und die Erstellung eines neuen Textes, der die Absicht des Gesamtwerks widerspiegelt. Glücklicherweise sind Large Language Models (LLMs) für diese Aufgaben gut geeignet. Mithilfe von LLMs können Architekten Lösungen erstellen, die den Benutzern helfen, den Aufwand für das Lesen langer Dokumente im Detail zu minimieren. was zu Produktivitätssteigerungen und positiveren Erfahrungen führt.

Architektur

Eine Illustration der Hauptkomponenten und ihrer Verbindungen für eine Dokumentzusammenfassungslösung.

Architekturmuster für generative KI

Das obige Diagramm zeigt die beiden Formen des Zusammenfassungsmusters. Die einfachste Form des Musters ist die Stuff Variante. In diesem Muster:

Der Inhalt eines Dokuments wird gelesen und in seiner Gesamtheit in einen LLM-Prompt kopiert.
In der Regel wird eine Prompt-Vorlage verwendet, um den Inhalt mit Anweisungen und Schlüsselwörtern zu „verpacken“, damit das Zielmodell eine Zusammenfassung erstellen kann.
Der resultierende Prompt wird an ein trainiertes LLM übermittelt, das als Antwort eine Zusammenfassung generiert.

Der Stuff Ansatz eignet sich hervorragend für kleine Dokumente, funktioniert aber nicht für Dokumente, die zu groß für das Kontextfenster des LLM oder für Sammlungen von Dokumenten sind. Glücklicherweise gibt es für diese Situationen die Map-Reduce Variante . In der Map Phase der Variante werden einzelne Dokumente und/oder Unterabschnitte von Dokumenten mit dem Stuff Ansatz in LLM-Prompts integriert. Die für die Dokumente und/oder Abschnitte zurückgegebenen Zusammenfassungen werden von der Anwendung aggregiert und dann an ein LLM (4) eingereicht, um eine Gesamtzusammenfassung der größeren Arbeit und/oder Dokumentensammlung zu erstellen. Es ist möglich, dasselbe LLM für die Map- und Reduce-Phasen zu verwenden, das Reduce-Modell muss allerdings öfter fein abgestimmt werden, um aggregierte Zusammenfassungen zu generieren, ohne wichtige Details zu verlieren.

Konzeptionell ähnelt die Zusammenfassung einer maschinellen Übersetzungsaufgabe: Das LLM soll ein langes Dokument in eine kürzere Zusammenfassung „übersetzen“. Daher sind Encoder-Decoder-Modelle wie BART und T5 gut für Zusammenfassungslösungen geeignet. Die Mehrheit der LLMs , die für Zusammenfassungen geeignet sind, wird geschult, indem sie einen oder mehrere öffentlich verfügbare Trainingssets aus Quellen wie Nachrichten, Wikipedia, Gesetzen und wissenschaftlichen Veröffentlichungen verwenden, generell benötigen sie aber eine Feinabstimmung, bevor sie akzeptable Zusammenfassungen für gezielte Geschäftsprozesse und Eingabedaten generieren können.

Ein komplexer Geschäftsprozess erfordert in der Regel mehrere, fein abgestimmte Modelle, um Zusammenfassungen für verschiedene Benutzergruppen zu erstellen. So würde ein Prozess zu Versicherungsansprüchen beispielsweise möglicherweise LLMs erfordern, die auf die Zusammenfassung und Weiterleitung von Schadensfällen, die Betrugserkennung und -untersuchung sowie auf die Zusammenfassung von Berichten von Dienstleistern wie medizinischen oder technischen Beratern abgestimmt sind.

Anwendungsfälle

Die Zusammenfassung ist ein mögliches Lösungsmuster für jedes Geschäftsszenario, in dem Benutzer routinemäßig umfangreiche Dokumente lesen und verstehen müssen, aber erst zu einem späteren Zeitpunkt im Geschäftsprozess umfassende Kenntnisse des Dokumentinhalts benötigen.

Zu den möglichen Verwendungszwecken gehören:

Beurteilung von Versicherungsansprüchen. Versicherungsansprüche, insbesondere komplexe kommerzielle und kollektive Krankenversicherungsansprüche, werden im Rahmen des Einreichungs- und Beurteilungsprozesses oft mehrfach gelesen. Oft werden Anträge zunächst gelesen, um die für die Bearbeitung des Schadens zuständige Abteilung und/oder den zuständigen Sachbearbeiter zu ermitteln. Eine weiterführende Lektüre ist erforderlich, um unabhängige Bewertungen zu verstehen und darauf zu reagieren, die Deckung zu bestimmen und potenziellen Betrug zu beurteilen. Eine Zusammenfassungslösung, die die relevanten Punkte aus einem Text extrahiert, hat das Potenzial, diese Prozesse erheblich zu verbessern.
Verträge. Handelsverträge sind oft komplex und schwer verständlich, selbst bei relativ einfachen Transaktionen. Eine Zusammenfassungslösung, die die wichtigsten Vertragsbedingungen in klarer Sprache zusammenfasst, könnte für Geschäftsleute, Anwälte und Rechtsanwaltsgehilfen in verschiedenen Branchen ein großer Vorteil sein.
Medizinische Zusammenfassungen. Die Zusammenstellung von medizinischen Zusammenfassungen aus Patientenakten ist eine mühsame Aufgabe, deren korrekte Ausführung viel Fachwissen erfordert. Eine Zusammenfassungslösung, die die Schlüsselelemente einer großen Patientenakte extrahieren und bei der Codierung von Datensätzen helfen kann (unter Verwendung von ICD-10 oder einem anderen diagnostischen Codierungsverfahren), verbessert sowohl die Geschwindigkeit als auch die Konstanz des Abstraktionsprozesses.
Produkt- und Serviceunterstützung. Die Mitarbeiter im Kundensupport werden häufig dazu aufgefordert, sich in Problemlösungen einzubringen, die sich über viele Interaktionen zwischen Kunden und dem Supportteam erstrecken können. Eine Zusammenfassungslösung, die einen Supportfall präzise zusammenfasst, kann die Einarbeitungszeit der Supportmitarbeiter verkürzen und idealerweise auch die Zeit bis zur Lösung der Fälle reduzieren.

Entscheidungen und Überlegungen zur Architektur

Bei Zusammenfassungslösungen müssen Architekten eine Reihe von wichtigen Entscheidungen treffen, um die funktionalen und nicht-funktionalen Anforderungen der Lösung zu erfüllen.

Generierungsmodell wählen

Wie oben dokumentiert, sind viele LLMs in der Lage, Textzusammenfassungen standardmäßig durchzuführen. Wenn die im Modell enthaltenen Funktionen den Lösungsanforderungen entsprechen, müssen Architekten Faktoren wie die Größe des Modells (die die Infrastrukturanforderungen bestimmt), die Qualität der Antworten und die Geschwindigkeit der Schlussfolgerungen berücksichtigen. Wenn eine Feinabstimmung erforderlich ist, müssen Architekten auch die Menge der Abstimmungsdaten und die Komplexität des Abstimmungsprozesses berücksichtigen, der erforderlich ist, um ein ausgewähltes Basismodell auf ihre speziellen Bedürfnisse abzustimmen.

Bewertungsmetriken

Die Bewertung der Leistung generativer KI-Lösungen kann aufgrund der qualitativen Natur ihrer Aufgabe herausfordernd sein, zum Beispiel wie eine generierte Zusammenfassung „besser“ als eine andere ist. Zu den gängigen Metriken gehören Verwirrung, Sprachgewandtheit, Relevanz und Kohärenz sowie BLU- und ROUGE-Metriken. Ein Architekt muss Metriken auswählen, die mit den funktionalen Anforderungen der Lösung und den allgemeinen Geschäftszielen übereinstimmen.

Ressourcen

Sehen Sie sich die Demo an, um zu erfahren, wie watsonx.ai dabei helfen kann, dichte Texte in Ihre persönliche Management-Zusammenfassung umzuwandeln, indem es die wichtigsten Punkte aus Finanzberichten, Meetingprotokollen und mehr erfasst.

Die Architektur der generativen KI von IBM

IBMs generative KI-Architektur ist die vollständige IBM generative KI-Architektur im IBM IT-Architektur-Assistent (IIAA), einem Tool zur Entwicklung und Verwaltung von Architekturen.